파이썬

파이썬 증권 데이터 수집과 분석으로 신호와 소음 찾기1

귀요미찰쓰 2022. 5. 18. 09:18
728x90
반응형

판다스가 뉴욕 증권가에서 일하는 퀀트에 의해 개발되었습니다.

 

판다스는 원래 증권 데이터를 분석하기 위해 만들어졌습니다. 그래서 데이터 분석을 배울 때, 증권 데이터를 사용하면 판다스의 다양한 기능들을 이해하고 활용하는데 도움이 될 것입니다.

금융 데이터 분석을 위해 가볍고 쉬운 도구를 만들기 위해 Pandas를 만들었는데요. 그리고 이 Pandas 이름의 유래는 판다 곰이 아닌 4차원 데이터를 의미하는 계량 경제의 용어 panel data에서 이 pandas의 이름이 유래되었습니다. 그래서 금융 데이터는 pandas를 배우기에 가장 좋은 데이터다라고 이야기할 수 있을 것 같습니다.

 

 

수집

이후에 데이터를 수집할 때 사용할 모듈 또는 도구에 관해서 간단하게 설명하자면

- FinanceDataReader: 단 한줄로 금융 데이터를 수집할 수 있습니다.

- requests: 데이터를 수집할 수 있습니다.

- Beautifulsoup4: 수집한 데이터를 필요한 내용만 가져오고 파싱할 수 있습니다.

- tqdm: 작업의 진행 상태를 확인할 수 있습니다.

- pandas: 코드 단 한줄로 다양한 웹사이트의 테이블 태그를 수집해 볼 수 있습니다.

- 크롬 개발자 도구: 복잡하게 수집해야하는 데이터들도 아주 간단하게 수집을 해볼 수 있습니다.

 

 

전처리 분석

- 판다스의 filter 기능을 통한 여러 칼럼 한번에 전처리 하기

- 판다스의 melt를 통한 tiny data 만들기

- merge와 concat의 차이점과 활용방법

- groupby, pivot_table, crosstab, value_count를 통한 통계적 연산

 

시각화

시각화에서는 정적인 도구와 동적인 도구를 모두 사용해볼 것입니다. Python에서 대표적인 시각화 도구인 Matplotlib을 통해서, Pandas와 Seaborn을 통해서도 시각화를 해줄 것입니다. 그리고 자바스크립트 기반인 Plotly와 Ploty와 Pandas를 강력하게 이어서 생산성을 높여주는 Cufflinks도 사용해줄 것입니다. 

 

 

 

반응형