판다스가 뉴욕 증권가에서 일하는 퀀트에 의해 개발되었습니다.
판다스는 원래 증권 데이터를 분석하기 위해 만들어졌습니다. 그래서 데이터 분석을 배울 때, 증권 데이터를 사용하면 판다스의 다양한 기능들을 이해하고 활용하는데 도움이 될 것입니다.
금융 데이터 분석을 위해 가볍고 쉬운 도구를 만들기 위해 Pandas를 만들었는데요. 그리고 이 Pandas 이름의 유래는 판다 곰이 아닌 4차원 데이터를 의미하는 계량 경제의 용어 panel data에서 이 pandas의 이름이 유래되었습니다. 그래서 금융 데이터는 pandas를 배우기에 가장 좋은 데이터다라고 이야기할 수 있을 것 같습니다.
수집
이후에 데이터를 수집할 때 사용할 모듈 또는 도구에 관해서 간단하게 설명하자면
- FinanceDataReader: 단 한줄로 금융 데이터를 수집할 수 있습니다.
- requests: 데이터를 수집할 수 있습니다.
- Beautifulsoup4: 수집한 데이터를 필요한 내용만 가져오고 파싱할 수 있습니다.
- tqdm: 작업의 진행 상태를 확인할 수 있습니다.
- pandas: 코드 단 한줄로 다양한 웹사이트의 테이블 태그를 수집해 볼 수 있습니다.
- 크롬 개발자 도구: 복잡하게 수집해야하는 데이터들도 아주 간단하게 수집을 해볼 수 있습니다.
전처리 분석
- 판다스의 filter 기능을 통한 여러 칼럼 한번에 전처리 하기
- 판다스의 melt를 통한 tiny data 만들기
- merge와 concat의 차이점과 활용방법
- groupby, pivot_table, crosstab, value_count를 통한 통계적 연산
시각화
시각화에서는 정적인 도구와 동적인 도구를 모두 사용해볼 것입니다. Python에서 대표적인 시각화 도구인 Matplotlib을 통해서, Pandas와 Seaborn을 통해서도 시각화를 해줄 것입니다. 그리고 자바스크립트 기반인 Plotly와 Ploty와 Pandas를 강력하게 이어서 생산성을 높여주는 Cufflinks도 사용해줄 것입니다.
'파이썬' 카테고리의 다른 글
파이썬 업무자동화 - WorkBook, WorkSheet 객체 설정하기 (0) | 2022.09.27 |
---|---|
파이썬 업무 자동화 - 엑셀의 구성 요소 (0) | 2022.09.27 |
파이썬을 활용한 크롤링(네이버 페이지 데이터 수집 실습) (0) | 2022.05.12 |
파이썬을 활용한 크롤링(Melon 홈페이지 정보 가지고 오기 실습) (0) | 2022.05.08 |
파이썬을 활용한 크롤링(크롤링 개요/Request 사용법3) (0) | 2022.05.08 |