웹 크롤러1
웹 크롤러란?
인터넷에 있는 웹 페이지를 방문해서 자료를 수집하는 일을 하는 프로그램을 말합니다. 이때 한 페이지만 방문하는 것이 아니라 그 페이지에 링크되어 있는 또 다른 페이지를 차례대로 방문하고 이처럼 링크를 따라 웹을 돌아다니는 모습이 마치 거미와 비슷하다고 해서 스파이더라고 부르기도 합니다. 엄청난 분량의 웹문서를 사람이 일일 구별해서 모으는 일은 불가능에 가깝습니다. 때문에 웹 문서 검색에서는 사람이 일일이 하는 대신 이를 자동으로 수행해 줍니다.
제가 이용한 환경
IDE: pycharm
사용한 라이브러리
- requests: 쉽게 http 요청을 보낼 수 있는 라이브러리
- BeautifulSoup: HTML정보로부터 원하는 데이터를 가져오기 쉽게, 비슷한 분류의 데이터별로 나누어주는(parsing) 파이썬 라이브러리
- telegram: 텔레그램 봇을 활용하여 메시지를 보내기 위한 라이브러리
-schedule: 파이썬 스케줄러에 활용되는 라이브러리
- time: 시간과 관련된 라이브러리
telegram chatbot 생성 방법
1. 핸드폰에서 텔레그램 어플 다운
2. botfather라고 검색
3. /newbot 명령어를 메시지 창에 입력
4. 봇의 이름 입력
5. 봇의 고유 이름을 입력 -> 이름에 무조건 bot이란 단어가 들어가야합니다.또한, 다른 봇과 중복되지 않는 고유한 단어야합니다.
6. 봇 생성뒤에 토큰 HTTP API를 주는데 거기 맨 앞에 있는 숫자가 토큰이다.
7. 채팅 채널에다가 봇의 고유의 이름으로 입력
8. 채팅 채널에다가 /start이라고 입력
9. 채팅 id를 알아내기 위해 ttps://api.telegram.org/bot[토큰]/getUpdates <- 여기에 검색
10. 거기 message_id 옆에에 있는 것이 채팅 아이디
코드: