카테고리 없음

웹 크롤러1

귀요미찰쓰 2021. 11. 3. 01:25
728x90
반응형
반응형

웹 크롤러란?

인터넷에  있는 웹 페이지를 방문해서 자료를 수집하는 일을 하는 프로그램을 말합니다. 이때 한 페이지만 방문하는 것이 아니라 그 페이지에 링크되어 있는 또 다른 페이지를 차례대로 방문하고 이처럼 링크를 따라 웹을 돌아다니는 모습이 마치 거미와 비슷하다고 해서 스파이더라고 부르기도 합니다. 엄청난 분량의 웹문서를 사람이 일일 구별해서 모으는 일은 불가능에 가깝습니다. 때문에 웹 문서 검색에서는 사람이 일일이 하는 대신 이를 자동으로 수행해 줍니다.

 

제가 이용한 환경

IDE: pycharm

사용한 라이브러리

- requests: 쉽게 http 요청을 보낼 수 있는 라이브러리

- BeautifulSoup: HTML정보로부터 원하는 데이터를 가져오기 쉽게, 비슷한 분류의 데이터별로 나누어주는(parsing) 파이썬 라이브러리

- telegram: 텔레그램 봇을 활용하여 메시지를 보내기 위한 라이브러리

-schedule: 파이썬 스케줄러에 활용되는 라이브러리

- time: 시간과 관련된 라이브러리

 

telegram chatbot 생성 방법

1. 핸드폰에서 텔레그램 어플 다운

2. botfather라고 검색

3. /newbot 명령어를 메시지 창에 입력

4. 봇의 이름 입력

5. 봇의 고유 이름을 입력 -> 이름에 무조건 bot이란 단어가 들어가야합니다.또한, 다른 봇과 중복되지 않는 고유한 단어야합니다.

6. 봇 생성뒤에 토큰 HTTP API를 주는데 거기 맨 앞에 있는 숫자가 토큰이다.

7. 채팅 채널에다가 봇의 고유의 이름으로 입력

8. 채팅 채널에다가 /start이라고 입력

9. 채팅 id를 알아내기 위해 ttps://api.telegram.org/bot[토큰]/getUpdates    <- 여기에 검색

10. 거기 message_id 옆에에 있는 것이 채팅 아이디

 

코드:

반응형