파이썬

파이썬을 활용한 크롤링(크롤링 개요/Request 사용법1)

귀요미찰쓰 2022. 5. 6. 15:05
728x90
반응형
반응형

크롤링이란?

먼저 크롤링, 크롤러, 크롤이라는 단어가 무엇이냐면 기어다니다라는 뜻입니다.

즉, 웹 페이지에 있는 정보들을 컴퓨터들이 기어다니면서 정보를 수집하는 행위를 크롤링이라고합니다.

 

크롤링이 왜 필요한가?

여러분들이 대기업에 취업했다고 가정을 해봅시다. 상사께서 편의점 사이트에서 상품명, 가격 내일 아침까지 다 정리해오세요라고했다고 합시다. 그러면 여러분들은 어떻게 해야하냐 우리가 크롤링이라는 기술을 배우기전에는 직접 브라우저를 키고 검색을한 다음에 가격 정보들을 엑셀에 일일히 적어서 저장할 것입니다. 그런데 이건 데이터에 한계가 있습니다. 일일히 노가다 형식으로 가져오는 것이기 때문에 시간상으로 문제가 있습니다. 그럴 때 크롤링이라는 것을 사용하면 그렇게 정보를 안 가져와도 됩니다.

 

 

크롤링할 때 파이썬이라는 언어를 활용하는 이유

 

사실 자바라는 언어도 크롤링이 가능합니다. 실제로는 엄청나게 방대한 양의 데이터를 크롤링할 때는 자바 크롤링이 더 효율적이라고는 하는데 제가 왜 파이썬이라는 언어로 크롤링을 할 것이냐는 일단 기본적으로 언어가 읽고 쓰기가 편리합니다. 두번째로는 인터프리터 언어입니다. 세번째로는 플랫폼에 독립적입니다. 이게 무슨 말이냐면 제가 쓰는 운영체제가 윈도우던지 리눅스라던지 신경쓰지 않고 어떤 운영체제든 독립적으로 돌아갑니다. 그래서 따로 제가 세팅 안해도 됩니다.

 

빅데이터란?

그냥 말대로 큰 데이터를 빅데이터라고합니다. 과거에는 3V라는 특징이 있었는데요. 규모(Volume), 속도(Velocity), 다양성(Variety)을 가진 데이터를 빅데이터라고 불렀습니다. 근데 데이터가 워낙 많아지고 방대해지니까 가치가 없는 데이터는 데이터가 아니다해서 빅데이터 특징에 정확성이랑 가치가 특징에 끼게 되었습니다.

다른 말로는 디지털 환경에서 생성되는 수치, 문자, 이미지, 영상 데이터를 모두 포함하는 데이터가 빅데이터입니다.

 

 

그래서 실제로 유튜브는 약 1분마다 400시간 분량의 동영상들이 업로드가 되고 있고 페이스북 같은 경우에는 하루에 수 억장의 이미지가 업로드가 되고 있습니다. 이게 무슨 말이냐면 더이상 이 데이터를 사람이 처리한다는건 불가능하다는 것이빈다.

 

 

수집 데이터 형태

저희가 수집해야하는 데이터 형태들이 어떤 것들이 있냐면 크게 3가지 데이터가 있습니다.

첫번째는 정형 데이터,

두번째는 반정형 데이터,

세번째로는 비정형 데이터로 나뉘어져있습니다.

 

먼저 정형 데이터로는 정돈 되어있고 정리가 되어있는 데이터를 우리는 정형 데이터라고 부릅니다. 관계형 데이터베이스(RDB) 즉 디비 그리고 스프레드시트(엑셀과 같은 파일), CSV 

 

반정형 데이터 같은 경우에는 정형 데이터와 비슷합니다. 형식은 정해져있읍니다. 대표적으로는 HTML 언어가 있습니다.

 

마지막으로 비정형 데이터 같은 경우에는 형식은 정해져있고 데이터 연산이 불가능한 데이터를 비정형 데이터라고 부릅니다. 대표적으로는 음악, 동영상 같은 데이터들이 있습니다.

 

 

 

 

반응형