5. selenium 과 BeautifulSoup을 이용한 본격 웹 크롤링

5. selenium 과 BeautifulSoup을 이용한 본격 웹 크롤링 - 설치

Python/파이썬 웹 크롤러 2019. 5. 16. 22:47

반응형

앞서 파이썬의 기본 라이브러리인 urllib와 ElementTree를 이용한 RSS 크롤링을 해 보았습니다.

RSS도 웹 서비스의 일종이라 웹 크롤링으로 볼 수는 있겠지만,

우리가 흔히 보는 웹 서비스와는 거리가 있어서, 독자들의 기대치에는 많이 못 미쳤을 거라 생각됩니다.

이제 셀레니움을 사용해서 본격적인 웹 크롤링을 해봅시다. ^^

selenium은 웹드라이버를 통해 크롬이나 파이어폭스 브라우저를 컨트롤합니다.

덕분에 로그인 통과 정도는 너무 쉬워졌고, 기존 크롤러들에게는 난제였던 자바스크립트 문제까지 해결이 됩니다.

selenium도 단점이 있습니다.

이유는 잘 알 수 없지만 몇 천 페이지를 크롤링 하다보면 중간에 한번씩 다운되는 경우가 있습니다.

따라서, 중간부터 재시작 할 가능성도 염두에 두고 프로그램을 작성하는 것이 좋습니다.

주파이터 노트북은 멈춘 부분 근처에서 재시작하는 것도 어렵지 않습니다.

beautiful soup는 html 파서입니다.

외부 라이브러리 답게 복잡한 페이지를 파싱할 때 기본 라이브러리 보다는 좀 더 편리하도록 개량되어 있습니다.

selenium의 설치

1. 이제는 익숙하실 겁니다. pip로 셀레니움을 설치합니다.

pip install selenium

2. 이제 웹 드라이버를 다운 받으셔야 합니다.

웹 브라우저 마다 웹 드라이버가 다릅니다.

저는 크롬을 이용할 생각입니다.

본인이 사용하시는 크롬의 버전에 맞게 드라이버를 설치합니다.
https://sites.google.com/a/chromium.org/chromedriver/downloads

저는 프로젝트 폴더 아래에 driver 폴더를 만들어 복사했습니다.

셀레니움의 본진(https://www.seleniumhq.org/)에서는 조금 찾기 어렵게 되어 있습니다.
다운로드 페이지(https://www.seleniumhq.org/download/)
아래 쪽 3rd party driver에 크롬의 드라이버가 보이네요.

beautifulsoup의 설치

pip install beautifulsoup4

pip 정말 편하죠?
뷰티플 수프의 본진
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

반응형
관련글 관련글 더보기

ABOUT ME

ComDoc ComDoc

selenium의 설치

beautifulsoup의 설치

티스토리툴바

ABOUT ME

selenium의 설치

beautifulsoup의 설치

관련글 관련글 더보기

티스토리툴바