-
5. selenium 과 BeautifulSoup을 이용한 본격 웹 크롤링 - 설치Python/파이썬 웹 크롤러 2019. 5. 16. 22:47반응형
앞서 파이썬의 기본 라이브러리인 urllib와 ElementTree를 이용한 RSS 크롤링을 해 보았습니다.
RSS도 웹 서비스의 일종이라 웹 크롤링으로 볼 수는 있겠지만,
우리가 흔히 보는 웹 서비스와는 거리가 있어서, 독자들의 기대치에는 많이 못 미쳤을 거라 생각됩니다.
이제 셀레니움을 사용해서 본격적인 웹 크롤링을 해봅시다. ^^
selenium은 웹드라이버를 통해 크롬이나 파이어폭스 브라우저를 컨트롤합니다.덕분에 로그인 통과 정도는 너무 쉬워졌고, 기존 크롤러들에게는 난제였던 자바스크립트 문제까지 해결이 됩니다.
selenium도 단점이 있습니다.이유는 잘 알 수 없지만 몇 천 페이지를 크롤링 하다보면 중간에 한번씩 다운되는 경우가 있습니다.
따라서, 중간부터 재시작 할 가능성도 염두에 두고 프로그램을 작성하는 것이 좋습니다.
주파이터 노트북은 멈춘 부분 근처에서 재시작하는 것도 어렵지 않습니다.
beautiful soup는 html 파서입니다.
외부 라이브러리 답게 복잡한 페이지를 파싱할 때 기본 라이브러리 보다는 좀 더 편리하도록 개량되어 있습니다.
selenium의 설치
1. 이제는 익숙하실 겁니다. pip로 셀레니움을 설치합니다.
pip install selenium
2. 이제 웹 드라이버를 다운 받으셔야 합니다.
웹 브라우저 마다 웹 드라이버가 다릅니다.
저는 크롬을 이용할 생각입니다.
본인이 사용하시는 크롬의 버전에 맞게 드라이버를 설치합니다.
https://sites.google.com/a/chromium.org/chromedriver/downloads저는 프로젝트 폴더 아래에 driver 폴더를 만들어 복사했습니다.
셀레니움의 본진(https://www.seleniumhq.org/)에서는 조금 찾기 어렵게 되어 있습니다.
다운로드 페이지(https://www.seleniumhq.org/download/)
아래 쪽 3rd party driver에 크롬의 드라이버가 보이네요.beautifulsoup의 설치
pip install beautifulsoup4
pip 정말 편하죠?
뷰티플 수프의 본진
https://www.crummy.com/software/BeautifulSoup/bs4/doc/반응형