ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 5. selenium 과 BeautifulSoup을 이용한 본격 웹 크롤링 - 설치
    Python/파이썬 웹 크롤러 2019. 5. 16. 22:47
    반응형

    앞서 파이썬의 기본 라이브러리인 urllib와 ElementTree를 이용한 RSS 크롤링을 해 보았습니다. 

    RSS도 웹 서비스의 일종이라 웹 크롤링으로 볼 수는 있겠지만, 

    우리가 흔히 보는 웹 서비스와는 거리가 있어서, 독자들의 기대치에는 많이 못 미쳤을 거라 생각됩니다.

     

    이제 셀레니움을 사용해서 본격적인 웹 크롤링을 해봅시다. ^^


    selenium은 웹드라이버를 통해 크롬이나 파이어폭스 브라우저를 컨트롤합니다.

    덕분에 로그인 통과 정도는 너무 쉬워졌고, 기존 크롤러들에게는 난제였던 자바스크립트 문제까지 해결이 됩니다.

    selenium도 단점이 있습니다. 

    이유는 잘 알 수 없지만 몇 천 페이지를 크롤링 하다보면 중간에 한번씩 다운되는 경우가 있습니다. 

    따라서, 중간부터 재시작 할 가능성도 염두에 두고 프로그램을 작성하는 것이 좋습니다.

    주파이터 노트북은 멈춘 부분 근처에서 재시작하는 것도 어렵지 않습니다. 

     

    beautiful soup는 html 파서입니다. 

    외부 라이브러리 답게 복잡한 페이지를 파싱할 때 기본 라이브러리 보다는 좀 더 편리하도록 개량되어 있습니다. 

    selenium의 설치

    1. 이제는 익숙하실 겁니다. pip로 셀레니움을 설치합니다. 

    pip install selenium

    2. 이제 웹 드라이버를 다운 받으셔야 합니다. 

    웹 브라우저 마다 웹 드라이버가 다릅니다.

     

    저는 크롬을 이용할 생각입니다.

    본인이 사용하시는 크롬의 버전에 맞게 드라이버를 설치합니다.
    https://sites.google.com/a/chromium.org/chromedriver/downloads

    저는 프로젝트 폴더 아래에 driver 폴더를 만들어 복사했습니다. 

    셀레니움의 본진(https://www.seleniumhq.org/)에서는 조금 찾기 어렵게 되어 있습니다.
    다운로드 페이지(https://www.seleniumhq.org/download/)
    아래 쪽 3rd party driver에 크롬의 드라이버가 보이네요.

    beautifulsoup의 설치

    pip install beautifulsoup4

    pip 정말 편하죠?
    뷰티플 수프의 본진
    https://www.crummy.com/software/BeautifulSoup/bs4/doc/

     

    반응형
Designed by Tistory.