Python
-
6. selenium 과 BeautifulSoup으로 daum 카페 크롤링 - 본문편Python/파이썬 웹 크롤러 2019. 5. 17. 20:36
* 주의사항 과도한 크롤링은 법적인 문제가 될 수도 있습니다. 실습 시 대상 서버에 과도한 부하가 걸리지 않도록 주의합시다. 다음은 과도한 크롤링이 적발될 경우 계정을 정지시킵니다. 미리 연습용 계정을 만드는 것도 괜찮겠네요. 예제 주소: https://github.com/pycrawling/crawling-tutorial/blob/master/daum-cafe-mobile-crawler-article.ipynb * 모바일용 홈페이지를 공략하자. 모바일용 홈페이지가 PC용 홈페이지보다 단순한 구조를 가진 경우가 많습니다. 구조가 단순할 수록 크롤링이 쉽습니다. 1. 필요한 라이브러리들을 불러옵니다. 예제 중 설명이 필요한 부분만 블로그에 올리겠습니다. from selenium import webdrive..
-
5. selenium 과 BeautifulSoup을 이용한 본격 웹 크롤링 - 설치Python/파이썬 웹 크롤러 2019. 5. 16. 22:47
앞서 파이썬의 기본 라이브러리인 urllib와 ElementTree를 이용한 RSS 크롤링을 해 보았습니다. RSS도 웹 서비스의 일종이라 웹 크롤링으로 볼 수는 있겠지만, 우리가 흔히 보는 웹 서비스와는 거리가 있어서, 독자들의 기대치에는 많이 못 미쳤을 거라 생각됩니다. 이제 셀레니움을 사용해서 본격적인 웹 크롤링을 해봅시다. ^^ selenium은 웹드라이버를 통해 크롬이나 파이어폭스 브라우저를 컨트롤합니다. 덕분에 로그인 통과 정도는 너무 쉬워졌고, 기존 크롤러들에게는 난제였던 자바스크립트 문제까지 해결이 됩니다. selenium도 단점이 있습니다. 이유는 잘 알 수 없지만 몇 천 페이지를 크롤링 하다보면 중간에 한번씩 다운되는 경우가 있습니다. 따라서, 중간부터 재시작 할 가능성도 염두에 두고 ..
-
4. 기상청 RSS를 파싱해보자. (python, ElementTree)Python/파이썬 웹 크롤러 2019. 5. 16. 19:25
예제 주소: https://github.com/pycrawling/crawling-tutorial/blob/master/weather.ipynb 1. XML과 트리구조 xml은 Tree 구조를 가집니다. 구글에서 검색해보세요. xml 트리 구조 위 그림에서 아래의 트리구조를 확인할 수 있습니다. link와 item 은 아래에 자식 요소(엘리먼트)가 더 있지만 생략했습니다. rss -+- channel -+- title +- link -+ +- description +- language +- generator +- pubDate +- item -+ 브라우저에서 다음 링크를 연 후에 삼각형을 클릭해보면서 트리 구조를 확인합시다. http://www.kma.go.kr/weather/forecast/mid-te..
-
3. 기상청 RSS를 크롤링해보자. (python, urllib)Python/파이썬 웹 크롤러 2019. 5. 16. 18:07
예제 : https://github.com/pycrawling/crawling-tutorial/blob/master/weather.ipynb 0. 주의사항 과도한 크롤링은 법적인 문제가 될 수도 있습니다. 실습 시 대상 서버에 과도한 부하가 걸리지 않도록 주의합시다. 1. RSS란 RSS 란 Really Simple Syndication 또는 Rich Site Summary 의 줄임말입니다. RSS 를 활용하면 직접 방문 없이 RSS 리더를 통해서 최신 정보를 모아서 볼 수 있습니다. 주로 언론사의 홈페이지에서 제공합니다. 뉴스 모아보기가 가능~! 팟 캐스트도 일종의 RSS 서비스 입니다. RSS 내에 미디어 파일을 링크한 것입니다. 2. 기상청 RSS 서비스 https://www.weather.go.k..
-
2. 크롤러 제작 시 최고(?)의 개발환경, 주피터 노트북Python/파이썬 웹 크롤러 2019. 5. 16. 17:12
1. jupyter notebook 주피터라고 읽는 경우가 흔하겠지만, '파이'썬의 느낌을 살려서 주'파이'터라고 읽는 경우도 있는 것 같습니다. 저는 주파이터로 읽는 게 재미있네요. 일반적인 용도의 파이썬 개발환경이라면 파이참(PyCharm)을 선택하겠지만, 크롤러 제작이 목표라면 주피터가 훨씬 좋은 것 같습니다. 주파이터는 블럭 단위로 프로그래밍을 할 수 있는 장점이 있습니다. 복잡한 사이트를 크롤링할 때는 단계별로 쪼개면서 코딩과 테스트를 병행하는데, 이때 주파이터의 블럭이 많은 도움이 됩니다. https://jupyter.org/ 2. 주피터 노트북의 설치 공식 홈페이지의 설치 항목이 가장 정확합니다. !!! 하지만 제 맘데로 설치를 했네요. https://jupyter.org/install.ht..
-
1. 파이썬 설치 / 파워쉘 탐색기에서 실행하기Python/파이썬 웹 크롤러 2019. 5. 16. 16:49
파이썬 설치 파이썬 설치 관련해서는 인터넷에 좋은 한글 문서들이 많습니다. 그래서 넘어가려다가 넘어가기도 섭섭한 것 같아서, 윈도우 환경 설치만 간략히 정리합니다. 먼저 파이썬 공식 홈페이지로 갑니다. https://www.python.org/downloads/ 최신 버전을 다운로드 받습니다. 자신의 OS 가 64비트라면 64비트를 잘 모르시겠다면 32비트를 선택하시면 됩니다. * 이 문서는 3.7.3 버전을 기준으로 작성되었습니다. 설치가 완료되면 리부팅한 뒤에 쉘(커맨드라인)에서 python을 입력해서 파이썬이 정상적으로 실행되면 됩니다. 너무 허전한 느낌이라.. 팁을 하나 남기겠습니다. TIP) 윈도우 탐색기에서 파워쉘 실행 1. 탐색기의 여백에서 'shift + 마우스 우클릭'을 하면 '여기에 P..
-
0. 파이썬을 배우자. 파이썬 무료 강의, 이북 추천.Python/파이썬 웹 크롤러 2019. 5. 16. 16:32
크롤러를 만들기 전에 파이썬의 기본적인 부분은 알아둬야 할 것 같습니다. 파이썬은 책 없이 인터넷으로 공부를 해도 충분할 정도로, 퀄리티 높은 한글 공개 문서들이 많습니다. 몇 가지를 소개해 보겠습니다. 1. 점프 투 파이썬 https://wikidocs.net/book/1 오프라인 책으로도 출판되었고, 국내 파이썬 입문서 중에 가장 많이 팔린 책으로 알고 있습니다. 입문자라면 점프 투 파이썬이 좋을 것 같네요. 2. 예제로 배우는 Python 프로그래밍 http://pythonstudy.xyz/Python/Basics 제가 가장 많이 방문한 사이트입니다. 다양한 부분을 '가볍게' 다루고 있습니다. 빠른 시간 내에 파이썬을 파악할 수 있도록 구성되어 있네요. 다른 프로그래밍 언어를 경험해 본 분들께 추천..