Skip to content

Latest commit

 

History

History
56 lines (41 loc) · 3.69 KB

teanaps_web_scraper_guide-cafe_post_scraper.md

File metadata and controls

56 lines (41 loc) · 3.69 KB

TEANAPS Naver Cafe Post Scraper

TEANAPS Naver Cafe Post Scraper는 네이버 카페 게시글 및 댓글 수집을 위한 웹스크래핑(크롤링) 도구입니다. 네이버 카페 내 검색결과를 수집 대상으로 하며 키워드 검색으로 원하는 기간, 게시판 대상으로 데이터 수집이 가능합니다. 본 자료는 수십만 개 이상의 네이버 카페 게시글을 수집하며 테스트 및 최적화를 진행하여 안정된 데이터 수집을 지원합니다. 직접 네이버 카페 데이터를 수집하고 TEANAPS를 활용해 텍스트 분석에 활용해보세요.

  • 본 자료는 텍스트 마이닝을 활용한 연구 및 강의를 위한 목적으로 제작되었습니다.
  • 본 자료를 강의 또는 연구 목적으로 활용하고자 하시는 경우 꼭 아래 메일주소로 연락주세요.
  • 본 자료에 대한 상업적 활용과 허가되지 않은 배포를 금지합니다.
  • 강의, 저작권, 출판, 특허, 공동저자에 관련해서는 문의 바랍니다.
  • Contact : ADMIN(admin@teanaps.com)

User Guide

1. 수집할 카페 게시글 검색

2. 수집할 카페 검색결과 정보입력

  • 아래 코드에서 수집할 카페 검색결과 정보를 입력합니다.

    Python Code (in Jupyter Notebook) :

    # 수집할 카페 검색결과 정보를 입력합니다.
                                       # 네이버 카페에서 게시글을 검색하고 검색결과 URL을 입력합니다.
                                       # URL은 네이버 카페에서 게시글 검색 후 검색결과 페이지 번호의 링크를 복사하여 찾을 수 있습니다.
                                       # 전체 URL에서 맨 뒤 페이지 번호는 제거하고 입력합니다. (URL = "~search.page=")
    URL = "https://cafe.naver.com/dieselmania?iframe_url=/ArticleSearchList.nhn%3Fsearch.clubid=11262350%26search.media=0%26search.searchdate=all%26userDisplay=15%26search.option=0%26search.sortBy=date%26search.searchBy=0%26search.query=%C3%BB%B9%D9%C1%F6%26search.viewtype=title%26search.page="
    PAGE_LIMIT = 3                     # 검색결과 중 수집할 최대 페이지 수를 입력합니다. (검색결과 페이지 수 보다 적게 입력)
    POST_LIMIT = 5                     # 수집할 최대 게시글 수를 입력합니다.
    SAVE_FILENAME = "cafe_post.txt"    # 수집결과를 저장할 파일명을 입력합니다.

3. 수집시작


Release history

2021.10.02. teanaps-cafe-post-scraper v1.0.0 업데이트


Update History

2021.10.17. Selenium 라이브러리 버전 업데이트 반영
2021.10.02. 기본 구성 입력



ⓒ 2021. TEANAPS rights reserved.