Skip to content

changwookjun/DataScrapingCrawling

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Data Scraping

용어 설명

  • Scraping : 각각의 페이지에서 정보를 추출하는 행위
  • Crawling : 자동으로 정보 추출을 반복하는 프로그램

Web Site 저작권

  • 저작권 Site 정책 : url/robots.txt (예: www.google.com/robots.txt )
  • 한국법 : 2016년 재정된 저작권법 제 30조: 정보 해석을 목적으로 저작물을 복제/번안 가능

사람처럼 보이기 위한 방법

  • 사이트를 너무 빠르게 이동 하지 마세요. (sleep 사용)
  • header를 바꿔서 사용하세요 .
  • 쿠키가 함께 전송 되는지 확인 하세요 .
  • 폼을 전송하거나 POST요청을 보낼 때는 서버에서 기대하는 모든 데이터를 보내세요 .
    • 크롬 개발자 툴에서 Network Tab을 보면 확인 가능 합니다.
    • 폼의 hidden 필드를 확인 하면 알 수 있습니다.
  • 403 Forbidden Error를 받는다면 IP가 차단 되었을 확률이 높습니다.
    • 새로운 IP로 요청을 시도 하여야 하므로 가까운 까페에 가서 스크래핑을 수행하세요 ^^

위에 내용을 모두 만족 하기 위해서 아래와 같이 순차적으로 정리 한 내용 입니다.

목차
01. requests 와 beautifulesoup 을 사용하여 naver news 가져오기

02. urllib 와 requests을 사용하여 Naver NMT 번역 호출 하기

03. Naver NMT API를 통한 파일 번역

04.requests를 사용한 네이버 웹툰 이미지 저장하기

05.requests를 이용한 file upload 06. beautifulsoup의 parsing하는 여러가지 함수 사용

07. beautifulsoup의 parsing하는 여러가지 함수 사용 2

08. BeautifulSoup을 사용해서 팟빵 mp3 다운로드 하기

09.Selenium을 사용한 접근 그리고 로그인 하기

Author

ChangWookJun / @changwookjun (changwookjun@gmail.com)