Data Scraping
용어 설명
- Scraping : 각각의 페이지에서 정보를 추출하는 행위
- Crawling : 자동으로 정보 추출을 반복하는 프로그램
Web Site 저작권
- 저작권 Site 정책 : url/robots.txt (예: www.google.com/robots.txt )
- 한국법 : 2016년 재정된 저작권법 제 30조: 정보 해석을 목적으로 저작물을 복제/번안 가능
사람처럼 보이기 위한 방법
- 사이트를 너무 빠르게 이동 하지 마세요. (sleep 사용)
- header를 바꿔서 사용하세요 .
- 쿠키가 함께 전송 되는지 확인 하세요 .
- 폼을 전송하거나 POST요청을 보낼 때는 서버에서 기대하는 모든 데이터를 보내세요 .
- 크롬 개발자 툴에서 Network Tab을 보면 확인 가능 합니다.
- 폼의 hidden 필드를 확인 하면 알 수 있습니다.
- 403 Forbidden Error를 받는다면 IP가 차단 되었을 확률이 높습니다.
- 새로운 IP로 요청을 시도 하여야 하므로 가까운 까페에 가서 스크래핑을 수행하세요 ^^
위에 내용을 모두 만족 하기 위해서 아래와 같이 순차적으로 정리 한 내용 입니다.
목차
01. requests 와 beautifulesoup 을 사용하여 naver news 가져오기
02. urllib 와 requests을 사용하여 Naver NMT 번역 호출 하기
04.requests를 사용한 네이버 웹툰 이미지 저장하기
05.requests를 이용한 file upload 06. beautifulsoup의 parsing하는 여러가지 함수 사용
07. beautifulsoup의 parsing하는 여러가지 함수 사용 2
08. BeautifulSoup을 사용해서 팟빵 mp3 다운로드 하기
09.Selenium을 사용한 접근 그리고 로그인 하기
ChangWookJun / @changwookjun (changwookjun@gmail.com)