Skip to content

hy89/ganji_spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

运行顺序

  • 先运行utils中的get_city,传入省份信息,得到省内包含的市的信息,存入json文件中(本代码仅实现河南一地的数据)
  • 运行name=ganji的爬虫,爬取完成,数据存储在ganji_phone(数据最终存储位置)集合中,公司信息item存储在job_detail集合中
  • 调用name=job的爬虫,如果出现重定向,即被反爬,代码终止,数据存储在test_job集合中(可改代码直接存到ganji_phone)
  • 在log中查看最后请求失败的url,在浏览器打开进行验证
  • 此时重新运行此爬虫,直到程序正常运行完成,没有出现反爬虫.
  • 运行utils中的test_job2ganji_phone,将数据合并

数据保存

  • 将test_job数据合并到ganji_phone中,同时修改源代码,更改需要插入的数据库,至此完成本项目数据抓取工作

  • test_job 中保存的item是请求职位信息后的结果

  • job_detail中保存的是有招聘的所有公司的item

  • ganji_phone中保存的是所有的item最终结果

  • job:dupefilter保存的是职位详情url和公司页面url

  • ganji:dupefilter保存的是除了有招聘信息的公司之外的所有请求

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages