GitHub - Jayhello/scrape_news: using python Scrapy framework, do multiprocess scrape news

由于工作需要使用python+scrapy框架做了一个新闻舆情的爬虫系统，当时任务比较紧自己也没有搞过爬虫，但最终还是较好的完成了任务，现在把做的大致思路记录分享一下。

首先，展示一下部分截图吧：

本文主要内容如下：

近两年国家对网络的内容监管十分的严格，前一两年被称为“网络直播年”因此出现了有很多直播公司。我们需要第一时间知道有关直播的新闻（直播新闻的特点是新闻会根据标题（包含“直播”，“女直播”）吸引网络用户阅读）。因此我的大致思路是获取各大新闻网站所有的含有相关关键词的新闻，爬取其url以及标题。

由于前面也没有做过爬虫相关的内容，于是google搜索了一下“python common scrape website framework”最终确定使用scrapy框架。

首先上个代码框架的截图吧

注意：

代码的注释还是挺多的，相信大致看一下跑一下应该没什么问题。

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
config		config
log		log
scrape_yy		scrape_yy
utils		utils
README.md		README.md
nohup_restart_process.sh		nohup_restart_process.sh
scrapy.cfg		scrapy.cfg

Provide feedback