WeChat_Article

爬取微信公众号文章

Bilibili视频演示：https://www.bilibili.com/video/BV1vN411D7Y3/

注意，除非你要断点续传，否则删除目录下conf.ini和url.json再启动！！！！

使用方法：

1、下载并解压Chrome.rar；
2、下载并解压default.zip；
3、将解压的Chrome放到解压的default里；
4、进入default目录，运行main.exe；
5、填入信息，点击“启动”即可。
6、如果想修改UI，可以安装这个：Qt Designer

背景知识:

使用公众号写文章时支持搜索其他公众号的文章的方式，来实现爬取指定公众号所有文章的目的。

程序原理:

通过selenium登录获取token和cookie，再自动爬取和下载

使用前提：
1、申请一个免费的微信公众号，个人订阅号即可(https://mp.weixin.qq.com)

更新记录：

下载文章文字内容到txt
下载文章图片
保存HTML文件，并将图片链接指向本地
添加按时间范围下载
添加cookie登陆，不成功才selenium浏览器登陆
增加记住密码功能
修复一些问题，如requests卡死
添加按关键词下载
多线程优化下载速度
增加断点续传功能（可能存在bug，推荐不要用）
拟增加备用公众号功能（暂未完成）
下载PDF格式
不需要再手动下载Chrome，启动时会自动下载

使用说明：

创建虚拟环境

conda create -n wechat python=3.9 -y

进入虚拟环境

conda activate wechat

安装三方库

pip install -r requirements.txt

对于mac用户，安装pyqt5可能会报错，可以尝试：
brew install pyqt@5
cp -r   /opt/homebrew/Cellar/pyqt@5/5.15.7_2/lib/python3.9/site-packages/*   /Users/songxf/miniconda3/envs/wechat/lib/python3.9/site-packages/   
然后就可以导入了：
import PyQt5

运行脚本

python main.py

打包exe(生成在dist下)

pyinstaller -F -w -i icon.ico main.py

其他说明：

爬取间隔太快，容易遇到“访问频繁”或“freq_control”，这时候可以删除cookie.json，再重新运行软件，换个号继续运行；
Qt打包完实在是太大了，有大佬会转成Tkinter吗？

欢迎关注微信公众号：xfxuezhang

打赏

如果这个项目帮助到了你，欢迎请我喝杯阔落👏🏻

Name		Name	Last commit message	Last commit date
Latest commit History 86 Commits
Qt/WeChat		Qt/WeChat
LICENSE		LICENSE
README.md		README.md
WeChat.py		WeChat.py
icon.ico		icon.ico
main.py		main.py
requirements.txt		requirements.txt
yf.png		yf.png
抓取文章图.png		抓取文章图.png
效果图.png		效果图.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

WeChat_Article

使用方法：

背景知识:

程序原理:

更新记录：

使用说明：

其他说明：

打赏

About

Releases 1

Packages

Languages

License

1061700625/WeChat_Article

Folders and files

Latest commit

History

Repository files navigation

WeChat_Article

使用方法：

背景知识:

程序原理:

更新记录：

使用说明：

其他说明：

打赏

About

Topics

Resources

License

Stars

Watchers

Forks

Releases 1

Packages 0

Languages

Packages