Bilibili_crawler 基于bilibili懒加载api爬取b站动态，视频等评论区

可以看csdn详细教程基于bilibili懒加载api爬取b站动态，视频等评论区。动态评论，视频评论均能爬取。必须进行去重，爬取评论有重复的。制作的比较简陋，希望大家提提意见。失效时间未知！

爬取下来的uid和rpid由于数字过长，当你保存时，excel会自动省略掉后面位数/采用科学计数法，导致数据失效，百度一下怎么解决

使用方法

一：

0.修改json内容，如果您不会获取cookie等内容请使用2方式，加载浏览器较慢，一次不成功可以多次。
0.1（F12打开开发者工具，等待某个视频/动态加载完全，点击Network选项，向下滑动评论区，直到加载出一个main?oid开头的东西，oid，type，cookie均在这里面）
1.安装所需要的库，pip install -r requirements.txt
2.修改chrome driver路径对应代码line46（如果您自己保存了cookie等内容，请用方式1，可以不设置） 3.修改需要爬取的网页，对应代码line50
4.输入你的账号密码，对应代码line58.59 5.对应你想要保存的文件夹，修改json内容（file1：主评论；file2：子评论；file3：总共评论）

二：

点击运行，选择模式1，2。
模式一在您的信息准确时，会开始爬取。
模式二程序会启动一个浏览器，自动输入账号密码，这期间不要动，直到出现验证码，需要你点一下验证码，这个点验证码速度要快一点，10s内就行，否则会识别cookie和oid失败，网页第一次加载卡顿可以尝试多运行几次该程序，让浏览器产生缓存加速，多试几次，程序无错误

三：

因为一页只能爬20条评论，用总评论数字/20，得到总页数，写在json的up/down，例如有10000条评论，那么up = 500#结束爬的页数，但是因为10000是含有了子评论的总数，所以一定比500低，无伤大雅，多的网页爬不到东西，等一会就行

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
comments		comments
数据清洗		数据清洗
Bilibili_crawler.py		Bilibili_crawler.py
README.md		README.md
b站使用wbi签名的爬取方式.py		b站使用wbi签名的爬取方式.py
config.json		config.json
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Bilibili_crawler 基于bilibili懒加载api爬取b站动态，视频等评论区

爬取下来的uid和rpid由于数字过长，当你保存时，excel会自动省略掉后面位数/采用科学计数法，导致数据失效，百度一下怎么解决

使用方法

一：

二：

三：

About

Releases

Packages

Languages

linyuye/Bilibili_crawler

Folders and files

Latest commit

History

Repository files navigation

Bilibili_crawler 基于bilibili懒加载api爬取b站动态，视频等评论区

爬取下来的uid和rpid由于数字过长，当你保存时，excel会自动省略掉后面位数/采用科学计数法，导致数据失效，百度一下怎么解决

使用方法

一：

二：

三：

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages