微信公众号语料库 部分网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文。 Clone完Git之后,要用git lfs fetch来拿主要的文件。 目前数据大约1G,数据会定期更新增加。 请只用于研究用途。 有问题或者特殊需求直接建Issue。 linsun84@gmail.com