该项目主要是基于谷歌NMT的一个新闻摘要模型,训练所用到的数据集为搜狗实验室所公开的搜狐新闻数据集。
2019-12-30
- 修复attention参数设置bug;
2019-12-18
- 完成了整个框架的搭建和调试工作;
- 完成了一次完整的训练和预测过程;
-
1.安装
安装好
tensorflow-gpu 1.5.0
版本,下载好数据集解压后放到data/SogouNews/
目录下即可; -
2.训练
下载完成数据后,在
train.py
文件中设置好相关参数,运行python train.py
即可开始训练;注:也可直接将训练好的模型,放入项目
temp/MODEL/
目录下,进行追加训练; -
3.预测
按照
data/SogouNews/inference_data.txt
的格式,将里面的内容替换成对应的新闻文本即可,contenttitle
标签部分保持不变或者任意内容即可;
-
训练:
python train.py
标签值:天宫 一号 与 神舟 九号 24 日 实施 手控 交会 对接 预测值:天宫 一号 与 神舟 九号 成功 日 完成 手控 交会 对接 标签值:苏州 有毒气体 泄漏 事件 原因 查明 重伤 者 仍 在 救治 预测值:江苏 有毒气体 泄漏 事件 致 查明 重伤 者 仍 未 救治 标签值:拾荒 妇女 出租屋 内 离世 预测值:男子 男子 被 被 被 标签值:上半年 山东省 就业 形势 平稳 预测值:就业 城镇 城镇居民 增长 良好 标签值:辽宁 推动 大小 企业 组建 联合体 共享 政府 采购 预测值:国家 将 商贸 公司 签署 分公司 与 政府 采购
-
预测:
python inference.py
## 部分运行结果 真实标签: 「为何慈善机制落后于热情?」 预测标签: 共同努力在香港高等教育的发展 ================================ 真实标签: 羽西当归透白莹润精华液 预测标签: 羽西当归透白莹润精华液 ================================ 真实标签: 我可能感兴趣的试用 预测标签: 没有小人的试用 ================================ 真实标签: 使用彩妆及防晒隔离产品时,使用卸妆及洁面产品,做好双重清洁; 预测标签: <UNK>,祛痘颗粒一体(试行) ================================ 真实标签: 欧诗漫珍珠白净系列,夏日美白圣品! 预测标签: OLAY新生祛痘.D ================================ 真实标签: 提交试用报告 预测标签: 提交试用报告 ================================ bleu = 10.69
可以看到既有总结比较准确的摘要,也有一些大相径庭的情况。