Skip to content

TolicWang/AutoNewsSummary

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

26 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

基于谷歌NMT的新闻自动摘要模型

该项目主要是基于谷歌NMT的一个新闻摘要模型,训练所用到的数据集为搜狗实验室所公开的搜狐新闻数据集

更新记录

2019-12-30

  • 修复attention参数设置bug;

2019-12-18

  • 完成了整个框架的搭建和调试工作;
  • 完成了一次完整的训练和预测过程;

使用指南

  • 1.安装

    安装好tensorflow-gpu 1.5.0版本,下载好数据集解压后放到data/SogouNews/目录下即可;

  • 2.训练

    下载完成数据后,在train.py文件中设置好相关参数,运行 python train.py即可开始训练;

    注:也可直接将训练好的模型,放入项目temp/MODEL/目录下,进行追加训练;

  • 3.预测

    按照data/SogouNews/inference_data.txt的格式,将里面的内容替换成对应的新闻文本即可,contenttitle标签部分保持不变或者任意内容即可;

使用示例

  • 训练:

    python train.py

    标签值天宫 一号  神舟 九号 24  实施 手控 交会 对接
    预测值天宫 一号  神舟 九号 成功  完成 手控 交会 对接
    
    标签值苏州 有毒气体 泄漏 事件 原因 查明 重伤    救治
    预测值江苏 有毒气体 泄漏 事件  查明 重伤    救治
    
    标签值拾荒 妇女 出租屋  离世
    预测值男子 男子   
    
    标签值上半年 山东省 就业 形势 平稳
    预测值就业 城镇 城镇居民 增长 良好
    
    标签值辽宁 推动 大小 企业 组建 联合体 共享 政府 采购
    预测值国家  商贸 公司 签署 分公司  政府 采购
  • 预测:

    python inference.py

    ## 部分运行结果
    真实标签: 「为何慈善机制落后于热情?」
    预测标签共同努力在香港高等教育的发展
    ================================
    真实标签羽西当归透白莹润精华液
    预测标签羽西当归透白莹润精华液
    ================================
    真实标签我可能感兴趣的试用
    预测标签没有小人的试用
    ================================
    真实标签使用彩妆及防晒隔离产品时,使用卸妆及洁面产品,做好双重清洁;
    预测标签<UNK>,祛痘颗粒一体(试行)
    ================================
    真实标签欧诗漫珍珠白净系列,夏日美白圣品!
    预测标签OLAY新生祛痘.D
    ================================
    真实标签提交试用报告
    预测标签提交试用报告
    ================================
    
    bleu = 10.69

    可以看到既有总结比较准确的摘要,也有一些大相径庭的情况。

实验报告

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages