该项目是基于计算机类专利说明书的文本摘要算法,基于TextRank算法。
编程语言:python3
数据:100篇专利说明书文本,格式与“CN208315896U.txt”一致。
实验结果最后通过ROUGE来进行评价。
(2020-10-17更新)
说明:基于上述Demo,在大三下学期尝试撰写一篇文章(水文)。
论文标题:基于专利结构的中文专利摘要研究
摘要:文本摘要任务旨在通过对原文进行压缩提炼,得出简明扼要的内容描述。针对中文专利文本,提出了一种基于 PatentRank 算法生成专利摘要的算法。首先,对候选句群做冗余处理,以去除候选句群中相似度较高的句子;然后,对专利中的权利要求书和说明书构建 3 种不同的相似度计算方法,以计算句子之间的影响权重;最后,选取权值高的句子输出,并将其作为专利的摘要。该算法在选取的数据集中取得了较好的效果。实验结果表明提出的算法相比于已有方法在 ROUGE 值上有显著提高。
文章已经收录在万方、知网等数据库,感兴趣的朋友可以去搜一下。