ShenceCup.extract_keywords

神策杯第五名解决方案，数据没有传上来，大家运行可以有问题，但是可以阅读代码，作为参考。

1. 运行环境和依赖

python2.7 依赖Python包:pandas numpy pyhanlp jieba gensim

2. 数据清洗说明

从训练数据进行新词发现，合成自定义词典，利用jieba进行分词运行程序： ./process.sh

3. 主程序运行

提取语料关键词 python extract_keywords.py > o & 关键词分析结果会在目录下result.csv文件中。

解题思路：

通过对训练语料训练分析，发现书名号内的引用内容，和人名等信息最容易作为关键词，所以使用pyhanlp包来进行命名实体识别，识别人名。另外，使用textrank提取文本摘要，使用tfidf来对关键词进行排序。优先级策略为：书名号内容 > 人名 > 在训练语料中出现过的关键词 > textrank + tfidf 权重排序。模型没有使用外部语料。

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
.gitignore		.gitignore
README.md		README.md
build_customer_words.py		build_customer_words.py
collocation_extractor.py		collocation_extractor.py
config.py		config.py
discover_new_words.py		discover_new_words.py
extract_keywords.py		extract_keywords.py
nlp_util.py		nlp_util.py
process.sh		process.sh
rule_util.py		rule_util.py
tfidf_model.py		tfidf_model.py
tokenized_corpus.py		tokenized_corpus.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ShenceCup.extract_keywords

1. 运行环境和依赖

2. 数据清洗说明

3. 主程序运行

解题思路：

About

Releases

Packages

Languages

Dikea/Shence-Cup-Keyword-Extractor

Folders and files

Latest commit

History

Repository files navigation

ShenceCup.extract_keywords

1. 运行环境和依赖

2. 数据清洗说明

3. 主程序运行

解题思路：

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages