各个统计文件的计算方法

Jump to bottom

冬日新雨 edited this page May 23, 2020 · 1 revision

工具中有若干统计文件，具体的计算方法如下：

idf.txt

TFIDF 算法的反文频文件，具体参考 TFIDF 算法

pos_combine_weight.json

短语主要由实词组成，且有很多类型，偏正短语，动宾短语等等。这些短语类型可以由词汇的词性判定。
在人工标注的真实关键短语中，上述类型的短语存在一定的分布，如60%的关键短语为偏正短语。而根据算法抽取出的短语也有相应的分布，如30%是偏正短语。两者之间存在偏差。
分别统计真实人工标记的短语分布，以及算法计算的短语分布，两者之间可以得到一个对分布的修正参数。这个参数就是pos_combine_weight.json 文件中。

topic_word_weight.json 与 word_topic_weight.json

首先使用 LDA 训练主题模型，其中的 THETA 参数就是主题词分布。而词到主题的分布，需要重新统计训练预料中，每个词在各个主题的分布情况，计算时注意归一化。如果不了解 LDA 模型，会不太理解上述两个文件如何得到。