Skip to content

各个统计文件的计算方法

冬日新雨 edited this page May 23, 2020 · 1 revision

工具中有若干统计文件,具体的计算方法如下:

idf.txt

  • TFIDF 算法的反文频文件,具体参考 TFIDF 算法

pos_combine_weight.json

  • 短语主要由实词组成,且有很多类型,偏正短语,动宾短语等等。这些短语类型可以由词汇的词性判定。
  • 在人工标注的真实关键短语中,上述类型的短语存在一定的分布,如60%的关键短语为偏正短语。而根据算法抽取出的短语也有相应的分布,如30%是偏正短语。两者之间存在偏差。
  • 分别统计真实人工标记的短语分布,以及算法计算的短语分布,两者之间可以得到一个对分布的修正参数。这个参数就是pos_combine_weight.json 文件中。

topic_word_weight.json 与 word_topic_weight.json

  • 首先使用 LDA 训练主题模型,其中的 THETA 参数就是 主题词分布。而词到主题的分布,需要重新统计训练预料中,每个词在各个主题的分布情况,计算时注意归一化。如果不了解 LDA 模型,会不太理解上述两个文件如何得到。