-
Notifications
You must be signed in to change notification settings - Fork 68
各个统计文件的计算方法
冬日新雨 edited this page May 23, 2020
·
1 revision
工具中有若干统计文件,具体的计算方法如下:
- TFIDF 算法的反文频文件,具体参考 TFIDF 算法
- 短语主要由实词组成,且有很多类型,偏正短语,动宾短语等等。这些短语类型可以由词汇的词性判定。
- 在人工标注的真实关键短语中,上述类型的短语存在一定的分布,如60%的关键短语为偏正短语。而根据算法抽取出的短语也有相应的分布,如30%是偏正短语。两者之间存在偏差。
- 分别统计真实人工标记的短语分布,以及算法计算的短语分布,两者之间可以得到一个对分布的修正参数。这个参数就是pos_combine_weight.json 文件中。
- 首先使用 LDA 训练主题模型,其中的 THETA 参数就是 主题词分布。而词到主题的分布,需要重新统计训练预料中,每个词在各个主题的分布情况,计算时注意归一化。如果不了解 LDA 模型,会不太理解上述两个文件如何得到。