模型说明(English)
已开放新闻、网页、小说、微博领域主题模型,其他领域的模型会陆续开放。
使用百度新闻2016全年千万级新闻数据训练, 词表规模294657, 主题数2000。 模型包括LDA、SentenceLDA(SLDA), Topical Word Embedding (TWE), 其中模型均存放于model/news目录中
* lda.conf # LDA模型inference所需配置文件
* slda.conf # Sentence-LDA模型inference所需配置文件
* news_lda.model # LDA模型参数, 存储格式为libSVM格式
* news_slda.model # Sentence-LDA模型参数, 存储格式为libSVM格式
* news_twe_lda.model # TWE模型参数, 二进制存储, 包括词向量与主题向量
* vocab_info.txt # 词表文件, 中文编码采用UTF-8
使用千万级别网页数据训练,词表规模283827,LDA模型主题数为4267,SentenceLDA(SLDA)模型主题数为5000。 模型包括LDA、SentenceLDA(SLDA), Topical Word Embedding (TWE), 其中模型均存放于model/webpage目录中
* lda.conf # LDA模型inference所需配置文件
* slda.conf # Sentence-LDA模型inference所需配置文件
* webpage_lda.model # LDA模型参数, 存储格式为libSVM格式
* webpage_slda.model # Sentence-LDA模型参数, 存储格式为libSVM格式
* webpage_twe_lda.model # TWE模型参数, 二进制存储, 包括词向量与主题向量
* vocab_info.txt # 词表文件, 中文编码采用UTF-8
使用百度万级别小说数据训练,词表规模243617,LDA模型主题数为500,SentenceLDA(SLDA)模型主题数为500。 模型包括LDA、SentenceLDA(SLDA), Topical Word Embedding (TWE), 其中模型均存放于model/novel目录中
* lda.conf # LDA模型inference所需配置文件
* slda.conf # Sentence-LDA模型inference所需配置文件
* novel_lda.model # LDA模型参数, 存储格式为libSVM格式
* novel_slda.model # Sentence-LDA模型参数, 存储格式为libSVM格式
* novel_twe_lda.model # TWE模型参数, 二进制存储, 包括词向量与主题向量
* vocab_info.txt # 词表文件, 中文编码采用UTF-8
使用约一亿微博数据训练,每一条实例由一条微博状态以及其一条评论组成,词表规模175347,SentenceLDA(SLDA)模型主题数为2000。 模型包括SentenceLDA(SLDA), 其中模型均存放于model/weibo目录中
* slda.conf # Sentence-LDA模型inference所需配置文件
* weibo_slda.model # Sentence-LDA模型参数, 存储格式为libSVM格式
* vocab_info.txt # 词表文件, 中文编码采用UTF-8