Releases: gaboolic/rime-frost
Releases · gaboolic/rime-frost
0.0.4 新词发现
人工review分词结果,大概添加了5000个高质量高频新词,例如
诺奖 周深 学硕 秋招 止盈 群面 衡中 掌阅 社招 樊哙等
词库维护、调整词频
注:
release中 fcitx5的词库txt文件(frost_dict_for_fcitx5.txt),便于导入fcitx5(这个fcitx5词库txt文件和fcitx5-rime不是一回事,是fcitx5自带的拼音 不需要rime)
rime配置把源代码(或者rime-frost-schemas.zip) 复制到rime的配置文件夹即可
0.0.3 细胞词库
增加细胞词库重新分词
增加release脚本,生成fcitx5的词库txt文件(frost_dict_for_fcitx5.txt),便于导入fcitx5(注:这个fcitx5词库txt文件和fcitx5-rime不是一回事,是fcitx5自带的拼音 不需要rime)
rime配置把源代码复制到rime的配置文件夹即可
0.0.2 分词 重新统计字频、词频,归一化
使用745396750字的高质量语料,进行分词,重新统计字频、词频,归一化。
原始配置和词库由雾凇拼音的 af2480b commit 修改而来。
雾凇词库里的词比较全但也不是非常全,主要的问题是字频和词频不太对,废词有点多,于是重新制作。
主要维护词库、词频。在雾凇词库的基础上删除了不健康词汇,删除了大量冷僻词(频率==1 且分词器分不出的词),删除/调整了诸如“的吧”、“的了”这种不是词的词。手动大量修改了字频 词频。第一步是做了减法。
然后使用745396750字的高质量语料,进行分词,重新统计字频、词频,归一化,以达到更好的输入效果。全拼和双拼都可以使用。
使用方法同雾凇拼音。
todo:
拆分细胞词库,加上长尾词,重新分词
训练一个智能语言模型
0.0.1 rime-ice last
rime-ice词频 最后一版