Skip to content

Releases: hankcs/HanLP

v1.3.1常规维护

07 Oct 03:38
Compare
Choose a tag to compare
  1. 全部静态依存句法分析模型迁移到内存池
  2. 修复自定义词典的合并逻辑
  3. 数据包依然兼容data-for-1.3.0.zip
  4. Portable同步升级到v1.3.1
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.3.1</version>
        </dependency>

v1.3.0新IO接口、内存池、臺灣正體、香港繁體

24 Sep 15:30
Compare
Choose a tag to compare
  1. 统一IO接口,实现com.hankcs.hanlp.corpus.io.IIOAdapter接口即可在不同的平台(Hadoop、Redis等)上运行HanLP
  2. 新的内存池:当内存足够时尽量缓存大模型,否则自动释放
  3. 支持简体、繁体、臺灣正體、香港繁體之间"一简对多繁""一繁对多简"极致转换
  4. 拼音转换可选保留无拼音的原字符:#307 (comment)
  5. 换行符的字符类型修改为分割符
  6. 新版数据包:data-for-1.3.0.zip
  7. Portable同步升级到v1.3.0,Maven:
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.3.0</version>
        </dependency>

v1.2.11常规维护

18 Aug 14:49
Compare
Choose a tag to compare
  1. portable版使用pathSeparator分割路径,自动补全/后缀
  2. 调整繁簡字典
  3. 微调人名、机构名识别模型
  4. 调整字符正规化表,采用文本形式维护
  5. 动态开启用户词性后依然支持隐马词性标注
  6. 修复部分JVM上的自定义词性功能
  7. 小优化:对于核心词典已存在的词语,用户词典直接覆盖其属性
  8. 新版数据包:data-for-1.2.11.zip
  9. Portable同步升级到v1.2.11,Maven:
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.2.11</version>
        </dependency>

v1.2.10支持自定义词性

21 Jun 11:22
Compare
Choose a tag to compare
  1. 实现了用户自定义词性,同时支持代码动态增加和词典文件增加用户词性;请参考demo
  2. 实现了URL识别,支持包括".中国"在内的大部分IANA顶级域名
  3. BinTrie实现了Externalizable接口,可直接序列化
  4. 修正BinTrie的remove方法
  5. DoubleArrayTrie小优化
  6. 为NShortSegment添加用户词典功能
  7. 拼音词库修正
  8.  回滚旧版简繁词典,调整简繁分词逻辑
    
  9. 人工校对了几个词语及词性
  10. 新版数据包:data-for-1.2.10.zip
  11. Portable同步升级到v1.2.10,Maven:
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.2.10</version>
        </dependency>

v1.2.9常规维护

17 Mar 23:24
Compare
Choose a tag to compare
  1. 修正隐马模型转移矩阵隐状态总数的统计和转移概率的计算
  2. 地名识别算法微调
  3. 改进数词识别效果, 修复数词识别导致的潜在问题
  4. 修复人名识别模块的问题
  5. 补充文档,整理代码
  6. 数据包依然兼容标准版data-for-1.2.8-standard.zip完整版data-for-1.2.8-full.zip;海外用户请自由使用海外用户专用OneDrive链接
  7. Portable同步升级到v1.2.9
<dependency>
  <groupId>com.hankcs</groupId>
  <artifactId>hanlp</artifactId>
  <version>portable-1.2.9</version>
</dependency>

v1.2.8新年快乐

31 Dec 04:11
Compare
Choose a tag to compare
  1. TextRankKeyword新增了一些接口,优化堆排序以实现TopN
  2. 新增一个有趣的“同义改写”功能:DemoRewriteText
  3. CoreStopWordDictionary支持自定义过滤逻辑
  4. 增强神经网络句法分析器对词表外词性的健壮性
  5. 允许用户在某些极端情况下(不标准的Java虚拟机,用户缺乏相关知识等)使用绝对路径下的配置文件
  6. 当用户词典与核心词典冲突时,进一步保证用户词典的优先级
  7. 微调了人名识别、机构名识别模型
  8. 微调了简繁转换词典
  9. 新版数据集:标准版data-for-1.2.8-standard.zip完整版data-for-1.2.8-full.zip;海外用户请自由使用海外用户专用OneDrive链接
  10. Portable同步升级到v1.2.8
<dependency>
  <groupId>com.hankcs</groupId>
  <artifactId>hanlp</artifactId>
  <version>portable-1.2.8</version>
</dependency>

v1.2.7基于神经网络模型的依存句法分析器

11 Nov 12:08
Compare
Choose a tag to compare
  1. 新增基于神经网络分类模型与转移系统的判决式依存句法分析器NeuralNetworkDependencyParser和对应的模型文件
  2. 新增流式ByteArrayStream,反序列化时内存占用减半
  3. CoNLLSentence支持for遍历
  4. 重构所有依存句法分析器
  5. 日本人名、机构名模型微调
  6. 新训练的CRF分词模型,与旧版本不兼容
  7. 新版数据包:data-for-1.2.7.zip
  8. Portable同步升级到v1.2.7,Maven:
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.2.7</version>
        </dependency>

v1.2.6用户词典优先级、CRF分词支持词典

17 Oct 03:01
Compare
Choose a tag to compare
  1. 改进:自定义词典的优先级高于核心词典
  2. 大幅补充了简繁分歧词典,对简繁转换和繁体中文分词支持更好
  3. CoreStopWordDictionary不过滤null词性
  4. 为CRFSegment添加自定义词典支持
  5. 修复了BinTrie和SegmentWrapper的潜在问题
  6. 一些模型、词典的人工微调
  7. 数据包依然兼容data-for-1.2.4.zip

v1.2.5繁体分词优化,CRF分词优化

09 Sep 09:13
Compare
Choose a tag to compare
  1. 新增加了一些工具,开放了对内部词库的动态读写
  2. CRFModel支持BiGram Feature Template,成为通用的模型类
  3. Suggester 增加removeAllSentences方法
  4. 优化繁体中文分词
  5. 优化CRF分词对标点的支持
  6. 数据包依然兼容data-for-1.2.4.zip

v1.2.4

12 Jul 08:52
Compare
Choose a tag to compare
  1. 调整用户词典作用为:分词后使用用户词典合并相邻词语
  2. KeywordExtractor排除空格换行等
  3. 优化地名识别模块对短地名的处理
  4. 词典加载期间提供更人性化的报错信息
  5. 默认关闭字符正规化
  6. 求解两个数组中最相近的数更新到一种O(n)时间的算法
  7. 自动校验CoreNatureDictionary.ngram.txt的缓存与CoreNatureDictionary.txt的缓存的一致性
  8. 词典微调,最新数据集:data-for-1.2.4.zip
  9. Portable同步升级到v1.2.4,Maven:
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.2.4</version>
        </dependency>