感知机无法对英文进行分词吗？ #991

cchangping · 2018-10-09T08:25:40Z

注意事项

请确认下列注意事项：

我已仔细阅读下列文档，都没有找到答案：
我已经通过Google和issue区检索功能搜索了我的问题，也没有找到答案。
我明白开源社区是出于兴趣爱好聚集起来的自由社区，不承担任何责任或义务。我会礼貌发言，向每一个帮助我的人表示感谢。
我在此括号内输入x打钩，代表上述事项确认完毕。

版本号

当前最新版本号是：1.6.8
我使用的版本是：1.6.8

是否是英文训练的模型没有加入英文，所以无法对英文进行分词？

触发代码

   PerceptronLexicalAnalyzer analyzer = new PerceptronLexicalAnalyzer();
   String str = "Apache Commons is an Apache project focused on all aspects of reusable Java components. ";
   System.out.println(analyzer.analyze(str));

期望输出

[Apache/nx,  /w, Commons/nx,  /w, is/nx,  /w, an/nx,  /w, Apache/nx,  /w, project/nx,  /w, focused/nx,  /w, on/nx,  /w, all/nx,  /w, aspects/nx,  /w, of/nx,  /w, reusable/nx,  /w, Java/nx,  /w, components/nx, ./w,  /w]

实际输出

Apache Commons is an Apache project focused on all aspects of reusable Java components. /nr

The text was updated successfully, but these errors were encountered:

wchnjstar123 · 2018-10-11T01:10:48Z

Hanlp本来就是针对中文的，模型也是用中文语料训练的，所以。。。

hankcs · 2018-10-13T18:42:25Z

英文tokenization不需要统计模型，不需要用感知机对英文分词。

cchangping · 2018-10-18T01:08:32Z

英文tokenization不需要统计模型，不需要用感知机对英文分词。

在实际使用过程中，经常会一遇到一篇内容里面，既有中文又有英文，是否可以使用感知机进行分词，让其支持英文分词呢？

hankcs · 2018-10-18T01:14:09Z

我会在近期加入一个简单的规则模块处理英文和数字，你可以跟踪wiki里的未来工作：https://github.com/hankcs/HanLP/wiki/%E7%BB%93%E6%9E%84%E5%8C%96%E6%84%9F%E7%9F%A5%E6%9C%BA%E6%A0%87%E6%B3%A8%E6%A1%86%E6%9E%B6#%E6%9C%AA%E6%9D%A5%E5%B7%A5%E4%BD%9C

就个人使用而言，中文文章里的英文一般是连续的短语，比如iphone 4s，United States，按空格拆成单词未必是好事。

hankcs · 2020-01-01T10:56:28Z

感谢您对HanLP1.x的支持，我一直为没有时间回复所有issue感到抱歉，希望您提的问题已经解决。或者，您可以从《自然语言处理入门》中找到答案。

时光飞逝，HanLP1.x感谢您的一路相伴。我于东部标准时间2019年12月31日发布了HanLP1.x在上一个十年最后一个版本，代号为最后的武士。此后1.x分支将提供稳定性维护，但不是未来开发的焦点。

值此2020新年之际，我很高兴地宣布，HanLP2.0发布了。HanLP2.0的愿景是下一个十年的前沿NLP技术。为此，HanLP2.0采用TensorFlow2.0实现了最前沿的深度学习模型，通过精心设计的框架支撑下游NLP任务，在海量语料库上取得了最前沿的准确率。作为第一个alpha版本，HanLP 2.0.0a0支持分词、词性标注、命名实体识别、依存句法分析、语义依存分析以及文本分类。而且，这些功能并不仅限中文，而是面向全人类语种设计。HanLP2.0提供许多预训练模型，而终端用户仅需两行代码即可部署，深度学习落地不再困难。更多详情，欢迎观看HanLP2.0的介绍视频，或参与论坛讨论。

展望未来，HanLP2.0将集成1.x时代继承下来的高效率务实风范，同时冲刺前沿研究，做工业界和学术界的两栖战舰，请诸君继续多多指教，谢谢。

hankcs added the question label Oct 13, 2018

hankcs added a commit that referenced this issue Oct 28, 2018

词法分析器加入规则 enableRuleBasedSegment #991

655ae03

hankcs closed this as completed Jan 1, 2020

hankcs added ignored and removed question labels Jan 1, 2020

hankcs added a commit that referenced this issue Jan 10, 2020

词法分析器加入规则 enableRuleBasedSegment #991

3b70496

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

感知机无法对英文进行分词吗？ #991

感知机无法对英文进行分词吗？ #991

cchangping commented Oct 9, 2018

wchnjstar123 commented Oct 11, 2018

hankcs commented Oct 13, 2018

cchangping commented Oct 18, 2018

hankcs commented Oct 18, 2018

hankcs commented Jan 1, 2020

感知机无法对英文进行分词吗？ #991

感知机无法对英文进行分词吗？ #991

Comments

cchangping commented Oct 9, 2018

注意事项

版本号

触发代码

期望输出

实际输出

wchnjstar123 commented Oct 11, 2018

hankcs commented Oct 13, 2018

cchangping commented Oct 18, 2018

hankcs commented Oct 18, 2018

hankcs commented Jan 1, 2020