jieba-tw

結巴(jieba)斷詞台灣繁體特化版本

原理

採用和原始jieba相同的演算法，替換其詞庫及HMM機率表製做出針對台灣繁體的jieba斷詞器

安裝

pip install git+https://github.com/APCLab/jieba-tw.git

使用

本專案特化部分如下

import jieba

jieba.case_sensitive = True # 可控制對於詞彙中的英文部分是否為case sensitive, 預設False

斷詞

import jieba

#如果您的電腦同時要使用兩個版本的jieba，請自訂cache檔名，避免兩個cache互相蓋住對方
#jieba.dt.cache_file = 'jieba.cache.new'

seg_list = jieba.cut("新竹的交通大學在新竹的大學路上")
print(" / ".join(seg_list))
# 新竹 / 的 / 交通 / 大學 / 在 / 新竹 / 的 / 大學路 / 上 /

其餘操作請參考結巴官方文件

其餘注意事項

參考ldkrsi版本之說明

Name		Name	Last commit message	Last commit date
Latest commit History 545 Commits
.circleci		.circleci
jieba_tw		jieba_tw
test		test
.gitattributes		.gitattributes
.gitignore		.gitignore
Changelog		Changelog
LICENSE		LICENSE
MANIFEST.in		MANIFEST.in
Pipfile		Pipfile
Pipfile.lock		Pipfile.lock
README.md		README.md
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

jieba-tw

原理

安裝

使用

斷詞

其餘注意事項

About

Releases 1

Packages

Languages

License

cookpad/jieba-tw

Folders and files

Latest commit

History

Repository files navigation

jieba-tw

原理

安裝

使用

斷詞

其餘注意事項

About

Resources

License

Stars

Watchers

Forks

Releases 1

Packages 0

Languages

Packages