Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

word_tokenize tokenize với dấu câu. #291

Closed
behitek opened this issue Nov 30, 2019 · 2 comments
Closed

word_tokenize tokenize với dấu câu. #291

behitek opened this issue Nov 30, 2019 · 2 comments

Comments

@behitek
Copy link

behitek commented Nov 30, 2019

Em có thử với một số câu khác thì hình như chỉ các câu có Canxi sau dấu chấm bị

>>> str = 'Quá đúng . Canxi là một trong những khoáng chất'
>>> str = underthesea.word_tokenize(text, format='text')
>>> print(str)
Quá đúng ._Canxi là một trong những khoáng_chất
@rain1024
Copy link
Contributor

rain1024 commented Dec 2, 2019

@nguyenvanhieuvn Thanks em đã report. Lỗi này có thể walk through bằng cách tách câu trước.

Nhóm sẽ cải tiến ở các lần release sau

@rain1024
Copy link
Contributor

same as #536

@rain1024 rain1024 mentioned this issue Jun 9, 2024
4 tasks
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants