Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Hỗ trợ phân tích tiếng Việt không dấu #200

Open
tk1cntt opened this issue Sep 20, 2018 · 6 comments
Open

Hỗ trợ phân tích tiếng Việt không dấu #200

tk1cntt opened this issue Sep 20, 2018 · 6 comments
Labels
feature A request for a proper, new feature.

Comments

@tk1cntt
Copy link

tk1cntt commented Sep 20, 2018

Hiện tại thư viện underthesea có giải pháp nào hỗ trợ việc phân tích được một câu tiếng Việt không dấu k nhỉ?
VD: lap trinh vien tri tue nhan tao ha noi

@rain1024
Copy link
Contributor

@tk1cntt Phân tích tiếng Việt không dấu có nhiều bài toán

  • Tự động thêm dấu
  • Tách từ một chuỗi không dấu

Bạn hỏi bài toán nào nhỉ?

@tk1cntt
Copy link
Author

tk1cntt commented Sep 20, 2018

Bạn có thể nói về 2 phương pháp được k?

Mình muốn ứng dụng pos_tag cho chuỗi không dấu giống như pos_tag của underthesea hiện h.

Không biết nó sẽ thuộc bài toán nào?

lap trinh vien tri tue nhan tao ha noi

=> Kết quả mong muốn

Lập trình => N

Trí tuệ => N

Nhân tạo => N

Hà Nội => N

@rain1024
Copy link
Contributor

Nếu kết quả mong muốn như bạn mô tả, thì nó thuộc về bài toán thêm dấu tiếng Việt

Input:

lap trinh vien tri tue nhan tao ha noi

Output:

Lập trình => N
Trí tuệ => N
Nhân tạo => N
Hà Nội => N

Sẽ có hai bước:

Bước 1: Thêm dấu vào chuỗi không dấu

lap trinh vien tri tue nhan tao ha noi

Output:

lập trình viên trí tuệ nhân tạo Hà Nội

Bước 2: Áp dụng pos_tag trên chuỗi "lập trình viên trí tuệ nhân tạo Hà Nội" bình thường

lập trình viên => N
trí tuệ => N
nhân tạo => A
Hà Nội => N

@rain1024
Copy link
Contributor

rain1024 commented Sep 20, 2018

Hiện tại, underthesea chưa hỗ trợ cho bài toán thêm dấu, bạn có thể tham khảo các repository khác thực hiện bài toán này nhé https://github.com/undertheseanlp/NLP-Vietnamese-progress/blob/master/tasks/spelling_correction.md

@tk1cntt
Copy link
Author

tk1cntt commented Sep 20, 2018

Cám ơn bạn. Mình sẽ tìm hiểu thêm

@linh1995
Copy link

linh1995 commented Feb 4, 2021

Mình muốn hỏi tách từ 1 chuỗi không dấu

@rain1024 rain1024 mentioned this issue Jan 1, 2023
4 tasks
@rain1024 rain1024 mentioned this issue Jun 9, 2024
4 tasks
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
feature A request for a proper, new feature.
Projects
None yet
Development

No branches or pull requests

3 participants