Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Hỏi hướng dẫn train model mới #44

Open
anhtuanvn opened this issue Sep 29, 2020 · 3 comments
Open

Hỏi hướng dẫn train model mới #44

anhtuanvn opened this issue Sep 29, 2020 · 3 comments

Comments

@anhtuanvn
Copy link

Chào bạn,

Mình quan tâm tới dự án của các bạn vì nó cho phép train 1 model mới. Tuy nhiên, mình chưa hiểu rõ cách tạo tập train.txt như thế nào để đưa vào huấn luyện model.

Mình nhờ bạn gửi giúp mình hướng dẫn sử dụng chi tiết hơn, đặc biệt về cách train 1 model mới (tạo tập train.txt).

Cảm ơn bạn nhiều!

Best regards

@rain1024
Copy link
Collaborator

rain1024 commented Oct 12, 2020

@anhtuanvn Hiện tại underthesea có cung cấp một số source code để bạn có thể huấn luyện mô hình mới như tách từ (undertheseanlp/word_tokenize), gán nhãn từ loại (undertheseanlp/pos_tag), ...

Bạn có thể tham khảo các project khác ở đây https://github.com/undertheseanlp

@vukhanh1202
Copy link

@anhtuanvn Hiện tại underthesea có cung cấp một số source code để bạn có thể huấn luyện mô hình mới như tách từ (undertheseanlp/word_tokenize), gán nhãn từ loại (undertheseanlp/pos_tag), ...

Bạn có thể tham khảo các project khác ở đây https://github.com/undertheseanlp

Hi anh, em có tham khảo dự án underthesea và thấy rất hữu dụng.
Hiện tại em có xem qua 2 dự án về tự train model của bên a là undertheseanlp/word_tokenize và undertheseanlp/pos_tag. Tuy nhiên có vẻ cả 2 đã bị tạm dừng, các file code bên trong đều có khá nhiều lỗi. Ví dụ word_tokenize, các file from util.crf import train, train_test ko còn trong thư mục dự án.
Hi vọng các anh sẽ sửa để mng làm đc nhiều project cá nhân từ model của underthesea ạ :D

@rain1024
Copy link
Collaborator

rain1024 commented Nov 10, 2020

Cập nhật 10/11/2020: @anhtuanvn @vukhanh1202 Mình đang cố gắng thực hiện giải quyết issue này, các bạn theo dõi tại (⚗️-2) nhé.

Tuy nhiên, hiện tại underthesea đang sử dụng bộ dữ liệu VLSP2013-WTK và VLSP2013-POS (hai bộ dữ liệu này underthesea không có quyền chia sẻ) để huấn luyện mô hình tách từ và gán nhãn từ loại. Để thực sự giải quyết issue này, mình đang nghĩ sẽ chuẩn bị một bộ dữ liệu mở cho 2 task này (chất lượng không bằng bộ chuẩn từ VLSP)

@rain1024 rain1024 transferred this issue from undertheseanlp/underthesea Jan 15, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

3 participants