You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
{{ message }}
This repository has been archived by the owner on Nov 10, 2024. It is now read-only.
Mostafa Sedaghat Joo edited this page Oct 21, 2019
·
3 revisions
تفکیک و جداسازی
اولین مرحله برای پردازش متن در تیهو تفکیک واژگان و کلمات فارسی است. در این مرحله متن وارد شده حرف به حرف اسکن میشود و بر اساس جدول از پیش تدوین شدهای نوع توکن تشخیص داده میشود. اسکن حرف به حرف کمک میکند تا در مراحل بعد نیازی به نرمالایز کردن متن ورودی نباشد. چرا که در صورت وجود هر گونه کاراکتر غیر نرمال، معادل نرمال آن کاراکتر در نظر گرفته میشود. برای مثال میتوان به «ي» و «ك» عربی اشاره کرد که در تایپ فارسی بسیار معمول میباشند.
خروجی تیهو در این مرحله برای متن نمونه ما به صورت زیر خواهد بود: