Skip to content
This repository has been archived by the owner on Nov 10, 2024. It is now read-only.

Tokenize

Mostafa Sedaghat Joo edited this page Oct 21, 2019 · 3 revisions

تفکیک و جداسازی

اولین مرحله برای پردازش متن در تیهو تفکیک واژگان و کلمات فارسی است. در این مرحله متن وارد شده حرف به حرف اسکن می‌شود و بر اساس جدول از پیش تدوین شده‌ای نوع توکن تشخیص داده می‌شود. اسکن حرف به حرف کمک می‌کند تا در مراحل بعد نیازی به نرمالایز کردن متن ورودی نباشد. چرا که در صورت وجود هر گونه کاراکتر غیر نرمال، معادل نرمال آن کاراکتر در نظر گرفته می‌شود. برای مثال می‌توان به «ي» و «ك» عربی اشاره کرد که در تایپ فارسی بسیار معمول می‌باشند.

خروجی تیهو در این مرحله برای متن نمونه ما به صورت زیر خواهد بود:

عالمی دیگر بباید ساخت وز نو آدمی آدمی درعالم خاکی نمی آید به دست
توکن نقش دستوری آوا
عالمی
دیگر
بباید
ساخت
وز
نو
آدمی
توکن نقش دستوری آوا
آدمی
درعالم
خاکی
نمی
آید
به
دست

بعدی: جستجو در مخزن | فهرست

Clone this wiki locally