Tokenize

تفکیک و جداسازی

اولین مرحله برای پردازش متن در تیهو تفکیک واژگان و کلمات فارسی است. در این مرحله متن وارد شده حرف به حرف اسکن می‌شود و بر اساس جدول از پیش تدوین شده‌ای نوع توکن تشخیص داده می‌شود. اسکن حرف به حرف کمک می‌کند تا در مراحل بعد نیازی به نرمالایز کردن متن ورودی نباشد. چرا که در صورت وجود هر گونه کاراکتر غیر نرمال، معادل نرمال آن کاراکتر در نظر گرفته می‌شود. برای مثال می‌توان به «ي» و «ك» عربی اشاره کرد که در تایپ فارسی بسیار معمول می‌باشند.

خروجی تیهو در این مرحله برای متن نمونه ما به صورت زیر خواهد بود:

عالمی دیگر بباید ساخت وز نو آدمی

آدمی درعالم خاکی نمی آید به دست

توکن	نقش دستوری	آوا
عالمی
دیگر
بباید
ساخت
وز
نو
آدمی

توکن	نقش دستوری	آوا
آدمی
درعالم
خاکی
نمی
آید
به
دست

بعدی: جستجو در مخزن | فهرست

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Tokenize

تفکیک و جداسازی

Clone this wiki locally