Skip to content
This repository has been archived by the owner on Nov 10, 2024. It is now read-only.

Lexicon

Mostafa Sedaghat Joo edited this page Oct 21, 2019 · 4 revisions

جستجو در واژه‌نامه

تیهو دارای مخزنی با بیش از صد هزار واژه و عبارت برچسب‌گذاری شده به همراه آواهای آنها می‌باشد. از این مخزن برای تولید غلط‌یاب فارسی لیلک هم استفاده می‌شود.

پس از مرحله تفکیک، از این مخزن برای برچسب گذاری توکن‌ها استفاده می‌شود. برای رسیدن به بهینه‌ترین زمان ممکن تیهو جدول درهم‌سازی مختص به خود را پیاده‌سازی کرده است که نه تنها می‌توان واژگان فارسی را در آن جستجو کرد بلکه این امکان وجود دارد که بر اساس نوع واژه «وند»های آن را هم مشخص کرد. جدول وندهای فارسی نه تنها حجم مخزن را کاهش می‌دهد بلکه کمک می‌کند حالتهای مختلف کلمه نیز بررسی و جستجو شوند.

برای گرفتن بهترین خروجی از مخزن در ابتدا هر توکن به همراه دو توکن بعدی آن در مخزن جستجو می‌شوند. اگر موردی پیدا شد آنرا برچسب گذاری می‌کند. این امر در نهایت ادامه می‌یابد تا خود توکن به تنهایی در مخزن جستجو شود. برای نمونه «نمی» و «آید» در مخزن به صورت «نمی‌آید» شناسایی می‌شود.

در نهایت اگر توکن مورد نظر در مخزن پیدا نشود، برنامه تیهو سعی در شکستن واژه و پیدا کردن اجزا کلمه می‌کند. برخی حروف مانند «رزدذو» در زبان فارسی به حرف پسین خود نمی‌چسبند. این امر باعث بروز مشکلاتی در پردازش متن فارسی می‌شود. اینجا تیهو تلاش می‌کند تا اجزا واژه را بر این اساس در مخزن خود جستجو کند. برای مثال می‌توان به عبارت «درعالم» اشاره کرد که به دو جز «در» و «عالم» شکسته می‌شود.

پس از جستجو در مخزن خروجی کار به صورت زیر در خواهد آمد:

عالمی دیگر بباید ساخت وز نو آدمی آدمی درعالم خاکی نمی آید به دست
توکن نقش دستوری آوا
عالمی اسم Alami
صفت Alemi
فعل Alemi
دیگر صفت digar
* digar
بباید فعل bebAyad
ساخت اسم sAxt
فعل sAxt
وز
نو صفت no
آدمی اسم Adami
صفت Adami
فعل Adami
توکن نقش دستوری آوا
آدمی اسم Adami
صفت Adami
فعل Adami
در اسم dar
* dar
عالم اسم alam
صفت alem
خاکی اسم xAki
صفت xAki
فعل xAki
نمی‌آید فعل nemiAyad
به * be
دست اسم dast

نکته: در اینجا ستاره به معنی هر نقش دستوری بجز اسم، صفت و فعل می‌باشد.


بعدی: آوا یابی | فهرست | قبلی: تفکیک

Clone this wiki locally