-
Notifications
You must be signed in to change notification settings - Fork 11
Lexicon
تیهو دارای مخزنی با بیش از صد هزار واژه و عبارت برچسبگذاری شده به همراه آواهای آنها میباشد. از این مخزن برای تولید غلطیاب فارسی لیلک هم استفاده میشود.
پس از مرحله تفکیک، از این مخزن برای برچسب گذاری توکنها استفاده میشود. برای رسیدن به بهینهترین زمان ممکن تیهو جدول درهمسازی مختص به خود را پیادهسازی کرده است که نه تنها میتوان واژگان فارسی را در آن جستجو کرد بلکه این امکان وجود دارد که بر اساس نوع واژه «وند»های آن را هم مشخص کرد. جدول وندهای فارسی نه تنها حجم مخزن را کاهش میدهد بلکه کمک میکند حالتهای مختلف کلمه نیز بررسی و جستجو شوند.
برای گرفتن بهترین خروجی از مخزن در ابتدا هر توکن به همراه دو توکن بعدی آن در مخزن جستجو میشوند. اگر موردی پیدا شد آنرا برچسب گذاری میکند. این امر در نهایت ادامه مییابد تا خود توکن به تنهایی در مخزن جستجو شود. برای نمونه «نمی» و «آید» در مخزن به صورت «نمیآید» شناسایی میشود.
در نهایت اگر توکن مورد نظر در مخزن پیدا نشود، برنامه تیهو سعی در شکستن واژه و پیدا کردن اجزا کلمه میکند. برخی حروف مانند «رزدذو» در زبان فارسی به حرف پسین خود نمیچسبند. این امر باعث بروز مشکلاتی در پردازش متن فارسی میشود. اینجا تیهو تلاش میکند تا اجزا واژه را بر این اساس در مخزن خود جستجو کند. برای مثال میتوان به عبارت «درعالم» اشاره کرد که به دو جز «در» و «عالم» شکسته میشود.
پس از جستجو در مخزن خروجی کار به صورت زیر در خواهد آمد:
عالمی دیگر بباید ساخت وز نو آدمی | آدمی درعالم خاکی نمی آید به دست | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
|
نکته: در اینجا ستاره به معنی هر نقش دستوری بجز اسم، صفت و فعل میباشد.