groovy TagText.groovy -i <input_file> -o <output_file>
Аналізує текст і записує результат у виходовий файл:
- розбиває на речення
- розбиває на лексеми
- проставляє теги для лексем
- робить базове зняття омонімії (наразі алгоритм розомонімізації знімає лише близько тисячі найпростіших випадків омонімії)
Головні опції:
--semanticTags
- додає семантичні теги; цей тип тегування базується на Українському семантичному лексиконі (УСЛ), дані якого лежать тут--tokenFormat
- формат<token><alts>...</alts></token>
замість<tokenReading><token>...</token></tokenReading>
--disambiguate=frequency|context
зняття омонімії за статистикою
Для тегування лексем використовується словник української мови з проекту ВЕСУМ
УВАГА: в онлайнових українських текстах дуже часто вживають латинські літери замість українських, різні символи апострофів тощо. Для якісного аналізу текстів дуже важливо очистити на «нормалізувати» тексти. Тому майже завжди перед аналізом текстів варто опрацювати їх утилітою CleanText.groovy
groovy TokenizeText.groovy -w -u -i <input_file> -o <output_file>
Аналізує текст і записує результат у виходовий файл:
- розбиває на речення (
-s
) - розбиває на токени (
-w
) (результати включають пунктуацію тому всі токени розділяються вертикальними рисками) - розбиває на слова (
-u
)
Проект LanguageTool API NLP UK розповсюджується за умов ліцензії GPL версії 3