Skip to content

Latest commit

 

History

History
39 lines (29 loc) · 2.48 KB

opennlp_tagger_guide.markdown

File metadata and controls

39 lines (29 loc) · 2.48 KB

Apache OpenNLP для тайского языка

OpenNLP это инструментарий, построенный на машинном обучении, который позволяет тренировать модели и по ним анализировать тексты на естественном языке. С его помощью можно:

  • токенизировать
  • сегментировать
  • парсить
  • и многое другое

Скачать программу и модель

  • OpenNLP можно скачать здесь
  • Тайскую модель можно скачать тут
    • модели удобно положить в папку ...\\apache-opennlp-1.6.0-bin\\apache-opennlp-1.6.0\\bin

Возможности инструментария

  • В командной строке перейти в директорию ...\\apache-opennlp-1.6.0-bin\\apache-opennlp-1.6.0\\bin

  • Команда opennlp выведет все имеющиеся инструменты и их описание

  • Чтобы посмотреть синтаксис какого-то инструмента - ввести в командной строке:

    opennlp ИмяИнструмента help

Запуск таггера

В командной строке в директории ...\\apache-opennlp-1.6.0-bin\\apache-opennlp-1.6.0\\bin ввести следующее:

`opennlp POSTagger thai.tag.bin > sentence.txt`
  • thai.tag.bin - модель для таггера, обученная на тайских данных (допустим, она лежит в одной директории с opennlp, или надо будет указать полный путь)
  • sentence.txt - файл с текстом для разбора (допустим, лежит в одной директории с opennlp, или надо будет указать полный путь)

А дальше...

Понять, в чем ошибка (NullPointerException)
Удачи!

тут инструкция: вики