Skip to content

Latest commit

 

History

History
56 lines (36 loc) · 2.12 KB

pipeline.md

File metadata and controls

56 lines (36 loc) · 2.12 KB

Тэггинг корпуса

скрипт ./tagger/tagger.py

в open_root указываем путь к папке со скроуленнными текстами, они в формате xml

! на момент 03.09.2016 скроулено 516 550 документов (176 073 973 токенов)

в write_root указываем папку для сохранения теггированных текстов в другом формате xml

в limit указываем лимит в токенах

в файл index.json запишется максимальный индекс документа в корпусе

удаляем ненужные файлы и создаем директорию для результатов:

$ cd ~
$ rm -r text_tagged
$ mkdir text_tagged

запускаем скрипт:

$ python2 tagger.py

Перевод текстов в формат для индексации армянским движком

скрипт ./armenian_engine/armenian_engine.py

в open_root указываем путь к папке с теггировнными текстами

в write_root указываем папку для сохранения текстов в формате армянского движка

удаляем ненужные файлы и создаем директорию для результатов:

$ rm -r [...]/ThaiCorpus/languages/thai/parsed_data
$ mkdir [...]/ThaiCorpus/languages/thai/parsed_data

запускаем скрипт:

$ cd ~
$ python2 armenian_engine.py

Запуск индексатора

$ cd [...]/ThaiCorpus/indexator
$ python2 indexator.py