Skip to content

Latest commit

 

History

History
69 lines (43 loc) · 6.62 KB

agenda.md

File metadata and controls

69 lines (43 loc) · 6.62 KB

16.06.2016

Финальное:

  • Даже если мы не сможем поместить все тексты в индекс корпуса, надо их все разметить и положить на сайт в архиве.
  • В описании корпуса нужно указать использованные в процессе создания технологии: библиотеки для токенизации, словарь, инструменты дополнительной разметки

9, 2.06.2016

  1. Программа случайного отбора текстов для заданного объёма Гриша
  2. Подстройка виртуальной клавиатуры Коля?
  3. Чистка словаря Аня

28.04.2016

  1. Изменение xslt-преобразования так, чтобы между словами не отображался пробел Гриша
  2. Исследование возможности встроить в корпус визуализацию Гриша

22, 23.03.2016, 8, 15, 22.04.2016

  1. Допиливание интерфейса корпуса (смена логотипа, работа с css), написание дисклеймера Коля
  2. Запуск индексации корпуса, отлов ошибок Гриша
  3. добирание текстов с сайтов, формирование базы url'ов Аня
  4. Создание инструкции для краулера Аня
  5. формирование списка грамкодов для конструктора запросов Саша
  6. разметка грамматических категорий Даня
  7. Исходники для разметки грамматических категорий Таня
  8. инструкция для запуска сторонней pos-размечалки Таня
  9. Наведение порядка с текстами на сайте Аня, Гриша

1, 15, 16.03.2016

  1. Проверка других инструментов pos-таггинга на случай, если там будет размечаться что-то, чего мы не сможем разметить нашим словарным методом. Саша
  2. Написание инструмента, который берёт текст, берёт наш словарь и возвращает размеченный текст в XML (тут нужен корпусный формат). Даня Гриша
  3. Доделка недоделанного с 9.02: парсинг и мёрдж словарей Саша!
  4. Краулер для новонайденных сайтов Гриша
  5. Нахождение и обход краулером других сайтов-источников для корпуса Аня (Гриша должен научить Аню запускать краулер)
  6. Скачивание и парсинг тайской Википедии Коля
  7. Написание скрипта, который переведёт xml-разметку в формат, пригодный для индексации армянским движком. Гриша
  8. research про сопоставление двух словарей Саша

16.02.2016

  1. организовать реп: раскидать по папкам то, что может пригодится и устаревшее.
  2. дать ссылку на реп в викиспейсах и больше в викиспейсы не ходить.

9.02.2016

  1. Токенизация. Изучение, можно ли установить и запустить библиотеки для тайской токенизации (библиотеки могут быть разные, посмотреть в курсовой Н. Мотиной): и на личном компьютере, и на сервере. Коля.

  2. Проверка консистентности словаря. Словарь скачивался с сайта таким образом, что в адрес подставлялись цифры подряд: domain-name.com/1, domain-name.com/2, domain-name.com/3 и т.д. По техническим причинам могли скачаться не все страницы. нужно написать программу, которая это проверит и недостающие страницы доберёт с сайта. Аня.

  3. Парсинг и мёрдж словарей. Один словарь (который с гитхаба) уже распаршен, его надо слить с тем словарём, который с сайта. Какие-то скрипты для доставания из сайтового словаря нужной нам информации (перевод и POS) есть в репе. Можно продолжить писать то, что есть там, или написать свою программу для этого, желательно с использованием lxml. Саша.

  4. Гальванизация краулеров. Какие-то краулеры для каких-то сайтов написаны, нужно проверить, какие работают (запустить), а какие нет (выбросить). Может быть, начать подстраивать под наши нужды новый универсальный краулер, который будет для всех сайтов. Думаю, его можно сделать на основе этого кода (добавил в нашем репе в ридми). Гриша и Таня.

потестил краулеры. Гриша

Плюс. Если Таня сможет прийти в следующий раз, хорошо бы рассказать про то, что она найдёт про исследования тайского языка (очень-очень кратко, минут на 5 максимум)

Может быть, я успею показать, как логиниться на сервере и запускать там питоновские скрипты.

Особенная разметка?

Выраженные грамматические категории