Skip to content

Latest commit

 

History

History
72 lines (46 loc) · 6.12 KB

README.md

File metadata and controls

72 lines (46 loc) · 6.12 KB

RuNormAS

Описание задачи

В рамках соревнования RuNormAS (Russian Normalization of Annotated Spans) к решению предлагается задача нормализации – приведение части текста (именованной сущности, словосочетания) в нормальную (начальную) форму. Основная часть задачи состоит в том, чтобы правильно нормализовать нужные слова из группы, не меняя остальных (зависимых и т. п.), а также в грамотном использовании контекста. Последнее особенно важно, т. к. начальную форму для многих слов можно определить только в контексте – так, слово "Иванова" в зависимости от окружающего контекста может иметь как нормальную форму "Иванова", так и "Иванов".

Таймлайн соревнования

  • 20.02.2021 -- выдача данных, начало соревновани.
  • 28.03.2021 -- последний день соревнования.
  • 29.03.2021 -- официальное подведение итогов.
  • Вы находитесь здесь
  • 07.04.2021 -- дедлайн по подачи статей по результатам соревнования.

Итоги соревнования

* Generic spans Named entities
Team exact match exact match
ksmith 0.9801 0.9812
qbic 0.9791 0.9815
eindenbom 0.9758 0.9792
king_menin 0.9645 0.9575
baseline 0.7732 0.8881
fateev.da 0.7730 0.8897
shkunkov.a 0.0000 0.7680

*Таблица отсортирована по результатам первой дорожки, однако значимость обеих дорожек одинакова.

Детали соревнования

Соревнование предлагает две дорожки:

  • Нормализация именованных сущностей
  • Нормализация более широкого класса спанов текста, включая нормализацию разных частей речи.

Данные для первой дорожки собраны из статей газеты Взгляд, для второй – из документов Минэкономразвития. Обе выборки размечены вручную.

Метрика качества для задачи – доля точных совпадений результата нормализации и эталона.

Важно: в первой дорожке учитывается капитализация, во второй - нет.

Данные

3.03: в данных правильно отображаются разрывные аннотации.

26.02: добавлены тестовые и обновлённые тренировочные данные.

В train_new.zip две папки, соответствующие двум дорожкам: named - именованные сущности, generic - общие спаны. Обе дорожки имеют одинаковый формат данных. В папке text_and_ann находятся файлы с текстами (.txt) и файлы с разметкой спанов (.ann). В файле с разметкой на каждой строке написаны индексы начала и конца сущности в тексте. Если сущность имеет разрывы, то одной строке написаны индексы начала и конца для каждого куска (при этом куски могут быть неупорядочены). Например, если сущность имеет два разрывных куска, то в аннотациях на соответсвующей строке будет стоять start1 end1 start2 end2 или start2 end2 start1 end1. В папке norm на каждой строке расположен результат нормализации соответствующего спана. Соответствие производится по имени файла до точки.

public_test.zip - тестовые данные. У них такой же формат, как и у тренировочных.

В качестве решения ожидается архив с двумя папками: named и generic (если участие принимается только в одной дорожке, то вторую папку оставить пустой). Внутри каждой должны быть файлы *.norm (без подпакок) с именами до точки как в тестовых данных, где на каждой строке находится нормальная форма соответсвующего спана.

Ссылка на соревнование

https://competitions.codalab.org/competitions/29216

Бейзлайн

В соревновании представлен бейзлайн, полученный применением средств нормализации из библиотеки Natasha https://github.com/natasha/natasha Код, которым были получены результаты, находится в baseline.py.

Оценивание

Программа, считающая финальное качество в соревновании: score.py

Организаторы:

  • Иван Смуров, ABBYY, МФТИ
  • Денис Золотухин, ABBYY, ВШЭ

Страница соревнования на CodaLab

Телеграм-чат соревнования