RuNormAS

Описание задачи

В рамках соревнования RuNormAS (Russian Normalization of Annotated Spans) к решению предлагается задача нормализации – приведение части текста (именованной сущности, словосочетания) в нормальную (начальную) форму. Основная часть задачи состоит в том, чтобы правильно нормализовать нужные слова из группы, не меняя остальных (зависимых и т. п.), а также в грамотном использовании контекста. Последнее особенно важно, т. к. начальную форму для многих слов можно определить только в контексте – так, слово "Иванова" в зависимости от окружающего контекста может иметь как нормальную форму "Иванова", так и "Иванов".

Таймлайн соревнования

20.02.2021 -- выдача данных, начало соревновани.
28.03.2021 -- последний день соревнования.
29.03.2021 -- официальное подведение итогов.
Вы находитесь здесь
07.04.2021 -- дедлайн по подачи статей по результатам соревнования.

Итоги соревнования

*	Generic spans	Named entities
*Team*	exact match	exact match
ksmith	0.9801	0.9812
qbic	0.9791	0.9815
eindenbom	0.9758	0.9792
king_menin	0.9645	0.9575
baseline	0.7732	0.8881
fateev.da	0.7730	0.8897
shkunkov.a	0.0000	0.7680

*Таблица отсортирована по результатам первой дорожки, однако значимость обеих дорожек одинакова.

Детали соревнования

Соревнование предлагает две дорожки:

Нормализация именованных сущностей
Нормализация более широкого класса спанов текста, включая нормализацию разных частей речи.

Данные для первой дорожки собраны из статей газеты Взгляд, для второй – из документов Минэкономразвития. Обе выборки размечены вручную.

Метрика качества для задачи – доля точных совпадений результата нормализации и эталона.

Важно: в первой дорожке учитывается капитализация, во второй - нет.

Данные

3.03: в данных правильно отображаются разрывные аннотации.

26.02: добавлены тестовые и обновлённые тренировочные данные.

В train_new.zip две папки, соответствующие двум дорожкам: named - именованные сущности, generic - общие спаны. Обе дорожки имеют одинаковый формат данных. В папке text_and_ann находятся файлы с текстами (.txt) и файлы с разметкой спанов (.ann). В файле с разметкой на каждой строке написаны индексы начала и конца сущности в тексте. Если сущность имеет разрывы, то одной строке написаны индексы начала и конца для каждого куска (при этом куски могут быть неупорядочены). Например, если сущность имеет два разрывных куска, то в аннотациях на соответсвующей строке будет стоять start1 end1 start2 end2 или start2 end2 start1 end1. В папке norm на каждой строке расположен результат нормализации соответствующего спана. Соответствие производится по имени файла до точки.

public_test.zip - тестовые данные. У них такой же формат, как и у тренировочных.

В качестве решения ожидается архив с двумя папками: named и generic (если участие принимается только в одной дорожке, то вторую папку оставить пустой). Внутри каждой должны быть файлы *.norm (без подпакок) с именами до точки как в тестовых данных, где на каждой строке находится нормальная форма соответсвующего спана.

Ссылка на соревнование

https://competitions.codalab.org/competitions/29216

Бейзлайн

В соревновании представлен бейзлайн, полученный применением средств нормализации из библиотеки Natasha https://github.com/natasha/natasha Код, которым были получены результаты, находится в baseline.py.

Оценивание

Программа, считающая финальное качество в соревновании: score.py

Организаторы:

Иван Смуров, ABBYY, МФТИ
Денис Золотухин, ABBYY, ВШЭ

Страница соревнования на CodaLab

Телеграм-чат соревнования

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

RuNormAS

Описание задачи

Таймлайн соревнования

Итоги соревнования

Детали соревнования

Данные

Ссылка на соревнование

Бейзлайн

Оценивание

Организаторы:

Files

README.md

Latest commit

History

README.md

File metadata and controls

RuNormAS

Описание задачи

Таймлайн соревнования

Итоги соревнования

Детали соревнования

Данные

Ссылка на соревнование

Бейзлайн

Оценивание

Организаторы: