В рамках соревнования RuNormAS (Russian Normalization of Annotated Spans) к решению предлагается задача нормализации – приведение части текста (именованной сущности, словосочетания) в нормальную (начальную) форму. Основная часть задачи состоит в том, чтобы правильно нормализовать нужные слова из группы, не меняя остальных (зависимых и т. п.), а также в грамотном использовании контекста. Последнее особенно важно, т. к. начальную форму для многих слов можно определить только в контексте – так, слово "Иванова" в зависимости от окружающего контекста может иметь как нормальную форму "Иванова", так и "Иванов".
- 20.02.2021 -- выдача данных, начало соревновани.
- 28.03.2021 -- последний день соревнования.
- 29.03.2021 -- официальное подведение итогов.
- Вы находитесь здесь
- 07.04.2021 -- дедлайн по подачи статей по результатам соревнования.
* | Generic spans | Named entities |
---|---|---|
Team | exact match | exact match |
ksmith | 0.9801 | 0.9812 |
qbic | 0.9791 | 0.9815 |
eindenbom | 0.9758 | 0.9792 |
king_menin | 0.9645 | 0.9575 |
baseline | 0.7732 | 0.8881 |
fateev.da | 0.7730 | 0.8897 |
shkunkov.a | 0.0000 | 0.7680 |
*Таблица отсортирована по результатам первой дорожки, однако значимость обеих дорожек одинакова.
Соревнование предлагает две дорожки:
- Нормализация именованных сущностей
- Нормализация более широкого класса спанов текста, включая нормализацию разных частей речи.
Данные для первой дорожки собраны из статей газеты Взгляд, для второй – из документов Минэкономразвития. Обе выборки размечены вручную.
Метрика качества для задачи – доля точных совпадений результата нормализации и эталона.
Важно: в первой дорожке учитывается капитализация, во второй - нет.
3.03: в данных правильно отображаются разрывные аннотации.
26.02: добавлены тестовые и обновлённые тренировочные данные.
В train_new.zip
две папки, соответствующие двум дорожкам: named
- именованные сущности, generic
- общие спаны. Обе дорожки имеют одинаковый формат данных. В папке text_and_ann
находятся файлы с текстами (.txt) и файлы с разметкой спанов (.ann). В файле с разметкой на каждой строке написаны индексы начала и конца сущности в тексте. Если сущность имеет разрывы, то одной строке написаны индексы начала и конца для каждого куска (при этом куски могут быть неупорядочены). Например, если сущность имеет два разрывных куска, то в аннотациях на соответсвующей строке будет стоять start1 end1 start2 end2
или start2 end2 start1 end1
. В папке norm
на каждой строке расположен результат нормализации соответствующего спана. Соответствие производится по имени файла до точки.
public_test.zip
- тестовые данные. У них такой же формат, как и у тренировочных.
В качестве решения ожидается архив с двумя папками: named
и generic
(если участие принимается только в одной дорожке, то вторую папку оставить пустой). Внутри каждой должны быть файлы *.norm
(без подпакок) с именами до точки как в тестовых данных, где на каждой строке находится нормальная форма соответсвующего спана.
https://competitions.codalab.org/competitions/29216
В соревновании представлен бейзлайн, полученный применением средств нормализации из библиотеки Natasha https://github.com/natasha/natasha
Код, которым были получены результаты, находится в baseline.py
.
Программа, считающая финальное качество в соревновании: score.py
- Иван Смуров, ABBYY, МФТИ
- Денис Золотухин, ABBYY, ВШЭ