本页面主要内容为:
本赛道的训练数据基于赛道三提供的中文 Lang8 数据构建。本赛道使用 BART-large 训练了基于 seq2seq 结构的语法纠错模型,并将该模型在柱搜索解码过程中排名前 10(最多为10) 的结果作为待进行质量评估的语法纠错候选方案。同时评测数据给出了训练集和开发集中每个语法纠错方案的真实 F0.5 分值。
参赛者仅允许使用中文 Lang8 数据(与赛道三相同),以及本赛道提供的带有语法纠错候选方案的数据。
- 中文 Lang8 数据下载:
下载地址:http://yunpan.blcu.edu.cn:80/link/EDBB933F1FCD49C054F9AB7F65B0A746
有效期限:2022-10-31 23:59
访问密码:eSPB
- 带有语法纠错方案的数据下载:
下载地址:http://yunpan.blcu.edu.cn:80/link/5EE129B3CEA8C38CB46617007105809F
有效期限:2022-10-31 23:59
访问密码:p2av
带有语法纠错候选方案的数据格式为:
{
"idx": 原始句子id,
"src":原始句子,
"hpys":
[
{
"idx": 修改句子id,
"text":修改句子1,
"p": 准确率,
"r":召回率,
"f05":f0.5分数
},{
"idx": 修改句子id,
"text":修改句子2,
"p": 准确率,
"r":召回率,
"f05":f0.5分数
}
]
}
其中,原始句子对应多条(<=10条)修改句子。
注意:参赛者仅允许使用上述数据进行训练。
本赛道开发集基于赛道三提供的YACLC-Minimal 和 YACLC-Fluency 进行构建 ,数据划分与赛道三相同,同时提供 minimal 和 fluency 两个维度上的开发集,开发集均为 .json
格式的文件。
.json
文件格式与训练数据相同。其中,一个原始句子对应10条修改句子,每条修改句子分别放入一个字典中,所有修改句子放入一个列表中。
注意:本赛道要求语法纠错结果重排序过程中只能对所提供的语法纠错候选进行重排序,不得混合其他语法纠错模型所提供的语法纠错结果
本赛道的评测分两阶段进行,两阶段的测试数据分别位于 testA
和 testB
文件夹。
每个阶段提供 minimal 和 fluency 维度上的原始句子和其对应的修改句子,文件格式为:
{
"idx":原始句子id,
"src":原始句子,
"hpys":
[
{
"idx": 修改句子id,
"text":修改句子1
},{
"idx": 修改句子id,
"text":修改句子2
}
]
}
其中,原始句子对应多条(<=10条)修改句子
参赛者需要提供给定原始句子id对应的修改句子id,文件格式应为:
[原始句子id] [修改句子id] [质量评估分数]
每列之间使用 "\t" 分隔。
提交前,文件需依规范正确命名,并压缩成 .zip
格式文件的压缩包。
阶段一提交结果命名:
track5_testA.zip #压缩包名字
├── yaclc-minimal_testA.para # minimal 维度结果
└── yaclc-fluency_testA.para # fluency 维度结果
阶段二提交结果命名:
track5_testB.zip #压缩包名字
├── yaclc-minimal_testB.para # minimal 维度结果
└── yaclc-fluency_testB.para # fluency 维度结果