这个比赛和天池平台_瑞金医院MMC人工智能辅助构建知识图谱大赛的解决思路类似。主要特色在于数据集,官方提到该数据集是业界规模最大的基于schema的中文信息抽取数据集,数据集中的句子来自百度百科和百度信息流文本。
43万三元组数据,21万中文句子和50个已经定义好的schema。官方已经划分了训练集/验证集/测试集,统计如下表:
训练集 | 验证集 | 测试集 |
---|---|---|
17W | 2W | 2W |
正值比赛期间百度放出ERNIE的工作,训练数据相比BERT,由三类组成:百科类,新闻资讯类,对话类。而且BERT用于句子分类比赛,目前已经可以看到在多个比赛任务上取得优秀的成绩。因此,基于ERNIE或者BERT做FineTuning,依然是一个值得尝试的思路。