这个比赛和天池平台_瑞金医院MMC人工智能辅助构建知识图谱大赛的解决思路类似。主要特色在于数据集，官方提到该数据集是业界规模最大的基于schema的中文信息抽取数据集，数据集中的句子来自百度百科和百度信息流文本。

43万三元组数据，21万中文句子和50个已经定义好的schema。官方已经划分了训练集/验证集/测试集，统计如下表：

训练集	验证集	测试集
17W	2W	2W

正值比赛期间百度放出ERNIE的工作，训练数据相比BERT，由三类组成：百科类，新闻资讯类，对话类。而且BERT用于句子分类比赛，目前已经可以看到在多个比赛任务上取得优秀的成绩。因此，基于ERNIE或者BERT做FineTuning，依然是一个值得尝试的思路。

Provide feedback

Saved searches