Skip to content

Latest commit

 

History

History
15 lines (9 loc) · 1.14 KB

2019_语言与智能技术竞赛_信息抽取.md

File metadata and controls

15 lines (9 loc) · 1.14 KB

前言

这个比赛和天池平台_瑞金医院MMC人工智能辅助构建知识图谱大赛的解决思路类似。主要特色在于数据集,官方提到该数据集是业界规模最大的基于schema的中文信息抽取数据集,数据集中的句子来自百度百科和百度信息流文本。

数据分析

43万三元组数据,21万中文句子和50个已经定义好的schema。官方已经划分了训练集/验证集/测试集,统计如下表:

训练集 验证集 测试集
17W 2W 2W

赛前想法

正值比赛期间百度放出ERNIE的工作,训练数据相比BERT,由三类组成:百科类,新闻资讯类,对话类。而且BERT用于句子分类比赛,目前已经可以看到在多个比赛任务上取得优秀的成绩。因此,基于ERNIE或者BERT做FineTuning,依然是一个值得尝试的思路。