CCF2020beikeQAMatch

2020CCF大数据与计算智能大赛房地产行业聊天问答匹配赛题比赛地址链接:https://www.datafountain.cn/competitions/474

最终成绩A榜31/2985；B榜24/2985

依赖包:加载预训练模型使用的transformers(pip install transformers 好像4.0发布了需要改一丢丢地方才能将3.x的代码跑通)

深度学习框架使用的pytorch

项目结构：
train:训练数据
test:测试数据
bert.py：最初的baseline，直接使用了nsp任务
bert_baselines.py bert+poolig的方式也是本次比赛的最终模型
---bert_nezhabaseline.py 哪吒模型也采取了预训练+pooling的方式
---file_utils.py nezha在bert的基础上魔改了一下 transformer无法加载只能copy的华为的仓库调用modeling_nezha里的函数

---modeling_nezha.py copy的华为的仓库
config.py 学习率 batch 存储路径预训练模型路径在此修改
dataAugment.py 数据增强主要使用了EDA 和对问句进行了简单的扩展(最后实际没啥用，单纯的传上来)
model_ensmble.py 模型集成集成'路径xxx'（自己修改）下的文件，具体集成方式n个投票1个
run_kfold.py 5折划分及预测
train_eval.py 训练和验证
utils.py

使用好使的trick
(1) 5折交叉验证
(2) bert后+pooling
(3) 对抗训练
(4) 模型融合
(5) 添加排序信息(id_sub)

暂时无效的trick:
(1) 将bert_base->large 效果跟base基本持平而且训练时会玄学出现某一折全是f1值0的情况但最后还是将roberta_large的结果融合到最终结果中
(2) 伪标签在A榜效果不明显(20%的测试集和全部测试集都尝试了),可能由于A榜是部分测试集的因素但B榜的最终结果有提升，但不知道是否是伪标签提升的，因为b榜提交不给看成绩。 (可以试一下将置信度大的加进去,例如5个baseline模型预测全为1)
(3)数据增强 EDA我测试没有效果的提升甚至下降
(4) PET文本分类看到苏剑林老师的一篇文章自己尝试效果巨差...（这就肯定是我写的代码的问题因为我有同学尝试这种方法确实会有提升） top1 的博客也介绍了这个方法坐等大佬！！

整个比赛的具体情况详细见ppt文件夹下的fxh.pptx 是我自己的一点点总结

如果对该项目的一些细节有更多的疑问欢迎email我 842365309@qq.com

最后顺手给个Star吧谢谢您了！！！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CCF2020beikeQAMatch

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
ppt		ppt
test		test
train		train
README.md		README.md
bert.py		bert.py
bert_baselines.py		bert_baselines.py
bert_nezhabaseline.py		bert_nezhabaseline.py
config.py		config.py
dataAugment.py		dataAugment.py
data_analysis.py		data_analysis.py
file_utils.py		file_utils.py
model_esmble.py		model_esmble.py
modeling_nezha.py		modeling_nezha.py
run_kfold.py		run_kfold.py
train_eval.py		train_eval.py
utils.py		utils.py

1160300129/CCF2020beikeQAMatch

Folders and files

Latest commit

History

Repository files navigation

CCF2020beikeQAMatch

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages