ELMO模型来自于论文Deep contextualized word representations
本文采用的数据集来自论文PICO Element Detection in Medical Text via Long Short-Term Memory Neural Networks,整理自PubMeb数据库,主要任务是医学摘要序列句子分类。
在allennlp下载配置文件,在这里选择small规格的模型,生成的词向量维度为256。
elmo_options.json
elmo_weights.hdf5
1.对PICO数据集文件夹中的原始数据通过dataset_txt_to_json.py文件处理为json格式(根据个人下游任务需求处理)
2.训练集验证集生成vocab.txt词表文件
3.对数据进行padding处理