Skip to content

pumpkinduo/ELMO_sentence_encoder

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

ELMO_sentence_encoder

ELMO模型来自于论文Deep contextualized word representations
本文采用的数据集来自论文PICO Element Detection in Medical Text via Long Short-Term Memory Neural Networks,整理自PubMeb数据库,主要任务是医学摘要序列句子分类。

配置参数

allennlp下载配置文件,在这里选择small规格的模型,生成的词向量维度为256。

elmo_options.json
elmo_weights.hdf5

数据处理

1.对PICO数据集文件夹中的原始数据通过dataset_txt_to_json.py文件处理为json格式(根据个人下游任务需求处理)
2.训练集验证集生成vocab.txt词表文件
3.对数据进行padding处理

参考文献

ELMo词向量中文训练过程

About

ELMo for sentence embeddings,ELMo获取句向量

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages