Releases · ratsgo/embedding

embedding 튜토리얼 코드로 생산할 수 있는 데이터와 모델들입니다. Raw Data로 아래 데이터와 모델들을 만들 수도 있습니다만, 계산 자원 등이 여의치 않을 경우 내려받아 간편하게 사용하실 수 있도록 준비했습니다. 아래 데이터와 모델을 만드는 데 사용된 코드는 첨부된 압축파일을 참고하시기 바랍니다.

processed.zip : 한국어 위키피디아, 네이버 영화 말뭉치, KorQuAD 데이터셋을 1 line이 1개 document가 되도록 텍스트 파일로 가공한 것입니다. 다운받기
tokenized.zip : 한국어 위키피디아, 네이버 영화 말뭉치, KorQuAD 데이터셋을 은전한닢 분석기로 형태소 분석한 파일이 포함돼 있습니다. 이밖에 각각 Khaiii, Komoran, Okt, soynlp, sentence piece 모델로 네이버 영화 말뭉치를 형태소 분석한 파일도 있습니다. 다운받기
word-embeddings.zip : 한국어 위키피디아, 네이버 영화 말뭉치, KorQuAD 데이터셋을 은전한닢으로 형태소 분석한 말뭉치를 가지고 Word2Vec, GloVe, FastText, Swivel로 각각 임베딩한 결과입니다. 다운받기
pretrained ELMo : 한국어 위키피디아, KorQuAD 데이터셋을 은전한닢으로 형태소 분석한 말뭉치를 가지고 나흘 간 직접 학습한 ELMo pretrained weights입니다. 다운받기
pretrained BERT : 자연어 처리 연구자 '오연택 님'께서 공개한 한국어 BERT의 pretrain 모델입니다. 다음 링크를 클릭하세요. https://github.com/yeontaek/BERT-Korean-Model

processed.zip : 한국어 위키피디아, 네이버 영화 말뭉치, KorQuAD 데이터셋을 1 line이 1개 document가 되도록 텍스트 파일로 가공한 것입니다. [다운받기]
tokenized.zip : 한국어 위키피디아, 네이버 영화 말뭉치, KorQuAD 데이터셋을 은전한닢 분석기로 형태소 분석한 파일이 포함돼 있습니다. 이밖에 각각 Khaiii, Komoran, Okt, soynlp, sentence piece 모델로 네이버 영화 말뭉치를 형태소 분석한 파일도 있습니다. [다운받기]
trained-models.zip : soynlp의 띄어쓰기 모델, soynlp의 L-tokenizer 모델, sentence piece의 학습 결과 등이 있습니다. [다운받기]
word-embeddings.zip : 한국어 위키피디아, 네이버 영화 말뭉치, KorQuAD 데이터셋을 은전한닢으로 형태소 분석한 말뭉치를 가지고 Word2Vec, GloVe, FastText, Swivel로 각각 임베딩한 결과입니다. [다운받기]
sentence-embeddings.zip : 다음 내용이 포함돼 있습니다. [다운받기]
(1) pretrained ELMo : 한국어 위키피디아, KorQuAD 데이터셋을 은전한닢으로 형태소 분석한 말뭉치를 가지고 나흘 간 직접 학습한 ELMo pretrained weights입니다.
(2) fine-tuned ELMo : pretrained ELMo 모델을 네이버 영화 말뭉치 데이터셋의 극성(polarity)을 맞추도록 파인튜닝한 모델입니다.
(3) pretrained BERT : 구글에서 공개한 다국어 버전 BERT의 pretrain 모델입니다. 모델명은 multi_cased_L-12_H-768_A-12입니다.
(4) fine-tuned BERT : pretrained BERT 모델을 네이버 영화 말뭉치 데이터셋의 극성(polarity)을 맞추도록 파인튜닝한 모델입니다.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Releases: ratsgo/embedding

embedding resources

embedding resources