Train Data(v1) Release!
Kaggle์ ๊ณต๊ฐํ๋ ๋ฐ์ดํฐ์ ์ ์ข ๋ ๋ค์ด๋ก๋ ๋ฐ๊ธฐ ์ฝ๊ฒ ํ๊ธฐ ์ํด ๋ถํ ์์ถ(๊ฐ๊ฐ 2G/2G/0.6G)ํด ๋ฆด๋ฆฌ์ฆํฉ๋๋ค :)
( Pretrain Dataset ๊ณต๊ฐ: https://www.kaggle.com/junbumlee/kcbert-pretraining-corpus-korean-news-comments )
์๋ kcbert-train.tar.gz
aa, ab, ac๋ฅผ ๋ชจ๋ ๋ฐ์ผ์ ๋ค, ํด๋น ํด๋์์ ์๋ ๋ช
๋ น์ด๋ก ์์ถ์ ํ์ด์ฃผ์ธ์.
cat kcbert-train.tar.gz* | tar -zxvpf -