clean_corpus 日本語特化LLMのための日本語コーパスクリーニング 進捗スライド 現状はCommonCrawlからのクリーニング、WARC形式から。 粗めの日本語判別 lang=japanese以外になっているものをフィルター テキスト抽出 trafulaturaの用いて抽出(warc形式からtrafilaturaを用いるのが、品質面での重要なポイント) 日本語判定 厳密な日本語フィルタリング 品質フィルタリング 文字のなさ 繰り返し表現削除 ヘッダー、フッター * MLベース URLフィルタリング ブラックリスト(リンク) dedup Minhash:高速化したい Exact 参考にするもの LLM-jp cprpus(リンク) RefinedWeb コーパスと、その模倣であるFinedWeb(リンク、 論文、記事) Swallowコーパス(発表スライド、NLP2024の論文、論文) hatakeyamaさんのコード(リンク) Gopher(論文) note