Skip to content

takumi7110/clean_corpus

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 

Repository files navigation

clean_corpus

日本語特化LLMのための日本語コーパスクリーニング

進捗スライド

現状はCommonCrawlからのクリーニング、WARC形式から。

粗めの日本語判別

  • lang=japanese以外になっているものをフィルター

テキスト抽出

  • trafulaturaの用いて抽出(warc形式からtrafilaturaを用いるのが、品質面での重要なポイント)

日本語判定

  • 厳密な日本語フィルタリング

品質フィルタリング

  • 文字のなさ
  • 繰り返し表現削除
  • ヘッダー、フッター * MLベース

URLフィルタリング

dedup

  • Minhash:高速化したい
  • Exact

参考にするもの

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published