BERTによる日本語固有表現抽出のファインチューニング用プログラム
requirements.txtに書かれているパッケージをインストールします。
stockmarkteam/ner-wikipedia-datasetから学習用データセット(ner.json)をダウンロードし、リポジトリ直下のdatasetディレクトリに保存します。
create_tagged_token.pyを実行して、ダウンロードした学習用データを、BERTの入力データの形式に変換します。 作成されたデータは、dataset/ner_tagged.jsonに出力されます。
train.pyを実行して、ファインチューニングを行います。 学習済みのモデルは、modelディレクトリに出力されます。
test.pyを実行して、固有表現が抽出できることを確認して下さい。