Wiki-Analyzerは、Wikipediaのデータを取得し、そのデータを基にword2vecモデルを作成するプログラムです。このツールは、自然言語処理や機械学習の研究に役立ちます。
以下の手順に従って、リポジトリをクローンし、必要なPythonパッケージをインストールしてください。
- リポジトリをクローンする:
git clone https://github.com/XXXFQ/Wiki-Analyzer.git
cd Wiki-Analyzer
- 必要なパッケージをインストールする:
pip install -r requirements.txt
以下のコマンドを実行して、最新の日本語版Wikipediaデータをダウンロードしてください。
curl https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2 -o jawiki-latest-pages-articles.xml.bz2
以下のコマンドでダウンロードしたXMLデータを解凍し、記事本文を抽出します。
python -m wikiextractor.WikiExtractor jawiki-latest-pages-articles.xml.bz2
- OS: Windows 11 Home
- Python: 3.11
Copyright (C) 2024 ARM