PythonからWayback Machineのアーカイブ(サイト)をダウンロードするモジュールです。
ベースモジュール
公式サイト
・公式Github(使い方など)はこちら
こちらのPyPIパッケージを、
pip install ArcDLNexus
などのコマンドでインストールしてください。
※お好みでバージョンを指定してください
言語・フレームワーク | バージョン |
---|---|
Python | 3.9.19 |
モジュール(パッケージ)のバージョンは requirements.txt を参照してください
- モジュールを公開する
関数 | パラメータ | 説明 |
---|---|---|
download | url -- str: アーカイブのURL* | アーカイブは次のような形式で、日付が指定されている必要があります。https://web.archive.org/web/{アーカイブの日付}/{サイトのURL} |
path -- str: ファイルを保存するフォルダパス | c:\のような絶対パスではなく、OSに縛られない./などの相対パスのみサポートしています。デフォルトは「./archive_download」です。 | |
mode -- str: モード(0~2) | モードは3種類に分けられています。 | |
モード0 - アーカイブをダウンロードして復元のみ: ウェブページをアーカイブからダウンロードして元の状態に復元し、関連ファイルはダウンロードされず、ページの表示に必要なファイルやリソースはすべてアーカイブ前のURLから取得します。 | ||
モード1 - 関連ファイルを可能な限りダウンロード + モード0の機能: ウェブページのアーカイブをダウンロードし、そのページに関連するファイル(画像、スクリプト、スタイルシートなど)も可能な限りダウンロードし、ページを完全に表示するために必要なすべてのリソースが揃います(手動処理必要)。 | ||
モード2 - ダウンロードしたファイルで既存の関連ファイルURLを上書き + モード0と1の機能: ウェブページのアーカイブをダウンロードし、関連するすべてのファイルをダウンロードし、必要なファイルやリソースのURLをダウンロードしたファイルのパスに上書きし(ダウンロードできなかった場合はスルー)、ページを完全にオフラインで閲覧できるようにします。 |
import ArcDLNexus
ArcDLNexus.download(url="https://web.archive.org/web/20240204090521/https://home.disnana.com/",
path="./recovery_archive/",
mode=2)
※タスクが完了していてもモジュールが更新されていない場合がございます(その際は時間を空けてご確認ください)