Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

add japanese documentation #26138

Merged
merged 91 commits into from
Oct 11, 2023
Merged
Show file tree
Hide file tree
Changes from 7 commits
Commits
Show all changes
91 commits
Select commit Hold shift + click to select a range
5798d53
udpaet
rajveer43 Sep 13, 2023
ecb995f
update
rajveer43 Sep 13, 2023
d27fcdb
Update docs/source/ja/autoclass_tutorial.md
rajveer43 Sep 14, 2023
883cbea
add codes workflows/build_pr_documentation.yml
rajveer43 Sep 14, 2023
171a201
Merge branch 'huggingface:main' into jap
rajveer43 Sep 14, 2023
9c23794
Create preprocessing.md
rajveer43 Sep 14, 2023
5b6fb0c
added traning.md
rajveer43 Sep 14, 2023
2939896
Create Model_sharing.md
rajveer43 Sep 14, 2023
5420f88
add quicktour.md
rajveer43 Sep 14, 2023
a9e485a
Merge branch 'huggingface:main' into jap
rajveer43 Sep 15, 2023
5613b6a
new
rajveer43 Sep 15, 2023
e36e234
ll
rajveer43 Sep 16, 2023
6405847
Merge branch 'huggingface:main' into jap
rajveer43 Sep 18, 2023
0603b25
Create benchmark.md
rajveer43 Sep 18, 2023
cd5ce81
Create Tensorflow_model
rajveer43 Sep 18, 2023
c1a3832
add
rajveer43 Sep 18, 2023
26e3073
Merge branch 'huggingface:main' into jap
rajveer43 Sep 19, 2023
3a77025
add community.md
rajveer43 Sep 19, 2023
1cf3734
add create_a_model
rajveer43 Sep 19, 2023
34c8bbb
create custom_model.md
rajveer43 Sep 19, 2023
3f5d7b5
create_custom_tools.md
rajveer43 Sep 19, 2023
d90a07c
create fast_tokenizers.md
rajveer43 Sep 19, 2023
220aecf
Merge branch 'huggingface:main' into jap
rajveer43 Sep 20, 2023
179dff1
create
rajveer43 Sep 20, 2023
f18562b
Merge branch 'huggingface:main' into jap
rajveer43 Sep 21, 2023
c43498d
add
rajveer43 Sep 21, 2023
fb06d71
Merge branch 'huggingface:main' into jap
rajveer43 Sep 23, 2023
38825e8
Update docs/source/ja/_toctree.yml
rajveer43 Sep 23, 2023
86c063a
md
rajveer43 Sep 23, 2023
a2d9a12
add
rajveer43 Sep 23, 2023
30c76d3
commit
rajveer43 Sep 23, 2023
eacd183
add
rajveer43 Sep 25, 2023
e20350d
h
rajveer43 Sep 25, 2023
e0719e5
Update docs/source/ja/peft.md
rajveer43 Sep 25, 2023
c897165
Update docs/source/ja/_toctree.yml
rajveer43 Sep 25, 2023
e9a6ce8
Update docs/source/ja/_toctree.yml
rajveer43 Sep 25, 2023
55cf7c6
Suggested Update
rajveer43 Sep 25, 2023
876322e
Merge branch 'huggingface:main' into jap
rajveer43 Sep 25, 2023
439a223
Merge remote-tracking branch 'origin/jap' into jap
rajveer43 Sep 27, 2023
c15cc74
add perf_train_gpu_one.md
rajveer43 Sep 27, 2023
4f4c4de
added perf based MD files
rajveer43 Sep 28, 2023
df8b2fc
Modify toctree.yml and Add transmartion to md codes
rajveer43 Sep 29, 2023
612328b
Merge branch 'huggingface:main' into jap
rajveer43 Sep 30, 2023
047f9f2
Add `serialization.md` and edit `_toctree.yml`
rajveer43 Sep 30, 2023
499d4ac
add task summary and tasks explained
rajveer43 Sep 30, 2023
73ca3e8
Add and Modify files starting from T
rajveer43 Oct 2, 2023
0deca74
Add testing.md
rajveer43 Oct 2, 2023
7929929
Merge branch 'huggingface:main' into jap
rajveer43 Oct 3, 2023
00d23af
Create main_classes files
rajveer43 Oct 3, 2023
fe42888
Merge branch 'huggingface:main' into jap
rajveer43 Oct 3, 2023
c0165db
delete main_classes folder
rajveer43 Oct 4, 2023
6580469
Merge branch 'jap' of https://github.com/rajveer43/transformers into jap
rajveer43 Oct 4, 2023
b8c5a57
Add toctree.yml
rajveer43 Oct 4, 2023
2e3d2af
Update llm_tutorail.md
rajveer43 Oct 4, 2023
94b9896
Update docs/source/ja/_toctree.yml
rajveer43 Oct 5, 2023
58aa3da
Update misspelled filenames
rajveer43 Oct 5, 2023
f7541b6
Update docs/source/ja/_toctree.yml
rajveer43 Oct 5, 2023
81c30f8
Update docs/source/ja/_toctree.yml
stevhliu Oct 5, 2023
d88c548
Update docs/source/ja/_toctree.yml
stevhliu Oct 5, 2023
ec05776
Merge branch 'huggingface:main' into jap
rajveer43 Oct 6, 2023
864aa39
missplled file names inmrpovements
rajveer43 Oct 6, 2023
fe7fa6e
Update _toctree.yml
stevhliu Oct 6, 2023
8d790e5
close tip block
stevhliu Oct 6, 2023
9502288
close another tip block
stevhliu Oct 6, 2023
633acc6
Update docs/source/ja/quicktour.md
rajveer43 Oct 7, 2023
742e3f2
Update docs/source/ja/pipeline_tutorial.md
rajveer43 Oct 7, 2023
9685083
Update docs/source/ja/pipeline_tutorial.md
rajveer43 Oct 7, 2023
fbfb4ef
Update docs/source/ja/preprocessing.md
rajveer43 Oct 7, 2023
d533aa6
Update docs/source/ja/peft.md
rajveer43 Oct 7, 2023
ca9cfd2
Update docs/source/ja/add_new_model.md
rajveer43 Oct 7, 2023
4333cf0
Update docs/source/ja/testing.md
rajveer43 Oct 7, 2023
9349d3e
Update docs/source/ja/task_summary.md
rajveer43 Oct 7, 2023
693a9cd
Update docs/source/ja/tasks_explained.md
rajveer43 Oct 7, 2023
438b8d2
Update glossary.md
rajveer43 Oct 7, 2023
b8538cd
Merge branch 'huggingface:main' into jap
rajveer43 Oct 7, 2023
7a4a134
Merge branch 'jap' of https://github.com/rajveer43/transformers into jap
rajveer43 Oct 7, 2023
b6ccc75
Update docs/source/ja/transformers_agents.md
rajveer43 Oct 11, 2023
d857b35
Update docs/source/ja/llm_tutorial.md
rajveer43 Oct 11, 2023
a1e353b
Update docs/source/ja/create_a_model.md
rajveer43 Oct 11, 2023
f812732
Update docs/source/ja/torchscript.md
rajveer43 Oct 11, 2023
57b9187
Update docs/source/ja/benchmarks.md
rajveer43 Oct 11, 2023
a2ceda8
Update docs/source/ja/troubleshooting.md
rajveer43 Oct 11, 2023
8d79828
Update docs/source/ja/troubleshooting.md
rajveer43 Oct 11, 2023
042a25c
Update docs/source/ja/troubleshooting.md
rajveer43 Oct 11, 2023
66b8900
Update docs/source/ja/add_new_model.md
rajveer43 Oct 11, 2023
0976565
Merge branch 'huggingface:main' into jap
rajveer43 Oct 11, 2023
68365ac
Update perf_torch_compile.md
rajveer43 Oct 11, 2023
f3737fb
Merge branch 'huggingface:main' into jap
rajveer43 Oct 11, 2023
f87085a
Update Year to default in en documentation
rajveer43 Oct 11, 2023
4c4d418
Merge branch 'jap' of https://github.com/rajveer43/transformers into jap
rajveer43 Oct 11, 2023
ec409a9
Final Update
rajveer43 Oct 11, 2023
File filter

Filter by extension

Filter by extension


Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
2 changes: 1 addition & 1 deletion .github/workflows/build_documentation.yml
Original file line number Diff line number Diff line change
Expand Up @@ -15,7 +15,7 @@ jobs:
commit_sha: ${{ github.sha }}
package: transformers
notebook_folder: transformers_doc
languages: de en es fr it ko pt zh
languages: de en es fr it ko pt zh ja
secrets:
token: ${{ secrets.HUGGINGFACE_PUSH }}
hf_token: ${{ secrets.HF_DOC_BUILD_PUSH }}
2 changes: 1 addition & 1 deletion .github/workflows/build_pr_documentation.yml
Original file line number Diff line number Diff line change
Expand Up @@ -14,4 +14,4 @@ jobs:
commit_sha: ${{ github.event.pull_request.head.sha }}
pr_number: ${{ github.event.number }}
package: transformers
languages: de en es fr it ko pt zh
languages: de en es fr it ko pt zh ja
11 changes: 10 additions & 1 deletion docs/source/ja/_toctree.yml
Original file line number Diff line number Diff line change
Expand Up @@ -11,4 +11,13 @@
- sections:
- sections:
- local: multilingual
title: 推論のための多言語モデル
title: 推論のための多言語モデル
rajveer43 marked this conversation as resolved.
Show resolved Hide resolved
- sections:
- local: autoclass_tutorial
title: AutoClassを使用してポータブルなコードを書く
- sections:
- local: Preprocessing
stevhliu marked this conversation as resolved.
Show resolved Hide resolved
title: データ前処理
- sections:
- local: Training
stevhliu marked this conversation as resolved.
Show resolved Hide resolved
title: "訓練
younesbelkada marked this conversation as resolved.
Show resolved Hide resolved
161 changes: 161 additions & 0 deletions docs/source/ja/autoclass_tutorial.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,161 @@
<!--
著作権 2023 The HuggingFace Team。全著作権所有。

Apache License、Version 2.0(以下「ライセンス」と呼びます)に基づくライセンスで、
ライセンスに従わない限り、このファイルを使用できません。
ライセンスのコピーは以下から入手できます:

http://www.apache.org/licenses/LICENSE-2.0

適用法に従うか、書面による同意がある限り、ライセンスの下でソフトウェアは配布されます。
ライセンスに基づく特定の言語での条件を確認するか、ライセンスを参照してください。
このファイルはMarkdown形式ですが、doc-builder(MDXに類似したもの)の特定の構文を含んでおり、
お使いのMarkdownビューアで正しくレンダリングされない場合があります。

-->

# AutoClassを使用して事前学習済みインスタンスをロードする

さまざまなTransformerアーキテクチャが存在するため、自分のタスクに合ったモデルを作成するのは難しいことがあります。
🤗 Transformersのコア哲学の一環として、ライブラリを使用しやすく、シンプルで柔軟にするために、
`AutoClass`は与えられたチェックポイントから正しいアーキテクチャを自動的に推論してロードします。
`from_pretrained()`メソッドを使用すると、事前学習済みモデルを素早くロードできるため、モデルをゼロからトレーニングするために時間とリソースを費やす必要がありません。
この種のチェックポイントに依存しないコードを生成することは、
コードが1つのチェックポイントで動作すれば、アーキテクチャが異なっていても、同じタスクに向けてトレーニングされた場合は別のチェックポイントでも動作することを意味します。

<Tip>

アーキテクチャはモデルの骨格を指し、チェックポイントは特定のアーキテクチャの重みです。
たとえば、[BERT](https://huggingface.co/bert-base-uncased)はアーキテクチャであり、`bert-base-uncased`はチェックポイントです。
モデルはアーキテクチャまたはチェックポイントのどちらを指す一般的な用語です。

</Tip>

このチュートリアルでは、以下を学習します:

* 事前学習済みトークナイザをロードする。
* 事前学習済み画像プロセッサをロードする。
* 事前学習済み特徴量抽出器をロードする。
* 事前学習済みプロセッサをロードする。
* 事前学習済みモデルをロードする。

## AutoTokenizer

ほとんどのNLPタスクはトークナイザで始まります。トークナイザは入力をモデルで処理できる形式に変換します。

[`AutoTokenizer.from_pretrained`]を使用してトークナイザをロードします:

```py
>>> from transformers import AutoTokenizer

>>> tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
```


次に、以下のように入力をトークナイズします:

```py
>>> sequence = "In a hole in the ground there lived a hobbit."
>>> print(tokenizer(sequence))
{'input_ids': [101, 1999, 1037, 4920, 1999, 1996, 2598, 2045, 2973, 1037, 7570, 10322, 4183, 1012, 102],
'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}
```

## AutoImageProcessor

ビジョンタスクの場合、画像プロセッサが画像を正しい入力形式に変換します。

```py
>>> from transformers import AutoImageProcessor

>>> image_processor = AutoImageProcessor.from_pretrained("google/vit-base-patch16-224")
```

## AutoFeatureExtractor

オーディオタスクの場合、特徴量抽出器がオーディオ信号を正しい入力形式に変換します。

[`AutoFeatureExtractor.from_pretrained`]を使用して特徴量抽出器をロードします.

```py
>>> from transformers import AutoFeatureExtractor

>>> feature_extractor = AutoFeatureExtractor.from_pretrained(
... "ehcalabres/wav2vec2-lg-xlsr-en-speech-emotion-recognition"
... )
```

## AutoProcessor

マルチモーダルタスクの場合、2つの前処理ツールを組み合わせるプロセッサが必要です。たとえば、
[LayoutLMV2](model_doc/layoutlmv2)モデルは画像を処理するための画像プロセッサとテキストを処理するためのトークナイザが必要です。
プロセッサはこれらの両方を組み合わせます。

[`AutoProcessor.from_pretrained`]を使用してプロセッサをロードします:

```py
>>> from transformers import AutoProcessor

>>> processor = AutoProcessor.from_pretrained("microsoft/layoutlmv2-base-uncased")
```

## AutoModel

<frameworkcontent>
<pt>
最後に、`AutoModelFor`クラスは特定のタスクに対して事前学習済みモデルをロードできます(使用可能なタスクの完全な一覧については[こちら](model_doc/auto)を参照)。
たとえば、[`AutoModelForSequenceClassification.from_pretrained`]を使用してシーケンス分類用のモデルをロードできます:

```py
>>> from transformers import AutoModelForSequenceClassification

>>> model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased")
```

同じチェックポイントを再利用して異なるタスクのアーキテクチャをロードできます:

```py
>>> from transformers import AutoModelForTokenClassification

>>> model = AutoModelForTokenClassification.from_pretrained("distilbert-base-uncased")
```

<Tip warning={true}>

PyTorchモデルの場合、 `from_pretrained()`メソッドは内部で`torch.load()`を使用し、内部的には`pickle`を使用しており、セキュリティの問題が知られています。
一般的には、信頼性のないソースから取得した可能性があるモデルや改ざんされた可能性のあるモデルをロードしないでください。
このセキュリティリスクは、`Hugging Face Hub`でホストされている公開モデルに対して部分的に緩和されており、各コミットでマルウェアのスキャンが行われています。
GPGを使用した署名済みコミットの検証などのベストプラクティスについては、Hubのドキュメンテーションを参照してください。

TensorFlowおよびFlaxのチェックポイントには影響がなく、`from_pretrained`メソッドの`from_tf`および`from_flax`引数を使用してPyTorchアーキテクチャ内でロードできます。

</Tip>

一般的に、事前学習済みモデルのインスタンスをロードするために`AutoTokenizer`クラスと`AutoModelFor`クラスの使用をお勧めします。
これにより、常に正しいアーキテクチャをロードできます。
次の[tutorial](preprocessing)では、新しくロードしたトークナイザ、画像プロセッサ、特徴量抽出器、およびプロセッサを使用して、ファインチューニング用にデータセットを前処理する方法を学びます。
</pt>
<tf>
最後に、`TFAutoModelFor`クラスは特定のタスクに対して事前学習済みモデルをロードできます(使用可能なタスクの完全な一覧についてはこちらを参照)。
たとえば、[`TFAutoModelForSequenceClassification.from_pretrained`]を使用してシーケンス分類用のモデルをロードできます:

```py
>>> from transformers import TFAutoModelForSequenceClassification

>>> model = TFAutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased")
```

同じチェックポイントを再利用して異なるタスクのアーキテクチャをロードできます:

```py
>>> from transformers import TFAutoModelForTokenClassification

>>> model = TFAutoModelForTokenClassification.from_pretrained("distilbert-base-uncased")
```

一般的には、事前学習済みモデルのインスタンスをロードするために`AutoTokenizer`クラスと`TFAutoModelFor`クラスの使用をお勧めします。
これにより、常に正しいアーキテクチャをロードできます。
次の[tutorial](preproccesing)では、新しくロードしたトークナイザ、画像プロセッサ、特徴量抽出器、およびプロセッサを使用して、ファインチューニング用にデータセットを前処理する方法を学びます。
</tf>
</frameworkcontent>
Loading