Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Documentation: Spanish translation of fast_tokenizers.mdx #16882

Merged
merged 9 commits into from
May 12, 2022
2 changes: 2 additions & 0 deletions docs/source/es/_toctree.yml
Original file line number Diff line number Diff line change
Expand Up @@ -13,5 +13,7 @@
title: Entrenamiento distribuido con 🤗 Accelerate
title: Tutorials
- sections:
- local: fast_tokenizers
title: "Usa los tokenizadores de 🤗 Tokenizers"
- local: multilingual
title: Modelos multilingües para inferencia
70 changes: 70 additions & 0 deletions docs/source/es/fast_tokenizers.mdx
Original file line number Diff line number Diff line change
@@ -0,0 +1,70 @@
<!--Copyright 2022 The HuggingFace Team. All rights reserved.

Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with
the License. You may obtain a copy of the License at

http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on
an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the
specific language governing permissions and limitations under the License.
-->

# Usa los tokenizadores de 🤗 Tokenizers

[`PreTrainedTokenizerFast`] depende de la librería [🤗 Tokenizers](https://huggingface.co/docs/tokenizers). Los tokenizadores obtenidos desde la librería 🤗 Tokenizers pueden ser
jloayza10 marked this conversation as resolved.
Show resolved Hide resolved
cargados muy simplemente a 🤗 Transformers.
jloayza10 marked this conversation as resolved.
Show resolved Hide resolved

Antes de entrar en los detalles, podemos crear un tokenizador dummy en unas cuantas líneas:
jloayza10 marked this conversation as resolved.
Show resolved Hide resolved

```python
>>> from tokenizers import Tokenizer
>>> from tokenizers.models import BPE
>>> from tokenizers.trainers import BpeTrainer
>>> from tokenizers.pre_tokenizers import Whitespace

>>> tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
>>> trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])

>>> tokenizer.pre_tokenizer = Whitespace()
>>> files = [...]
>>> tokenizer.train(files, trainer)
```

Ahora tenemos un tokenizador entrenado con los archivos (files en el código) que fueron definidos. Lo podemos seguir utilizando en ese entorno de ejecución (runtime en inglés), o se lo puede guardar
jloayza10 marked this conversation as resolved.
Show resolved Hide resolved
en un archivo JSON para reutilizarlo en un futuro.

## Cargando directamente desde el objeto tokenizador

Veamos como utilizar este objeto tokenizador en la librería 🤗 Transformers. La clase
jloayza10 marked this conversation as resolved.
Show resolved Hide resolved
[`PreTrainedTokenizerFast`] permite una instanciación simple, al aceptar el objeto
jloayza10 marked this conversation as resolved.
Show resolved Hide resolved
*tokenizer* instanciado como argumento:

```python
>>> from transformers import PreTrainedTokenizerFast

>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer)
```

Este objeto ya puede ser utilizado con todos los métodos compartidos por los tokenizadores de 🤗 Transformers! Visita la [página sobre tokenizadores
](main_classes/tokenizer) para más información.

## Cargando desde un archivo JSON

Para cargar un tokenizador desde un archivo JSON, comencemos por guardar nuestro tokenizador:

```python
>>> tokenizer.save("tokenizer.json")
```

La localización (path en inglés) donde este archivo es guardado puede ser incluida en el método de inicialización de [`PreTrainedTokenizerFast`]
utilizando el parámetro `tokenizer_file`:

```python
>>> from transformers import PreTrainedTokenizerFast

>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json")
```

Este objeto ya puede ser utilizado con todos los métodos compartidos por los tokenizadores de 🤗 Transformers! Visita la [página sobre tokenizadores
](main_classes/tokenizer) para más información.