-
Notifications
You must be signed in to change notification settings - Fork 26.7k
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Documentation: Spanish translation of fast_tokenizers.mdx (#16882)
* Spanish translation of fast_tokenizers.mdx * add fast_tokenizers to the spanish _toctree.yml * Update docs/source/es/fast_tokenizers.mdx Co-authored-by: Omar U. Espejel <espejelomar@gmail.com> * Update docs/source/es/fast_tokenizers.mdx Co-authored-by: Omar U. Espejel <espejelomar@gmail.com> * Update docs/source/es/fast_tokenizers.mdx Co-authored-by: Omar U. Espejel <espejelomar@gmail.com> * Update docs/source/es/fast_tokenizers.mdx Co-authored-by: Omar U. Espejel <espejelomar@gmail.com> * Update docs/source/es/fast_tokenizers.mdx Co-authored-by: Omar U. Espejel <espejelomar@gmail.com> * Update docs/source/es/fast_tokenizers.mdx Co-authored-by: Omar U. Espejel <espejelomar@gmail.com> Co-authored-by: Omar U. Espejel <espejelomar@gmail.com>
- Loading branch information
1 parent
ae82da2
commit e2d678b
Showing
2 changed files
with
72 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,70 @@ | ||
<!--Copyright 2022 The HuggingFace Team. All rights reserved. | ||
|
||
Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with | ||
the License. You may obtain a copy of the License at | ||
|
||
http://www.apache.org/licenses/LICENSE-2.0 | ||
|
||
Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on | ||
an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the | ||
specific language governing permissions and limitations under the License. | ||
--> | ||
|
||
# Usa los tokenizadores de 🤗 Tokenizers | ||
|
||
[`PreTrainedTokenizerFast`] depende de la biblioteca [🤗 Tokenizers](https://huggingface.co/docs/tokenizers). Los tokenizadores obtenidos desde la biblioteca 🤗 Tokenizers pueden ser | ||
cargados de forma muy sencilla en los 🤗 Transformers. | ||
|
||
Antes de entrar en detalles, comencemos creando un tokenizador dummy en unas cuantas líneas: | ||
|
||
```python | ||
>>> from tokenizers import Tokenizer | ||
>>> from tokenizers.models import BPE | ||
>>> from tokenizers.trainers import BpeTrainer | ||
>>> from tokenizers.pre_tokenizers import Whitespace | ||
>>> tokenizer = Tokenizer(BPE(unk_token="[UNK]")) | ||
>>> trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"]) | ||
>>> tokenizer.pre_tokenizer = Whitespace() | ||
>>> files = [...] | ||
>>> tokenizer.train(files, trainer) | ||
``` | ||
Ahora tenemos un tokenizador entrenado en los archivos que definimos. Lo podemos seguir utilizando en ese entorno de ejecución (runtime en inglés), o puedes guardarlo | ||
en un archivo JSON para reutilizarlo en un futuro. | ||
## Cargando directamente desde el objeto tokenizador | ||
Veamos cómo utilizar este objeto tokenizador en la biblioteca 🤗 Transformers. La clase | ||
[`PreTrainedTokenizerFast`] permite una instanciación fácil, al aceptar el objeto | ||
*tokenizer* instanciado como argumento: | ||
```python | ||
>>> from transformers import PreTrainedTokenizerFast | ||
>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer) | ||
``` | ||
|
||
Este objeto ya puede ser utilizado con todos los métodos compartidos por los tokenizadores de 🤗 Transformers! Visita la [página sobre tokenizadores | ||
](main_classes/tokenizer) para más información. | ||
|
||
## Cargando desde un archivo JSON | ||
|
||
Para cargar un tokenizador desde un archivo JSON, comencemos por guardar nuestro tokenizador: | ||
|
||
```python | ||
>>> tokenizer.save("tokenizer.json") | ||
``` | ||
|
||
La localización (path en inglés) donde este archivo es guardado puede ser incluida en el método de inicialización de [`PreTrainedTokenizerFast`] | ||
utilizando el parámetro `tokenizer_file`: | ||
|
||
```python | ||
>>> from transformers import PreTrainedTokenizerFast | ||
|
||
>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json") | ||
``` | ||
|
||
Este objeto ya puede ser utilizado con todos los métodos compartidos por los tokenizadores de 🤗 Transformers! Visita la [página sobre tokenizadores | ||
](main_classes/tokenizer) para más información. |