Skip to content

A character tokenizer for HuggingFace Transformers

License

Notifications You must be signed in to change notification settings

Koziev/character-tokenizer

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

character-tokenizer

Это специальный посимвольный токенизатор, совместимый с библиотекой Hugging Face Transformers. Он сделан для использования декодерными causal LM'ками. В частности, он применен при разработке модели inkoziev/charllama-35M.

Установка

pip install git+https://github.com/Koziev/character-tokenizer

Пример использования

import charactertokenizer

tokenizer = charactertokenizer.CharacterTokenizer.from_pretrained('inkoziev/charllama-35M')

prompt = '<s>У Лукоморья дуб зеленый\n'
encoded_prompt = tokenizer.encode(prompt, return_tensors='pt')
print(' | '.join(tokenizer.decode([t]) for t in encoded_prompt[0]))

Вывод будет таким:

<s> | У |   | Л | у | к | о | м | о | р | ь | я |   | д | у | б |   | з | е | л | е | н | ы | й |

About

A character tokenizer for HuggingFace Transformers

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%