Este código-fonte e os modelos são publicados sob a licença CC-BY-NC-SA-4.0. Consulte LICENSE para mais detalhes.
-
TTS Zero-shot & Few-shot: Insira uma amostra vocal de 10 a 30 segundos para gerar saída de TTS de alta qualidade. Para diretrizes detalhadas, veja Melhores Práticas para Clonagem de Voz.
-
Suporte Multilíngue e Interlingual: Basta copiar e colar o texto multilíngue na caixa de entrada—não se preocupe com o idioma. Atualmente suporta inglês, japonês, coreano, chinês, francês, alemão, árabe e espanhol.
-
Sem Dependência de Fonemas: O modelo tem forte capacidade de generalização e não depende de fonemas para TTS. Ele pode lidar com textos em qualquer script de idioma.
-
Alta Precisão: Alcança uma CER (Taxa de Erro de Caracteres) e WER (Taxa de Erro de Palavras) de cerca de 2% para textos de 5 minutos em inglês.
-
Rápido: Com a aceleração fish-tech, o fator de tempo real é de aproximadamente 1:5 em um laptop Nvidia RTX 4060 e 1:15 em uma Nvidia RTX 4090.
-
Inferência WebUI: Apresenta uma interface de usuário web baseada em Gradio, fácil de usar e compatível com navegadores como Chrome, Firefox e Edge.
-
Inferência GUI: Oferece uma interface gráfica PyQt6 que funciona perfeitamente com o servidor API. Suporta Linux, Windows e macOS. Veja o GUI.
-
Fácil de Implantar: Configura facilmente um servidor de inferência com suporte nativo para Linux, Windows e macOS, minimizando a perda de velocidade.
Não nos responsabilizamos por qualquer uso ilegal do código-fonte. Consulte as leis locais sobre DMCA (Digital Millennium Copyright Act) e outras leis relevantes em sua região.