ComfyUI F5 TTS Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI F5 TTS Examples

ComfyUI F5 TTS: texto-para-fala e clonagem de voz em uma única solução#

Este fluxo de trabalho ComfyUI F5 TTS permite gerar fala natural a partir de texto e clonar vozes diretamente no ComfyUI. Ele é alimentado pelos nós personalizados ComfyUI-F5-TTS e inclui um caminho completo para clonagem baseada em referência: forneça um WAV curto mais uma transcrição correspondente para condicionar o modelo, então sintetize novas falas que sigam o timbre e o estilo do locutor de referência. O gráfico também vem com testes prontos para várias variantes de modelos, idiomas e vocoders, para que você possa comparar saídas rapidamente e decidir o que melhor se adapta a narrações, locuções, diálogos de personagens ou demonstrações de produtos.

Tudo está organizado em grupos claros para que você possa usar o ComfyUI F5 TTS de duas maneiras: TTS rápido e com um clique em inglês, francês, alemão e japonês, ou clonagem de voz via um gravador embutido ou arquivos emparelhados. Um caminho de transcrição compacto do Whisper está incluído para ajudá-lo a obter uma transcrição de amostra precisa quando você já tem uma gravação limpa.

Modelos principais no fluxo de trabalho ComfyUI F5 TTS#

Fish Audio F5-TTS. TTS zero-shot que aprende as características de um locutor a partir de uma referência curta e produz fala de alta qualidade em vários idiomas. Veja o projeto para detalhes do modelo e histórico de treinamento. GitHub
OpenAI Whisper. Reconhecimento de fala usado aqui para transcrever automaticamente seu clipe de referência para que o texto de amostra corresponda exatamente, o que melhora a qualidade da clonagem. GitHub
BigVGAN. Um vocoder neural de alta fidelidade disponível como uma opção de decodificação para uma saída mais nítida e clara. GitHub
Vocos. Uma alternativa de vocoder neural rápida e leve focada em velocidade e baixa latência. GitHub
Nós personalizados ComfyUI-F5-TTS. A integração ComfyUI que conecta F5-TTS e backends compatíveis em nós usados em todo este gráfico. GitHub

Como usar o fluxo de trabalho ComfyUI F5 TTS#

Em um nível alto, o fluxo de trabalho oferece grupos independentes para comparações rápidas de modelos e uma linha de clonagem dedicada. Comece testando os grupos pré-configurados para confirmar a voz e o vocoder que você prefere, então passe para a clonagem com sua própria amostra. Cada subseção abaixo explica o que o grupo faz e os poucos inputs que importam.

Teste de Áudio de Entradas#

Esta linha demonstra a transcrição de referência mais o condicionamento. LoadAudio (#4) traz um WAV, Apply Whisper (#13) o transcreve, e F5TTSAudioInputs (#26) usa tanto o áudio de amostra quanto o texto do Whisper para condicionar a voz antes da pré-visualização. Forneça uma amostra falada limpa e deixe o Whisper preencher a porta de transcrição para que o par corresponda exatamente. Se você quiser fornecer arquivos diretamente, coloque um .wav e um .txt emparelhados com o mesmo nome de arquivo em ComfyUI/input, então reinicie o ComfyUI para que o gráfico possa vê-los.

Teste de múltiplas vozes#

Este grupo mostra a troca de estilo dentro de uma linha usando um único nó de síntese. F5TTSAudio (#17) lê um roteiro com segmentos rotulados, para que você possa testar vários estilos de personagens ou mudanças de ênfase em uma única passagem. É uma maneira rápida de ouvir como o ComfyUI F5 TTS lida com timbres contrastantes ou ritmo de narrador versus personagem.

Áudio EN#

Use F5TTSAudio (#15) para TTS em inglês simples. Insira seu roteiro e pré-visualize para avaliar a pronúncia e o ritmo básicos com o preset padrão do F5. Esta linha é ideal para iteração rápida antes de você se comprometer com a clonagem ou mistura de múltiplas vozes.

F5v1#

Este caminho executa o nó F5TTSAudio (#33) contra a variante F5 v1 para que você possa comparar tom e prosódia com o preset principal do F5. Use o mesmo texto que a linha EN para facilitar o julgamento das diferenças. É útil ao escolher um modelo padrão para um projeto mais longo.

Áudio FR#

Esta linha tem como alvo a síntese em francês com F5TTSAudio (#27) configurado para um preset francês. Forneça um roteiro em francês e pré-visualize a saída para verificar vogais nasais e manejo de ligação. Alterne com a linha EN para comparar clareza e velocidade.

Áudio DE bigvgan#

Aqui, F5TTSAudio (#30) usa um preset alemão e o vocoder BigVGAN para uma decodificação mais brilhante e nítida. Use esta linha quando quiser mais presença ou um brilho tipo estúdio. Se preferir uma renderização mais suave, compare com uma linha Vocos.

Áudio JP#

Este caminho usa F5TTSAudio (#25) com um preset japonês. Cole um roteiro japonês para avaliar o acento de pitch e o tempo de mora. É um bom ponto de partida para leituras no estilo anime ou linhas de produtos destinadas a públicos japoneses.

Teste E2#

Este grupo exercita F5TTSAudio (#29) com um preset compatível com E2 e o vocoder Vocos para testar um backend alternativo. Use-o para comparar latência e características de timbre com suas execuções F5.

Clone Sua Própria Voz#

Grave, emparelhe e clone diretamente no ComfyUI. Pressione o microfone em VrchAudioRecorderNode (#43) e leia o prompt exibido na caixa “Texto de Amostra para Gravar” Textbox (#42). O gravador direciona seu WAV para F5TTSAudioInputs (#44) junto com o texto exato que você falou, o que condiciona o modelo em seu timbre e estilo antes da pré-visualização em PreviewAudio (#45). Para melhores resultados, fale em um ambiente silencioso e certifique-se de que o texto de referência corresponda exatamente ao que você disse; então digite quaisquer novas linhas que você deseja que a voz clonada diga e execute o gráfico.

Nós principais no fluxo de trabalho ComfyUI F5 TTS#

`F5TTSAudio` (#15)#

O nó central de TTS de passagem única usado nos grupos EN, FR, DE, JP, F5v1 e E2. Forneça seu roteiro e escolha o preset de modelo e vocoder que se adequam ao seu idioma e entrega. Se você quiser tomadas reprodutíveis, mantenha a semente fixa; se quiser variedade, randomize entre as execuções. A implementação é fornecida pela extensão ComfyUI-F5-TTS. GitHub GitHub - FishAudio/F5-TTS

`F5TTSAudioInputs` (#44)#

O ponto de entrada de clonagem que consome um WAV de referência e sua transcrição correspondente para construir uma representação do locutor, então sintetiza novas falas nessa voz. Use uma amostra limpa com volume consistente e certifique-se de que a transcrição é exata para maximizar a similaridade e reduzir artefatos. Mude presets de modelo ou vocoders aqui se você precisar de uma decodificação mais brilhante ou mais neutra. GitHub - FishAudio/F5-TTS

`Apply Whisper` (#13)#

Transcrição automática para sua amostra de referência. Escolha um tamanho de Whisper que equilibre velocidade e precisão para seu hardware e idioma, então alimente o texto de saída no nó de clonagem para que o áudio e o texto estejam perfeitamente alinhados. Isso evita erros de condicionamento que podem acontecer quando o texto de amostra difere do que foi realmente falado. GitHub

`VrchAudioRecorderNode` (#43)#

Um gravador gráfico que captura um prompt falado curto para clonagem, removendo a necessidade de ferramentas externas. Segure para gravar, solte para parar e ouça imediatamente como o ComfyUI F5 TTS soa em sua própria voz. Mantenha o microfone perto e reduza o ruído ambiente para o resultado mais limpo.

Extras opcionais#

Use de 5 a 15 segundos de fala limpa para a referência, sem música ou efeitos.
Certifique-se de que a transcrição da amostra corresponda exatamente à gravação; mesmo pequenas incompatibilidades podem reduzir a fidelidade da clonagem.
Compare Vocos e BigVGAN na mesma linha para decidir entre velocidade e detalhe.
Mantenha uma semente fixa quando precisar de retomas consistentes; randomize ao explorar estilo.
Para projetos multilíngues, teste primeiro as linhas EN, FR, DE e JP, depois finalize a clonagem quando estiver satisfeito com a pronúncia e o ritmo.

Agradecimentos#

Este fluxo de trabalho implementa e baseia-se nos seguintes trabalhos e recursos. Agradecemos a niknah pelo nó ComfyUI-F5-TTS, niknah pelo exemplo de fluxo de trabalho F5TTS-test-all.json, e a comunidade r/StableDiffusion pelo guia “Clonagem de Voz com F5-TTS no ComfyUI” por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos#

niknah/ComfyUI-F5-TTS
- GitHub: niknah/ComfyUI-F5-TTS
niknah/ComfyUI-F5-TTS (Exemplo de Fluxo de Trabalho: F5TTS-test-all.json)
- GitHub: example_workflows/F5TTS-test-all.json
r/StableDiffusion/Guia da Comunidade (Clonagem de Voz com F5-TTS no ComfyUI)
- GitHub: example_web_viewer_005_audio_web_viewer_f5_tts.json
- Documentação / Notas de Lançamento: Clone Sua Própria Voz Facilmente usando ComfyUI e Quase em Tempo Real! (Tutorial Passo a Passo & Fluxo de Trabalho Incluído)

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às licenças e termos respectivos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

MMAudio | Vídeo para Áudio

MMAudio: Modelo avançado de vídeo para áudio para geração de áudio de alta qualidade.

Geração de Música ACE-Step | Criação de Áudio com IA

Gere música de qualidade de estúdio 15× mais rápido com tecnologia de difusão revolucionária.

EchoMimic | Animações de Retratos Guiadas por Áudio

Gere cabeças falantes realistas e gestos corporais sincronizados com o áudio fornecido.

Hunyuan3D 2.1 | Imagem para Modelo 3D

Grande salto do 2.0: Transforme fotos em incríveis modelos 3D instantaneamente.

AnimateDiff + Dynamic Prompts | Texto para Vídeo

Utilize Dynamic Prompts (Wildcards), Animatediff e IP-Adapter para gerar animações dinâmicas ou GIFs.

IDM-VTON | Prova Virtual

Prova virtual criando resultados realistas ao capturar detalhes e estilo das roupas.

FLUX IP-Adapter | Geração de Imagens com Adaptação de Estilo

Adapte modelos pré-treinados a estilos de imagem específicos para visuais impressionantes de 512x512 e 1024x1024.

FLUX IPAdapter V2 | XLabs

Explore o modelo XLabs FLUX IPAdapter V2 em comparação com o V1 para seus objetivos criativos.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

ComfyUI F5 TTS | Motor de Clonagem de Voz Natural