ChatterBox TTS ComfyUI Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ChatterBox TTS ComfyUI Examples

ChatterBox TTS ComfyUI: TTS multimodo, conversão de voz, multilinguagem e síntese de diálogo em um único gráfico#

ChatterBox TTS ComfyUI é um fluxo de trabalho de áudio compacto e amigável ao criador que permite gerar fala em vários modos a partir de uma única tela: TTS padrão, Turbo TTS para rascunhos rápidos, narração multilíngue, clonagem de voz guiada por referência, conversão de voz e diálogo de dois falantes com script. É alimentado pela suíte de nós FL ChatterBox de ComfyUI_Fill-ChatterBox, que integra o projeto de código aberto Resemble AI Chatterbox.

Use este fluxo de trabalho para prototipar vozes de IA, localizar falas para outros idiomas, converter uma performance em outra voz ou estruturar trocas de personagens. O layout mantém cada caminho separado, para que você possa testar resultados lado a lado e decidir rapidamente qual modo ChatterBox TTS ComfyUI se adapta à sua tarefa.

Modelos principais no fluxo de trabalho Comfyui ChatterBox TTS ComfyUI#

Modelos TTS do Resemble AI Chatterbox. TTS neural central que transforma um script em fala natural, com áudio de referência opcional para direcionar voz e estilo. Resemble AI Chatterbox
Resemble AI Chatterbox Turbo TTS. Uma variante TTS de baixa latência otimizada para velocidade quando você precisa de tomadas rápidas e sugestões iterativas. Resemble AI Chatterbox
Resemble AI Chatterbox Multilingual TTS. Modelos que renderizam texto em vários idiomas enquanto preservam um estilo ou voz de referência escolhido. Resemble AI Chatterbox
Resemble AI Chatterbox Voice Conversion. Transforma o timbre de uma gravação em uma voz alvo enquanto mantém o tempo e o conteúdo. Resemble AI Chatterbox

Como usar o fluxo de trabalho Comfyui ChatterBox TTS ComfyUI#

Este gráfico é organizado como caminhos paralelos que começam a partir de entradas de áudio compartilhadas e fluem para os nós ChatterBox, cada um pré-visualizando seu próprio resultado. Carregue ou substitua os dois clipes de entrada, depois acione o caminho que você deseja.

Entradas: áudio de referência e fonte#

Dois nós LoadAudio fornecem entradas reutilizáveis. LoadAudio (#12) alimenta vários caminhos como uma referência de estilo ou fonte. LoadAudio (#20) serve como uma referência alternativa ou voz alvo. Você pode apontar esses para clipes curtos e limpos que representem o estilo de fala ou a identidade que você deseja emular. Ambos aceitam arquivos de áudio comuns e também podem extrair áudio de vídeo.

TTS padrão com referência de estilo opcional#

FL_ChatterboxTTS (#16) gera fala a partir do seu script e pode opcionalmente receber audio_prompt de LoadAudio (#12) para capturar voz e entrega. Insira seu texto, conecte uma referência adequada se desejar semelhança de voz, e coloque o nó na fila. Use o PreviewAudio anexado para testar. Fixe a semente quando precisar de tomadas reproduzíveis ou randomize para explorar variações.

Turbo TTS para iteração rápida#

FL_ChatterboxTurboTTS (#15) foca em síntese rápida para rascunhos rápidos e edição interativa. Aceita um audio_prompt de LoadAudio (#20) se você quiser ajustar tom ou identidade. Mantenha os scripts concisos ao mover-se rapidamente e experimente com marcações como o exemplo de "[laugh]" para testar dicas não-verbais. Pré-visualize o resultado, então mude para TTS padrão ou multilíngue se quiser uma entrega mais rica.

Narração multilíngue#

FL_ChatterboxMultilingualTTS (#25) renderiza seu script no idioma selecionado e pode emprestar estilo de audio_prompt em LoadAudio (#12). Escolha o rótulo do idioma (por exemplo, English (en) como mostrado no gráfico) e forneça texto nesse idioma. Um clipe de referência curto ajuda a manter um sotaque ou persona consistente entre os idiomas. Ouça em PreviewAudio e itere na formulação para clareza.

Conversão de voz#

FL_ChatterboxVC (#19) converte o timbre de uma linha input_audio de LoadAudio (#12) na target_voice de LoadAudio (#20). Isto é ideal quando você já tem uma leitura perfeitamente cronometrada e só quer que seja falada por outra voz. Corte o silêncio e mantenha a voz alvo limpa para reduzir artefatos. Use a pré-visualização para confirmar que o conteúdo é preservado enquanto a identidade muda.

Síntese de diálogo de dois falantes#

FL_ChatterboxDialogTTS (#23) transforma um script de várias linhas em uma única faixa dialog_audio. Forneça speaker_A_Audio e speaker_B_Audio opcionais dos dois nós LoadAudio para ancorar a voz de cada personagem. Na caixa de script, prefixe as linhas com tags de falante como "SPEAKER A:" e "SPEAKER B:" para atribuir turnos, conforme demonstrado no gráfico. Você pode estender para falantes C e D adicionando clipes de referência às suas entradas.

Pré-visualizar e comparar#

Cada caminho se abre para seu próprio PreviewAudio para que você possa ouvir imediatamente e comparar modos. Execute um caminho de cada vez ou coloque vários na fila para testar diferenças entre saídas padrão, Turbo, multilíngue, conversão e diálogo dentro da mesma sessão ChatterBox TTS ComfyUI.

Nós principais no fluxo de trabalho Comfyui ChatterBox TTS ComfyUI#

`FL_ChatterboxTTS` (#16)#

TTS de uso geral que aceita um script e uma referência opcional audio_prompt para imitar estilo. Use quando a qualidade e a controlabilidade forem mais importantes. Mantenha o mesmo clipe de referência em todas as tomadas para uma identidade consistente e bloqueie a semente quando precisar de exata reprodutibilidade.

`FL_ChatterboxTurboTTS` (#15)#

TTS rápido para redigir linhas, iterar em sugestões ou pré-visualizar ideias de marcação. Também aceita audio_prompt para direcionamento de voz. Se você notar prosódia mais fina em comparação com o caminho padrão, finalize com FL_ChatterboxTTS usando o mesmo script e referência.

`FL_ChatterboxMultilingualTTS` (#25)#

TTS ciente do idioma que preserva uma persona escolhida enquanto troca idiomas. Escolha o rótulo do idioma e forneça texto nesse idioma. Um audio_prompt correspondente mantém sotaque e energia alinhados com sua voz de referência.

`FL_ChatterboxVC` (#19)#

Conversão de voz que mapeia uma performance input_audio para uma target_voice. Use um clipe alvo limpo e representativo e uma leitura de fonte bem ritmada. Para melhores resultados, corte longos silêncios e evite ruído de fundo pesado em qualquer um dos clipes.

`FL_ChatterboxDialogTTS` (#23)#

TTS multisspeaker que analisa linhas marcadas em uma única conversa. Atribua referências para cada entrada de personagem que planeja usar, então estruture o script com tags claras "SPEAKER X:". Mantenha as falas razoavelmente curtas para um ritmo natural e edições de tempo mais fáceis depois.

Extras opcionais#

Mantenha os clipes de referência curtos, limpos e expressivos; o tom de sala e o ruído reduzem a fidelidade da voz.
Use uma semente fixa quando precisar combinar tempo e entrega entre revisões; randomize para explorar alternativas.
Se um caminho soar muito alto ou cortado, normalize suas referências e reduza o ganho de entrada antes da síntese.
Turbo é ótimo para exploração de sugestões; execute novamente linhas promissoras com TTS padrão ou multilíngue para polimento final.
Scripts de diálogo são mais fáceis de manter se você colocar uma fala por linha e marcar consistentemente os falantes.
Adicione um nó SaveAudio após qualquer pré-visualização se quiser exportar arquivos diretamente da tela.

ChatterBox TTS ComfyUI oferece a você um playground flexível e de gráfico único para experimentar vozes, idiomas e diálogos sem trocar de contexto, tudo apoiado por ComfyUI_Fill-ChatterBox e Resemble AI Chatterbox.

Agradecimentos#

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos a filliptm pelo ComfyUI_Fill-ChatterBox, e a Resemble AI pelo Chatterbox, por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos#

filliptm/ComfyUI_Fill-ChatterBox
- GitHub: filliptm/ComfyUI_Fill-ChatterBox
resemble-ai/chatterbox
- GitHub: resemble-ai/chatterbox

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Fish Audio S2 TTS | Gerador de Voz Expressiva

Crie fala realista com emoções, estilos e vozes clonadas rapidamente.

MMAudio | Vídeo para Áudio

MMAudio: Modelo avançado de vídeo para áudio para geração de áudio de alta qualidade.

ACE-Step 1.5XL Base texto para música | Gerador de Som AI

Transforma seu texto em música pura criada por IA instantaneamente.

Geração de Música ACE-Step | Criação de Áudio com IA

Gere música de qualidade de estúdio 15× mais rápido com tecnologia de difusão revolucionária.

Hunyuan Imagem para Vídeo | Criador de Movimento Deslumbrante

Crie filmes magníficos a partir de imagens estáticas através de movimento cinematográfico e efeitos personalizáveis.

Iluminação de Produtos | Alternativa ao Magnific.AI Relight

Eleve sua fotografia de produtos sem esforço, uma excelente alternativa ao Magnific.AI Relight.

InfiniteYou | Geração de Rostos com Preservação de Identidade

Geração de identidade com preservação em modo duplo com os fluxos de trabalho Face Combine e Zero-Shot usando InfiniteYou.

HunyuanCustom | Gerador de Vídeo Multi-Subject

Crie vídeos de dois assuntos com preservação excepcional de identidade.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

ChatterBox TTS ComfyUI | Gerador de Voz por IA