ChatterBox TTS ComfyUI Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ChatterBox TTS ComfyUI Examples

ChatterBox TTS ComfyUI: TTS multimodal, conversión de voz, multilingüe y síntesis de diálogo en un solo gráfico#

ChatterBox TTS ComfyUI es un flujo de trabajo de audio compacto y amigable para creadores que te permite generar habla en varios modos desde un solo lienzo: TTS estándar, Turbo TTS para borradores rápidos, narración multilingüe, clonación de voz guiada por referencia, conversión de voz y diálogo de dos hablantes con guion. Está impulsado por la suite de nodos FL ChatterBox de ComfyUI_Fill-ChatterBox, que integra el proyecto de código abierto Resemble AI Chatterbox.

Utiliza este flujo de trabajo para crear prototipos de voces de IA, localizar líneas a otros idiomas, convertir una actuación en otra voz o bloquear intercambios de personajes. El diseño mantiene cada camino separado, para que puedas audicionar resultados lado a lado y decidir rápidamente qué modo de ChatterBox TTS ComfyUI se adapta a tu tarea.

Modelos clave en el flujo de trabajo Comfyui ChatterBox TTS ComfyUI#

Modelos TTS de Resemble AI Chatterbox. TTS neuronal central que convierte un guion en habla natural, con audio de referencia opcional para dirigir la voz y el estilo. Resemble AI Chatterbox
Resemble AI Chatterbox Turbo TTS. Una variante de TTS de baja latencia optimizada para la velocidad cuando necesitas tomas rápidas y sugerencias iterativas. Resemble AI Chatterbox
Resemble AI Chatterbox Multilingual TTS. Modelos que renderizan texto en varios idiomas mientras preservan un estilo o voz de referencia elegida. Resemble AI Chatterbox
Resemble AI Chatterbox Voice Conversion. Transforma el timbre de una grabación en una voz objetivo manteniendo el tiempo y el contenido. Resemble AI Chatterbox

Cómo usar el flujo de trabajo Comfyui ChatterBox TTS ComfyUI#

Este gráfico está organizado como caminos paralelos que comienzan desde entradas de audio compartidas y fluyen hacia nodos ChatterBox, cada uno previsualizando su propio resultado. Carga o reemplaza los dos clips de entrada, luego activa el camino que deseas.

Entradas: audio de referencia y fuente#

Dos nodos LoadAudio proporcionan entradas reutilizables. LoadAudio (#12) alimenta varios caminos como estilo o referencia de fuente. LoadAudio (#20) sirve como referencia alternativa o voz objetivo. Puedes dirigirlos a clips cortos y limpios que representen el estilo de habla o la identidad que deseas emular. Ambos aceptan archivos de audio comunes y también pueden extraer audio de video.

TTS estándar con referencia de estilo opcional#

FL_ChatterboxTTS (#16) genera habla a partir de tu guion y puede opcionalmente tomar audio_prompt de LoadAudio (#12) para capturar voz y entrega. Ingresa tu texto, conecta una referencia adecuada si deseas similitud de voz, y encola el nodo. Usa el PreviewAudio adjunto para audicionar. Fija la semilla cuando necesites tomas reproducibles, o aleatoriza para explorar variaciones.

Turbo TTS para iteración rápida#

FL_ChatterboxTurboTTS (#15) se centra en la síntesis rápida para borradores rápidos y edición interactiva. Acepta un audio_prompt de LoadAudio (#20) si deseas influir en el tono o la identidad. Mantén los guiones concisos cuando te mueves rápido, y experimenta con marcado como el "[laugh]" del ejemplo para probar señales no verbales. Previsualiza la salida, luego cambia a TTS estándar o multilingüe si deseas una entrega más rica.

Narración multilingüe#

FL_ChatterboxMultilingualTTS (#25) renderiza tu guion en el idioma seleccionado y puede tomar prestado el estilo de audio_prompt en LoadAudio (#12). Elige la etiqueta de idioma (por ejemplo, English (en) como se muestra en el gráfico) y proporciona texto en ese idioma. Un clip de referencia corto ayuda a mantener un acento o persona consistente a través de los idiomas. Escucha en PreviewAudio e itera en la redacción para mayor claridad.

Conversión de voz#

FL_ChatterboxVC (#19) convierte el timbre de una línea de input_audio de LoadAudio (#12) en la target_voice de LoadAudio (#20). Esto es ideal cuando ya tienes una lectura perfectamente sincronizada y solo deseas que sea hablada por otra voz. Recorta el silencio y mantén la voz objetivo limpia para reducir artefactos. Usa la vista previa para confirmar que el contenido se conserva mientras cambia la identidad.

Síntesis de diálogo de dos hablantes#

FL_ChatterboxDialogTTS (#23) convierte un guion de varias líneas en una única pista dialog_audio. Proporciona speaker_A_Audio y speaker_B_Audio opcionales de los dos nodos LoadAudio para anclar la voz de cada personaje. En el cuadro de guion, prefija las líneas con etiquetas de hablante como "SPEAKER A:" y "SPEAKER B:" para asignar turnos, como se demuestra en el gráfico. Puedes extender a los hablantes C y D agregando clips de referencia a sus entradas.

Previsualizar y comparar#

Cada camino se expande a su propio PreviewAudio para que puedas escuchar inmediatamente y comparar modos. Ejecuta un camino a la vez o encola varios para audicionar diferencias entre salidas estándar, Turbo, multilingüe, conversión y diálogo dentro de la misma sesión de ChatterBox TTS ComfyUI.

Nodos clave en el flujo de trabajo Comfyui ChatterBox TTS ComfyUI#

`FL_ChatterboxTTS` (#16)#

TTS de propósito general que acepta un guion y una referencia audio_prompt opcional para imitar el estilo. Úsalo cuando la calidad y la controlabilidad sean lo más importante. Mantén el mismo clip de referencia en todas las tomas para una identidad consistente, y bloquea la semilla cuando necesites reproducibilidad exacta.

`FL_ChatterboxTurboTTS` (#15)#

TTS rápido para redactar líneas, iterar en sugerencias o previsualizar ideas de marcado. También acepta audio_prompt para dirigir la voz. Si notas una prosodia más delgada en comparación con el camino estándar, finaliza con FL_ChatterboxTTS usando el mismo guion y referencia.

`FL_ChatterboxMultilingualTTS` (#25)#

TTS consciente del idioma que preserva una persona elegida mientras cambia de idioma. Elige la etiqueta de idioma y proporciona texto en ese idioma. Un audio_prompt coincidente mantiene el acento y la energía alineados con tu voz de referencia.

`FL_ChatterboxVC` (#19)#

Conversión de voz que mapea una actuación input_audio a una target_voice. Usa un clip objetivo limpio y representativo y una lectura de fuente bien ritmada. Para obtener mejores resultados, recorta los silencios largos y evita el ruido de fondo intenso en cualquiera de los clips.

`FL_ChatterboxDialogTTS` (#23)#

TTS multihablante que analiza líneas etiquetadas en una sola conversación. Asigna referencias para cada entrada de personaje que planeas usar, luego estructura el guion con etiquetas claras de "SPEAKER X:". Mantén los turnos razonablemente cortos para un ritmo natural y ediciones de tiempo más fáciles más adelante.

Extras opcionales#

Mantén los clips de referencia cortos, limpios y expresivos; el tono de habitación y el ruido reducen la fidelidad de la voz.
Usa una semilla fija cuando necesites coincidir el tiempo y la entrega a través de revisiones; aleatoriza para explorar alternativas.
Si un camino suena demasiado fuerte o recortado, normaliza tus referencias y reduce la ganancia de entrada antes de la síntesis.
Turbo es excelente para la exploración de sugerencias; vuelve a ejecutar líneas prometedoras con TTS estándar o multilingüe para el pulido final.
Los guiones de diálogo son más fáciles de mantener si colocas una expresión por línea y etiquetas a los hablantes de manera consistente.
Agrega un nodo SaveAudio después de cualquier previsualización si deseas exportar archivos directamente desde el lienzo.

ChatterBox TTS ComfyUI te ofrece un espacio de juego de gráfico único y flexible para probar voces, idiomas y diálogos sin cambiar de contexto, todo respaldado por ComfyUI_Fill-ChatterBox y Resemble AI Chatterbox.

Reconocimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a filliptm por ComfyUI_Fill-ChatterBox, y a Resemble AI por Chatterbox, por sus contribuciones y mantenimiento. Para obtener detalles autorizados, consulta la documentación original y los repositorios enlazados a continuación.

Recursos#

filliptm/ComfyUI_Fill-ChatterBox
- GitHub: filliptm/ComfyUI_Fill-ChatterBox
resemble-ai/chatterbox
- GitHub: resemble-ai/chatterbox

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Fish Audio S2 TTS | Generador de Voz Expresiva

Crea discursos realistas con emociones, estilos y voces clonadas rápidamente.

MMAudio | Video a Audio

MMAudio: Modelo avanzado de video a audio para la generación de audio de alta calidad.

ACE-Step 1.5XL Base texto a música | Generador de Sonido AI

Convierte tu texto en música pura creada por IA al instante.

Generación de Música ACE-Step | Creación de Audio AI

Genera música de calidad de estudio 15× más rápido con tecnología de difusión innovadora.

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Rápido

Configuración Dual Light LoRA, 4X más rápido.

Qwen Edit 2509 MultipleAngles | Creador de Imágenes Multi-Vista

Convierte una foto en visuales completos de múltiples ángulos al instante.

CogVideoX-5B | Modelo Avanzado de Texto a Video

CogVideoX-5B: Modelo avanzado de texto a video para la generación de videos de alta calidad.

Mejorador de Video Fácil para Grabaciones | Mejora Pro HD

Convierte clips de baja resolución en videos HD nítidos y naturales rápidamente.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

ChatterBox TTS ComfyUI | Generador de Voz de IA