ChatterBox TTS ComfyUI: TTS multimodal, conversión de voz, multilingüe y síntesis de diálogo en un solo gráfico#
ChatterBox TTS ComfyUI es un flujo de trabajo de audio compacto y amigable para creadores que te permite generar habla en varios modos desde un solo lienzo: TTS estándar, Turbo TTS para borradores rápidos, narración multilingüe, clonación de voz guiada por referencia, conversión de voz y diálogo de dos hablantes con guion. Está impulsado por la suite de nodos FL ChatterBox de ComfyUI_Fill-ChatterBox, que integra el proyecto de código abierto Resemble AI Chatterbox.
Utiliza este flujo de trabajo para crear prototipos de voces de IA, localizar líneas a otros idiomas, convertir una actuación en otra voz o bloquear intercambios de personajes. El diseño mantiene cada camino separado, para que puedas audicionar resultados lado a lado y decidir rápidamente qué modo de ChatterBox TTS ComfyUI se adapta a tu tarea.
Modelos clave en el flujo de trabajo Comfyui ChatterBox TTS ComfyUI#
- Modelos TTS de Resemble AI Chatterbox. TTS neuronal central que convierte un guion en habla natural, con audio de referencia opcional para dirigir la voz y el estilo. Resemble AI Chatterbox
- Resemble AI Chatterbox Turbo TTS. Una variante de TTS de baja latencia optimizada para la velocidad cuando necesitas tomas rápidas y sugerencias iterativas. Resemble AI Chatterbox
- Resemble AI Chatterbox Multilingual TTS. Modelos que renderizan texto en varios idiomas mientras preservan un estilo o voz de referencia elegida. Resemble AI Chatterbox
- Resemble AI Chatterbox Voice Conversion. Transforma el timbre de una grabación en una voz objetivo manteniendo el tiempo y el contenido. Resemble AI Chatterbox
Cómo usar el flujo de trabajo Comfyui ChatterBox TTS ComfyUI#
Este gráfico está organizado como caminos paralelos que comienzan desde entradas de audio compartidas y fluyen hacia nodos ChatterBox, cada uno previsualizando su propio resultado. Carga o reemplaza los dos clips de entrada, luego activa el camino que deseas.
Entradas: audio de referencia y fuente#
Dos nodos LoadAudio proporcionan entradas reutilizables. LoadAudio (#12) alimenta varios caminos como estilo o referencia de fuente. LoadAudio (#20) sirve como referencia alternativa o voz objetivo. Puedes dirigirlos a clips cortos y limpios que representen el estilo de habla o la identidad que deseas emular. Ambos aceptan archivos de audio comunes y también pueden extraer audio de video.
TTS estándar con referencia de estilo opcional#
FL_ChatterboxTTS (#16) genera habla a partir de tu guion y puede opcionalmente tomar audio_prompt de LoadAudio (#12) para capturar voz y entrega. Ingresa tu texto, conecta una referencia adecuada si deseas similitud de voz, y encola el nodo. Usa el PreviewAudio adjunto para audicionar. Fija la semilla cuando necesites tomas reproducibles, o aleatoriza para explorar variaciones.
Turbo TTS para iteración rápida#
FL_ChatterboxTurboTTS (#15) se centra en la síntesis rápida para borradores rápidos y edición interactiva. Acepta un audio_prompt de LoadAudio (#20) si deseas influir en el tono o la identidad. Mantén los guiones concisos cuando te mueves rápido, y experimenta con marcado como el "[laugh]" del ejemplo para probar señales no verbales. Previsualiza la salida, luego cambia a TTS estándar o multilingüe si deseas una entrega más rica.
Narración multilingüe#
FL_ChatterboxMultilingualTTS (#25) renderiza tu guion en el idioma seleccionado y puede tomar prestado el estilo de audio_prompt en LoadAudio (#12). Elige la etiqueta de idioma (por ejemplo, English (en) como se muestra en el gráfico) y proporciona texto en ese idioma. Un clip de referencia corto ayuda a mantener un acento o persona consistente a través de los idiomas. Escucha en PreviewAudio e itera en la redacción para mayor claridad.
Conversión de voz#
FL_ChatterboxVC (#19) convierte el timbre de una línea de input_audio de LoadAudio (#12) en la target_voice de LoadAudio (#20). Esto es ideal cuando ya tienes una lectura perfectamente sincronizada y solo deseas que sea hablada por otra voz. Recorta el silencio y mantén la voz objetivo limpia para reducir artefactos. Usa la vista previa para confirmar que el contenido se conserva mientras cambia la identidad.
Síntesis de diálogo de dos hablantes#
FL_ChatterboxDialogTTS (#23) convierte un guion de varias líneas en una única pista dialog_audio. Proporciona speaker_A_Audio y speaker_B_Audio opcionales de los dos nodos LoadAudio para anclar la voz de cada personaje. En el cuadro de guion, prefija las líneas con etiquetas de hablante como "SPEAKER A:" y "SPEAKER B:" para asignar turnos, como se demuestra en el gráfico. Puedes extender a los hablantes C y D agregando clips de referencia a sus entradas.
Previsualizar y comparar#
Cada camino se expande a su propio PreviewAudio para que puedas escuchar inmediatamente y comparar modos. Ejecuta un camino a la vez o encola varios para audicionar diferencias entre salidas estándar, Turbo, multilingüe, conversión y diálogo dentro de la misma sesión de ChatterBox TTS ComfyUI.
Nodos clave en el flujo de trabajo Comfyui ChatterBox TTS ComfyUI#
FL_ChatterboxTTS (#16)#
TTS de propósito general que acepta un guion y una referencia audio_prompt opcional para imitar el estilo. Úsalo cuando la calidad y la controlabilidad sean lo más importante. Mantén el mismo clip de referencia en todas las tomas para una identidad consistente, y bloquea la semilla cuando necesites reproducibilidad exacta.
FL_ChatterboxTurboTTS (#15)#
TTS rápido para redactar líneas, iterar en sugerencias o previsualizar ideas de marcado. También acepta audio_prompt para dirigir la voz. Si notas una prosodia más delgada en comparación con el camino estándar, finaliza con FL_ChatterboxTTS usando el mismo guion y referencia.
FL_ChatterboxMultilingualTTS (#25)#
TTS consciente del idioma que preserva una persona elegida mientras cambia de idioma. Elige la etiqueta de idioma y proporciona texto en ese idioma. Un audio_prompt coincidente mantiene el acento y la energía alineados con tu voz de referencia.
FL_ChatterboxVC (#19)#
Conversión de voz que mapea una actuación input_audio a una target_voice. Usa un clip objetivo limpio y representativo y una lectura de fuente bien ritmada. Para obtener mejores resultados, recorta los silencios largos y evita el ruido de fondo intenso en cualquiera de los clips.
FL_ChatterboxDialogTTS (#23)#
TTS multihablante que analiza líneas etiquetadas en una sola conversación. Asigna referencias para cada entrada de personaje que planeas usar, luego estructura el guion con etiquetas claras de "SPEAKER X:". Mantén los turnos razonablemente cortos para un ritmo natural y ediciones de tiempo más fáciles más adelante.
Extras opcionales#
- Mantén los clips de referencia cortos, limpios y expresivos; el tono de habitación y el ruido reducen la fidelidad de la voz.
- Usa una semilla fija cuando necesites coincidir el tiempo y la entrega a través de revisiones; aleatoriza para explorar alternativas.
- Si un camino suena demasiado fuerte o recortado, normaliza tus referencias y reduce la ganancia de entrada antes de la síntesis.
- Turbo es excelente para la exploración de sugerencias; vuelve a ejecutar líneas prometedoras con TTS estándar o multilingüe para el pulido final.
- Los guiones de diálogo son más fáciles de mantener si colocas una expresión por línea y etiquetas a los hablantes de manera consistente.
- Agrega un nodo
SaveAudiodespués de cualquier previsualización si deseas exportar archivos directamente desde el lienzo.
ChatterBox TTS ComfyUI te ofrece un espacio de juego de gráfico único y flexible para probar voces, idiomas y diálogos sin cambiar de contexto, todo respaldado por ComfyUI_Fill-ChatterBox y Resemble AI Chatterbox.
Reconocimientos#
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a filliptm por ComfyUI_Fill-ChatterBox, y a Resemble AI por Chatterbox, por sus contribuciones y mantenimiento. Para obtener detalles autorizados, consulta la documentación original y los repositorios enlazados a continuación.
Recursos#
- filliptm/ComfyUI_Fill-ChatterBox
- GitHub: filliptm/ComfyUI_Fill-ChatterBox
- resemble-ai/chatterbox
- GitHub: resemble-ai/chatterbox
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

