Fish Audio S2 TTS en ComfyUI | Emotion, Multi-Speaker, Cloning

ComfyUI Fish Audio S2 TTS Workflow

Fish Audio S2 TTS in ComfyUI | Emotion, Multi-Speaker, Cloning

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Fish Audio S2 TTS Examples

Fish Audio S2 TTS para ComfyUI: TTS de alta calidad, clonación de voz y diálogo multi-locutor#

Fish Audio S2 TTS es un flujo de trabajo listo para ejecutar en ComfyUI que convierte texto en discurso natural, clona una voz a partir de un clip de referencia corto y genera conversaciones multi-locutor. Está impulsado por la familia Fish Audio S2-Pro y admite un control de estilo rico a través de etiquetas de emoción y prosodia como [excited], [whisper], y [laughing].

Este flujo de trabajo es ideal para creadores, equipos de producto y desarrolladores que desean síntesis de voz flexible y expresiva dentro de ComfyUI. Incluye opcionalmente texto-a-voz para captura rápida de transcripciones, detección automática de idioma y múltiples opciones de precisión, incluidas fp8 y sage_attention para una inferencia eficiente.

Nota: Ejecuta este flujo de trabajo en una máquina 2X Large o más grande. Las instancias más pequeñas pueden quedarse sin memoria (OOM).

Modelos clave en el flujo de trabajo Comfyui Fish Audio S2 TTS#

Fish Audio S2-Pro — el modelo de texto-a-voz generativo central utilizado para TTS de un solo locutor, clonación de voz y diálogo multi-locutor. Soporta extensos tokens de estilo y síntesis multilingüe model card y es parte del proyecto Fish-Speech repo.
Fish Audio S2-Pro FP8 — una variante de S2-Pro eficiente en memoria que reduce las necesidades de VRAM con una mínima pérdida de calidad, recomendada para GPUs limitadas model card.
OpenAI Whisper large-v3 — un modelo opcional de texto-a-voz utilizado para transcribir automáticamente tu audio de referencia al preparar los mensajes de clonación de voz repo.

Cómo usar el flujo de trabajo Comfyui Fish Audio S2 TTS#

Este flujo de trabajo contiene tres caminos principales que pueden ejecutarse de forma independiente: TTS, Clonación de Voz y Clonación Multi-Locutor. Un grupo opcional Whisper STT puede generar la transcripción para la clonación de voz. Cada camino termina con una vista previa de audio para que puedas monitorear los resultados rápidamente.

Grupo TTS#

El nodo FishS2TTS (#42) realiza texto-a-voz directo con Fish Audio S2 TTS. Introduce tu guion en el cuadro de texto del nodo y añade etiquetas de estilo como [excited], [pause], o [whisper] para dar forma a la emoción y el ritmo. La detección de idioma es automática, por lo que puedes escribir en el idioma objetivo y el modelo se adapta. Elige la variante S2-Pro que se ajuste a la memoria de tu GPU, por ejemplo, fp8 para cargas más ligeras. La salida se dirige a PreviewAudio para escuchar instantáneamente.

Grupo de Clonación de Voz#

Usa LoadAudio para proporcionar un clip de referencia corto y limpio de la voz objetivo, luego enrútalo a FishS2VoiceCloneTTS (#14). Proporciona la transcripción que coincide con el estilo de habla que deseas; el texto preciso ayuda al modelo a preservar el ritmo y el acento. Puedes usar el texto de referencia del grupo STT o escribir el tuyo propio, y puedes añadir etiquetas de estilo para afinar la emoción y la entrega. Las opciones de precisión y backend de atención equilibran la velocidad, la memoria y la estabilidad para líneas largas. El clon sintetizado se envía a PreviewAudio para que puedas iterar rápidamente.

Grupo de Clonación Multi-Locutor#

Carga un clip de referencia por locutor usando los nodos LoadAudio, luego conéctalos a FishS2MultiSpeakerTTS (#41). Proporciona un guion de diálogo que etiquete cada turno con [speaker_1], [speaker_2], y así sucesivamente. Esta plantilla incluye dos locutores por defecto, y el nodo admite la ampliación hasta ocho voces distintas cuando se configura adecuadamente. Puedes mezclar prosa narrativa, etiquetas y diálogo para controlar el flujo y la emoción de cada personaje. La mezcla final se previsualiza para verificar el tiempo y la claridad.

Whisper STT para clonación de voz (opcional)#

Load Whisper (mtb) (#6) con large-v3 potencia Audio To Text (mtb) (#7) para transcribir un clip de referencia automáticamente. El texto reconocido se muestra mediante ShowText|pysssss (#8). Un pequeño interruptor construido con ComfySwitchNode (#34) y un control booleano te permite elegir entre la salida STT (true) o tu propio texto escrito desde Text Box line spot (#31) (false). Esto es útil cuando quieres una transcripción base rápida o al crear un mensaje preciso para la clonación.

Nodos clave en el flujo de trabajo Comfyui Fish Audio S2 TTS#

`FishS2TTS` (#42)#

Genera discurso de un solo locutor a partir de texto con etiquetas de estilo opcionales y detección automática de idioma. Ajusta la variante del modelo para que coincida con tu hardware, por ejemplo, eligiendo fp8 cuando la VRAM es limitada. Usa el control de semillas para tomas repetibles e introduce pequeños cambios al explorar entregas alternativas. Para guiones largos, selecciona un backend de atención optimizado para la estabilidad.

`FishS2VoiceCloneTTS` (#14)#

Crea una voz clonada condicionando en reference_audio y reference_text. Se obtienen mejores resultados con un discurso limpio, con tono consistente y una transcripción que refleje la cadencia deseada. Las etiquetas de estilo pueden mezclarse en el texto final para guiar el estado de ánimo sin dañar la identidad. Las configuraciones de precisión y atención ayudan a equilibrar la calidad y la memoria para líneas extendidas.

`FishS2MultiSpeakerTTS` (#41)#

Sintetiza conversaciones multi-locutor emparejando el audio de referencia de cada locutor con un diálogo marcado por etiquetas [speaker_n]. Aumenta el número de locutores según sea necesario y asigna clips distintos para una separación más fuerte. Mantén el tono de referencia de cada locutor consistente para evitar mezclas. Usa la semilla para una mezcla determinista al renderizar escenas de múltiples tomas.

Extras opcionales#

Usa las etiquetas de estilo con cuidado. Comienza con algunas como [excited], [whisper], [emphasis], [pause], y aumenta solo según sea necesario para la claridad.
Para la clonación de voz, recorta el silencio del inicio y el final de la referencia y evita el ruido de fondo para preservar el timbre.
Si la memoria de la GPU es limitada, prefiere S2-Pro fp8 u opciones de cuantización en tiempo de ejecución. Para la máxima fidelidad, utiliza una mayor precisión.
La puntuación importa. Las comas y los puntos mejoran la fraseología, y las etiquetas colocadas en los límites de las cláusulas tienden a sonar más naturales.
Para guiones multi-locutor, mantén una expresión por línea y siempre prefija con la etiqueta correcta [speaker_n] para mantener la separación.

Recursos:

Tarjeta de modelo Fish Audio S2-Pro: Hugging Face
Variante S2-Pro fp8: Hugging Face
Proyecto Fish-Speech: GitHub
Nodos ComfyUI Fish Audio S2: GitHub
Whisper large-v3: GitHub

Agradecimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos sinceramente a Saganaki22 por los Nodos Personalizados de ComfyUI-FishAudioS2, y a Fish Audio por el Modelo S2-Pro por sus contribuciones y mantenimiento. Para obtener detalles autorizados, consulta la documentación y los repositorios originales enlazados a continuación.

Recursos#

Saganaki22/ComfyUI-FishAudioS2 Nodos Personalizados
- GitHub: Saganaki22/ComfyUI-FishAudioS2
Fish Audio/S2-Pro Modelo
- Hugging Face: fishaudio/s2-pro

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

MMAudio | Video a Audio

MMAudio: Modelo avanzado de video a audio para la generación de audio de alta calidad.

Ace Step 1.5 | Generador de Música AI de Calidad Comercial

Convierte texto en canciones completas con planificación inteligente y poder de difusión.

Stable Audio Open 1.0 | Herramienta de Texto a Música

Convierte indicaciones de texto en música cinematográfica de manera fluida y rápida.

Generación de Música ACE-Step | Creación de Audio AI

Genera música de calidad de estudio 15× más rápido con tecnología de difusión innovadora.

Era3D | ComfyUI 3D Pack

Genera contenido 3D, desde imágenes multivista hasta mallas detalladas.

Wan2.2 S2V | Generador de Sonido a Video

Convierte tu clip de audio en un video realista y sincronizado desde una imagen

ReActor | Intercambio Rápido de Rostros

Con ComfyUI ReActor, puedes intercambiar fácilmente los rostros de uno o más personajes en imágenes o videos.

Flujo de Trabajo de LTX-2.3 ICLoRA LipDub | Generador de Videos con Sincronización Labial

Convierte cualquier video en una obra maestra hablada con sincronización labial perfecta.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

Fish Audio S2 TTS | Generador de Voz Expresiva