logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>Flujos de trabajo>Fish Audio S2 TTS | Generador de Voz Expresiva

Fish Audio S2 TTS | Generador de Voz Expresiva

Workflow Name: RunComfy/Fish-Audio-S2-TTS
Workflow ID: 0000...1374
Con este flujo de trabajo, puedes transformar texto en una salida de voz expresiva y natural utilizando síntesis de voz potente. Soporta diálogos multi-locutor, etiquetado de emoción y estilo, y clonación de voz precisa a partir de clips de muestra. Elige etiquetas de emoción personalizables como susurros o risas para dar vida a los guiones. La configuración permite un control de tono flexible y una inferencia rápida para proyectos de voz diversos. Perfecto para creadores que buscan narraciones o generación de diálogos realistas y emocionalmente ricos a través de la modelización TTS avanzada.

Fish Audio S2 TTS para ComfyUI: TTS de alta calidad, clonación de voz y diálogo multi-locutor

Fish Audio S2 TTS es un flujo de trabajo listo para ejecutar en ComfyUI que convierte texto en discurso natural, clona una voz a partir de un clip de referencia corto y genera conversaciones multi-locutor. Está impulsado por la familia Fish Audio S2-Pro y admite un control de estilo rico a través de etiquetas de emoción y prosodia como [excited], [whisper], y [laughing].

Este flujo de trabajo es ideal para creadores, equipos de producto y desarrolladores que desean síntesis de voz flexible y expresiva dentro de ComfyUI. Incluye opcionalmente texto-a-voz para captura rápida de transcripciones, detección automática de idioma y múltiples opciones de precisión, incluidas fp8 y sage_attention para una inferencia eficiente.

Nota: Ejecuta este flujo de trabajo en una máquina 2X Large o más grande. Las instancias más pequeñas pueden quedarse sin memoria (OOM).

Modelos clave en el flujo de trabajo Comfyui Fish Audio S2 TTS

  • Fish Audio S2-Pro — el modelo de texto-a-voz generativo central utilizado para TTS de un solo locutor, clonación de voz y diálogo multi-locutor. Soporta extensos tokens de estilo y síntesis multilingüe model card y es parte del proyecto Fish-Speech repo.
  • Fish Audio S2-Pro FP8 — una variante de S2-Pro eficiente en memoria que reduce las necesidades de VRAM con una mínima pérdida de calidad, recomendada para GPUs limitadas model card.
  • OpenAI Whisper large-v3 — un modelo opcional de texto-a-voz utilizado para transcribir automáticamente tu audio de referencia al preparar los mensajes de clonación de voz repo.

Cómo usar el flujo de trabajo Comfyui Fish Audio S2 TTS

Este flujo de trabajo contiene tres caminos principales que pueden ejecutarse de forma independiente: TTS, Clonación de Voz y Clonación Multi-Locutor. Un grupo opcional Whisper STT puede generar la transcripción para la clonación de voz. Cada camino termina con una vista previa de audio para que puedas monitorear los resultados rápidamente.

Grupo TTS

El nodo FishS2TTS (#42) realiza texto-a-voz directo con Fish Audio S2 TTS. Introduce tu guion en el cuadro de texto del nodo y añade etiquetas de estilo como [excited], [pause], o [whisper] para dar forma a la emoción y el ritmo. La detección de idioma es automática, por lo que puedes escribir en el idioma objetivo y el modelo se adapta. Elige la variante S2-Pro que se ajuste a la memoria de tu GPU, por ejemplo, fp8 para cargas más ligeras. La salida se dirige a PreviewAudio para escuchar instantáneamente.

Grupo de Clonación de Voz

Usa LoadAudio para proporcionar un clip de referencia corto y limpio de la voz objetivo, luego enrútalo a FishS2VoiceCloneTTS (#14). Proporciona la transcripción que coincide con el estilo de habla que deseas; el texto preciso ayuda al modelo a preservar el ritmo y el acento. Puedes usar el texto de referencia del grupo STT o escribir el tuyo propio, y puedes añadir etiquetas de estilo para afinar la emoción y la entrega. Las opciones de precisión y backend de atención equilibran la velocidad, la memoria y la estabilidad para líneas largas. El clon sintetizado se envía a PreviewAudio para que puedas iterar rápidamente.

Grupo de Clonación Multi-Locutor

Carga un clip de referencia por locutor usando los nodos LoadAudio, luego conéctalos a FishS2MultiSpeakerTTS (#41). Proporciona un guion de diálogo que etiquete cada turno con [speaker_1], [speaker_2], y así sucesivamente. Esta plantilla incluye dos locutores por defecto, y el nodo admite la ampliación hasta ocho voces distintas cuando se configura adecuadamente. Puedes mezclar prosa narrativa, etiquetas y diálogo para controlar el flujo y la emoción de cada personaje. La mezcla final se previsualiza para verificar el tiempo y la claridad.

Whisper STT para clonación de voz (opcional)

Load Whisper (mtb) (#6) con large-v3 potencia Audio To Text (mtb) (#7) para transcribir un clip de referencia automáticamente. El texto reconocido se muestra mediante ShowText|pysssss (#8). Un pequeño interruptor construido con ComfySwitchNode (#34) y un control booleano te permite elegir entre la salida STT (true) o tu propio texto escrito desde Text Box line spot (#31) (false). Esto es útil cuando quieres una transcripción base rápida o al crear un mensaje preciso para la clonación.

Nodos clave en el flujo de trabajo Comfyui Fish Audio S2 TTS

FishS2TTS (#42)

Genera discurso de un solo locutor a partir de texto con etiquetas de estilo opcionales y detección automática de idioma. Ajusta la variante del modelo para que coincida con tu hardware, por ejemplo, eligiendo fp8 cuando la VRAM es limitada. Usa el control de semillas para tomas repetibles e introduce pequeños cambios al explorar entregas alternativas. Para guiones largos, selecciona un backend de atención optimizado para la estabilidad.

FishS2VoiceCloneTTS (#14)

Crea una voz clonada condicionando en reference_audio y reference_text. Se obtienen mejores resultados con un discurso limpio, con tono consistente y una transcripción que refleje la cadencia deseada. Las etiquetas de estilo pueden mezclarse en el texto final para guiar el estado de ánimo sin dañar la identidad. Las configuraciones de precisión y atención ayudan a equilibrar la calidad y la memoria para líneas extendidas.

FishS2MultiSpeakerTTS (#41)

Sintetiza conversaciones multi-locutor emparejando el audio de referencia de cada locutor con un diálogo marcado por etiquetas [speaker_n]. Aumenta el número de locutores según sea necesario y asigna clips distintos para una separación más fuerte. Mantén el tono de referencia de cada locutor consistente para evitar mezclas. Usa la semilla para una mezcla determinista al renderizar escenas de múltiples tomas.

Extras opcionales

  • Usa las etiquetas de estilo con cuidado. Comienza con algunas como [excited], [whisper], [emphasis], [pause], y aumenta solo según sea necesario para la claridad.
  • Para la clonación de voz, recorta el silencio del inicio y el final de la referencia y evita el ruido de fondo para preservar el timbre.
  • Si la memoria de la GPU es limitada, prefiere S2-Pro fp8 u opciones de cuantización en tiempo de ejecución. Para la máxima fidelidad, utiliza una mayor precisión.
  • La puntuación importa. Las comas y los puntos mejoran la fraseología, y las etiquetas colocadas en los límites de las cláusulas tienden a sonar más naturales.
  • Para guiones multi-locutor, mantén una expresión por línea y siempre prefija con la etiqueta correcta [speaker_n] para mantener la separación.

Recursos:

  • Tarjeta de modelo Fish Audio S2-Pro: Hugging Face
  • Variante S2-Pro fp8: Hugging Face
  • Proyecto Fish-Speech: GitHub
  • Nodos ComfyUI Fish Audio S2: GitHub
  • Whisper large-v3: GitHub

Agradecimientos

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos sinceramente a Saganaki22 por los Nodos Personalizados de ComfyUI-FishAudioS2, y a Fish Audio por el Modelo S2-Pro por sus contribuciones y mantenimiento. Para obtener detalles autorizados, consulta la documentación y los repositorios originales enlazados a continuación.

Recursos

  • Saganaki22/ComfyUI-FishAudioS2 Nodos Personalizados
    • GitHub: Saganaki22/ComfyUI-FishAudioS2
  • Fish Audio/S2-Pro Modelo
    • Hugging Face: fishaudio/s2-pro

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

MMAudio | Video a Audio

MMAudio: Modelo avanzado de video a audio para la generación de audio de alta calidad.

Ace Step 1.5 | Generador de Música AI de Calidad Comercial

Convierte texto en canciones completas con planificación inteligente y poder de difusión.

Stable Audio Open 1.0 | Herramienta de Texto a Música

Convierte indicaciones de texto en música cinematográfica de manera fluida y rápida.

Generación de Música ACE-Step | Creación de Audio AI

Genera música de calidad de estudio 15× más rápido con tecnología de difusión innovadora.

SVD + IPAdapter V1 | Imagen a video

Utilice IPAdapters para la generación de imágenes estáticas y Stable Video Diffusion para la generación dinámica de video.

Flux & 10 Modelos In-Context LoRA

Flux & 10 Modelos In-Context LoRA

Descubre Flux y 10 versátiles modelos In-Context LoRA para generación de imágenes.

AnimateLCM | Acelera de texto a video

Acelera tu animación de texto a video usando el flujo de trabajo ComfyUI AnimateLCM.

Face to Many | 3D, Emoji, Pixel, Clay, Toy, Video game

utiliza modelos LoRA, ControlNet e InstantID para transformaciones avanzadas de rostro a muchos

Síguenos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Soporte
  • Discord
  • Correo electrónico
  • Estado del sistema
  • afiliado
Recursos
  • ComfyUI en línea gratis
  • Guías de ComfyUI
  • RunComfy API
  • Tutoriales de ComfyUI
  • Nodos de ComfyUI
  • Aprende más
Legal
  • Términos de servicio
  • Política de privacidad
  • Política de cookies
RunComfy
Derechos de autor 2026 RunComfy. Todos los derechos reservados.

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.