logo
RunComfy
  • Models
  • ComfyUI
  • TrainerNew
  • API
  • Pricing
discord logo
ComfyUI>Flujos de trabajo>ComfyUI F5 TTS | Motor de Clonación de Voz Natural

ComfyUI F5 TTS | Motor de Clonación de Voz Natural

Workflow Name: RunComfy/ComfyUI-F5-TTS
Workflow ID: 0000...1335
Este flujo de trabajo te ayuda a convertir texto en discurso expresivo utilizando síntesis de voz avanzada. Te permite clonar voces a partir de muestras de audio cortas y controlar el timbre, tono y ritmo para obtener resultados naturales. Puedes generar narraciones, locuciones o líneas de personajes directamente en ComfyUI. La interfaz es flexible y reproducible, lo que la hace ideal para creadores y diseñadores que buscan un control preciso de la voz. Intégralo en pipelines de nodos más grandes para generación de audio completamente personalizada y prototipado con control local completo.

ComfyUI F5 TTS: texto a voz y clonación de voz en un solo flujo de trabajo

Este flujo de trabajo de ComfyUI F5 TTS te permite generar discurso natural a partir de texto y clonar voces directamente dentro de ComfyUI. Está impulsado por los nodos personalizados ComfyUI-F5-TTS e incluye un camino completo para clonación basada en referencia: proporciona un WAV corto más una transcripción correspondiente para condicionar el modelo, luego sintetiza nuevas líneas que siguen el timbre y estilo del hablante de referencia. El gráfico también incluye pruebas listas para ejecutar de múltiples variantes de modelos, idiomas y vocoders, para que puedas comparar salidas rápidamente y decidir qué es lo mejor para narraciones, locuciones, diálogo de personajes o demostraciones de productos.

Todo está organizado en grupos claros para que puedas usar ComfyUI F5 TTS de dos maneras: TTS rápido con un solo clic en inglés, francés, alemán y japonés, o clonación de voz a través de un grabador incorporado o archivos emparejados. Se incluye un camino de transcripción compacto Whisper para ayudarte a obtener una transcripción de muestra precisa cuando ya tienes una grabación limpia.

Modelos clave en el flujo de trabajo ComfyUI F5 TTS

  • Fish Audio F5-TTS. TTS de cero disparos que aprende las características de un hablante a partir de una referencia corta y produce discurso de alta calidad en múltiples idiomas. Consulta el proyecto para detalles del modelo y antecedentes de entrenamiento. GitHub
  • OpenAI Whisper. Reconocimiento de voz utilizado aquí para transcribir automáticamente tu clip de referencia para que el texto de muestra coincida exactamente, lo que mejora la calidad de la clonación. GitHub
  • BigVGAN. Un vocoder neural de alta fidelidad disponible como opción de decodificación para una salida más nítida y clara. GitHub
  • Vocos. Una alternativa de vocoder neural rápida y liviana enfocada en velocidad y baja latencia. GitHub
  • Nodos personalizados ComfyUI-F5-TTS. La integración de ComfyUI que conecta F5-TTS y backends compatibles en nodos utilizados a lo largo de este gráfico. GitHub

Cómo usar el flujo de trabajo ComfyUI F5 TTS

A un alto nivel, el flujo de trabajo ofrece grupos independientes para comparaciones rápidas de modelos y un carril de clonación dedicado. Comienza audicionando los grupos preconfigurados para confirmar la voz y el vocoder que prefieres, luego pasa a la clonación con tu propia muestra. Cada subsección a continuación explica qué hace el grupo y los pocos insumos que importan.

Prueba de Audio Desde Entradas

Este carril demuestra transcripción de referencia más condicionamiento. LoadAudio (#4) trae un WAV, Apply Whisper (#13) lo transcribe, y F5TTSAudioInputs (#26) utiliza tanto el audio de muestra como el texto de Whisper para condicionar la voz antes de la vista previa. Proporciona una muestra hablada limpia y deja que Whisper llene el puerto de transcripción para que el par coincida exactamente. Si deseas suministrar archivos directamente, coloca un .wav y .txt emparejados con el mismo nombre de archivo en ComfyUI/input, luego reinicia ComfyUI para que el gráfico pueda verlos.

Prueba de múltiples voces

Este grupo muestra el cambio de estilo dentro de una línea usando un solo nodo de síntesis. F5TTSAudio (#17) lee un guion con segmentos etiquetados, para que puedas audicionar múltiples estilos de personajes o cambios de énfasis en una sola pasada. Es una forma rápida de escuchar cómo maneja ComfyUI F5 TTS los timbres contrastantes o el ritmo de narrador versus personaje.

Audio EN

Usa F5TTSAudio (#15) para TTS en inglés sencillo. Ingresa tu guion y haz una vista previa para evaluar la pronunciación y el ritmo básicos con el preset F5 predeterminado. Este carril es ideal para iteración rápida antes de comprometerte con la clonación o mezcla de múltiples voces.

F5v1

Este camino ejecuta el nodo F5TTSAudio (#33) contra la variante F5 v1 para que puedas comparar el tono y la prosodia con el preset F5 principal. Usa el mismo texto que el carril EN para facilitar juzgar las diferencias. Es útil al elegir un modelo predeterminado para un proyecto más largo.

Audio FR

Este carril apunta a la síntesis en francés con F5TTSAudio (#27) configurado para un preset francés. Proporciona un guion en francés y haz una vista previa de la salida para verificar el manejo de las vocales nasales y la liaison. Cambia de ida y vuelta con el carril EN para comparar claridad y velocidad.

Audio DE bigvgan

Aquí F5TTSAudio (#30) usa un preset alemán y el vocoder BigVGAN para una decodificación más brillante y nítida. Usa este carril cuando quieras más presencia o un brillo de estudio. Si prefieres una representación más suave, compara contra un carril Vocos.

Audio JP

Este camino usa F5TTSAudio (#25) con un preset japonés. Pega un guion en japonés para evaluar el acento de tono y el tiempo de mora. Es un buen punto de partida para lecturas estilo anime o líneas de productos destinadas a audiencias japonesas.

Prueba E2

Este grupo ejercita F5TTSAudio (#29) con un preset compatible con E2 y el vocoder Vocos para audicionar un backend alternativo. Úsalo para comparar latencia y características de timbre con tus ejecuciones F5.

Clona Tu Propia Voz

Graba, empareja y clona directamente en ComfyUI. Presiona el micrófono en VrchAudioRecorderNode (#43) y lee el mensaje mostrado en la caja “Sample Text to Record” Textbox (#42). El grabador dirige tu WAV a F5TTSAudioInputs (#44) junto con el texto exacto que hablaste, lo que condiciona el modelo en tu timbre y estilo antes de la vista previa en PreviewAudio (#45). Para obtener los mejores resultados, habla en una habitación silenciosa y asegúrate de que el texto de referencia coincida con lo que dijiste literalmente; luego escribe cualquier nueva línea que quieras que la voz clonada diga y ejecuta el gráfico.

Nodos clave en el flujo de trabajo ComfyUI F5 TTS

F5TTSAudio (#15)

El nodo TTS de un solo paso utilizado en los grupos EN, FR, DE, JP, F5v1 y E2. Proporciona tu guion y elige el preset de modelo y vocoder que se adapten a tu idioma y entrega. Si quieres tomas reproducibles, mantén la semilla fija; si quieres variedad, aleatoriza entre ejecuciones. La implementación es proporcionada por la extensión ComfyUI-F5-TTS. GitHub GitHub - FishAudio/F5-TTS

F5TTSAudioInputs (#44)

El punto de entrada de clonación que consume un WAV de referencia y su transcripción correspondiente para construir una representación del hablante, luego sintetiza nuevas líneas en esa voz. Usa una muestra limpia con volumen constante y asegúrate de que la transcripción sea exacta para maximizar la similitud y reducir artefactos. Cambia presets de modelo o vocoders aquí si necesitas una decodificación más brillante o más neutral. GitHub - FishAudio/F5-TTS

Apply Whisper (#13)

Transcripción automática para tu muestra de referencia. Elige un tamaño de Whisper que equilibre velocidad y precisión para tu hardware e idioma, luego alimenta su texto de salida al nodo de clonación para que el audio y el texto estén perfectamente alineados. Esto previene errores de condicionamiento que pueden ocurrir cuando el texto de muestra difiere de lo que realmente se habló. GitHub

VrchAudioRecorderNode (#43)

Un grabador en el gráfico que captura un mensaje hablado corto para clonación, eliminando la necesidad de herramientas externas. Mantén presionado para grabar, suelta para detener y escucha inmediatamente cómo suena ComfyUI F5 TTS en tu propia voz. Mantén el micrófono cerca y reduce el ruido de la habitación para obtener el resultado más limpio.

Extras opcionales

  • Usa de 5 a 15 segundos de discurso limpio para la referencia, sin música ni efectos.
  • Asegúrate de que la transcripción de la muestra coincida exactamente con la grabación; incluso pequeñas discrepancias pueden reducir la fidelidad de la clonación.
  • Compara Vocos y BigVGAN en la misma línea para decidir entre velocidad y detalle.
  • Mantén una semilla fija cuando necesites retomas consistentes; aleatoriza al explorar estilo.
  • Para proyectos multilingües, audiciona primero los carriles EN, FR, DE y JP, luego finaliza la clonación una vez que estés satisfecho con la pronunciación y el ritmo.

Agradecimientos

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos sinceramente a niknah por el nodo ComfyUI-F5-TTS, a niknah por el ejemplo de flujo de trabajo F5TTS-test-all.json, y a la comunidad de r/StableDiffusion por la guía “Voice Cloning with F5-TTS in ComfyUI” por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y los repositorios enlazados a continuación.

Recursos

  • niknah/ComfyUI-F5-TTS
    • GitHub: niknah/ComfyUI-F5-TTS
  • niknah/ComfyUI-F5-TTS (Flujo de Trabajo de Ejemplo: F5TTS-test-all.json)
    • GitHub: example_workflows/F5TTS-test-all.json
  • Guía de la Comunidad r/StableDiffusion (Clonación de Voz con F5-TTS en ComfyUI)
    • GitHub: example_web_viewer_005_audio_web_viewer_f5_tts.json
    • Documentos / Notas de Lanzamiento: ¡Clona Tu Propia Voz Sin Esfuerzo usando ComfyUI y Casi en Tiempo Real! (Tutorial Paso a Paso e Incluye Flujo de Trabajo)

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

MMAudio | Video a Audio

MMAudio: Modelo avanzado de video a audio para la generación de audio de alta calidad.

Generación de Música ACE-Step | Creación de Audio AI

Genera música de calidad de estudio 15× más rápido con tecnología de difusión innovadora.

EchoMimic | Animaciones de Retratos Impulsadas por Audio

Genera cabezas parlantes y gestos corporales realistas sincronizados con el audio proporcionado.

Hunyuan3D 2.1 | Imagen a Modelo 3D

Gran salto desde la 2.0: Convierte fotos en increíbles modelos 3D al instante.

Hunyuan Video | Video a Video

Combina un aviso de texto y un video fuente para generar un nuevo video.

Hunyuan LoRA

Usa las LoRAs de Hunyuan descargadas para controlar el estilo y la consistencia de personajes en la generación de video.

Flux TTP Upscale | Restauración de Caras 4K

Repara caras distorsionadas y mejora la resolución de imágenes a 4K.

LatentSync| Modelo de Sincronización de Labios

Tecnología avanzada de sincronización de labios impulsada por audio.

Síguenos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Soporte
  • Discord
  • Correo electrónico
  • Estado del sistema
  • afiliado
Recursos
  • ComfyUI en línea gratis
  • Guías de ComfyUI
  • RunComfy API
  • Tutoriales de ComfyUI
  • Nodos de ComfyUI
  • Aprende más
Legal
  • Términos de servicio
  • Política de privacidad
  • Política de cookies
RunComfy
Derechos de autor 2026 RunComfy. Todos los derechos reservados.

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.