logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>Flujos de trabajo>ComfyUI MOSS TTS | Generador de Voz y Habla AI

ComfyUI MOSS TTS | Generador de Voz y Habla AI

Workflow Name: RunComfy/ComfyUI-MOSS-TTS
Workflow ID: 0000...1401
Con este flujo de trabajo, puedes crear voces de sonido natural directamente desde texto usando la tecnología OpenMOSS. Te ayuda a diseñar voces únicas, generar diálogos entre múltiples hablantes y ajustar el tono emocional del habla. Perfecto para diseñadores de audio o animadores que buscan tuberías de voz versátiles. Soporta tanto modelos locales rápidos como modelos grandes extendidos para un rendimiento equilibrado. Personaliza el tono, el tono de voz y la entrega sin problemas dentro del flujo de trabajo de tu proyecto.

ComfyUI MOSS TTS: texto a voz, clonación de voz, SFX y diálogo en un solo flujo de trabajo

Este flujo de trabajo ComfyUI MOSS TTS convierte texto en discurso vívido de 24 kHz usando la familia OpenMOSS MOSS-TTS. Cubre síntesis rápida de un solo hablante, clonación de voz de cero disparos a partir de un clip de referencia corto, diseño de voz descriptivo, efectos de sonido procedimentales y diálogo de múltiples hablantes con referencias opcionales por hablante.

Construido sobre la pila de nodos oficial de MOSS-TTS y la familia de modelos, equilibra velocidad y calidad. La ruta Local 1.7B es el carril rápido práctico en una sola GPU, mientras que los modelos más grandes Delay 8B intercambian velocidad por mayor capacidad y expresividad. Si necesitas mensajes reutilizables, voces clonadas o diálogo dentro de ComfyUI, este flujo de trabajo ComfyUI MOSS TTS está diseñado para ti.

Modelos clave en el flujo de trabajo ComfyUI MOSS TTS

  • OpenMOSS MOSS-TTS Local 1.7B. Transformador de texto a voz amigable con una sola GPU que ofrece discurso rápido y natural de 24 kHz para trabajos de producción diaria. Tarjeta del modelo: MOSS-TTS-Local-Transformer.
  • OpenMOSS MOSS-TTS Delay 8B. Una línea de modelos más grande que enfatiza la calidad, la similitud de hablantes, y la prosodia a costa de la velocidad y la memoria. Tarjeta del modelo: MOSS-TTS.
  • MOSS Audio Tokenizer. El codec aprendido que conecta formas de onda y tokens discretos para los modelos MOSS-TTS, permitiendo decodificación de alta fidelidad. Tarjeta del modelo: MOSS-Audio-Tokenizer.

Para detalles de implementación y actualizaciones, consulta los repositorios oficiales: OpenMOSS/MOSS-TTS y la pila de nodos que potencia este flujo de trabajo richservo/comfyui-moss-tts.

Cómo usar el flujo de trabajo ComfyUI MOSS TTS

Este gráfico está organizado en cinco grupos independientes. Elige el grupo que coincida con tu objetivo, ejecútalo, luego previsualiza el audio directamente en el lienzo. Puedes ejecutar múltiples grupos en paralelo para probar diferentes enfoques.

TTS Básico

El grupo TTS Básico convierte texto simple en discurso con la ruta rápida Local 1.7B. Carga el modelo en MossTTSModelLoader (#1), alimenta tu texto a MossTTSGenerate (#2), luego escucha en PreviewAudio (#3). El generador se condiciona con tu mensaje para dar forma a la pronunciación y prosodia, así que escribe naturalmente con puntuación para el ritmo. Mantén la semilla fija cuando quieras tomas repetibles, o aleatorízala al explorar variantes de entrega.

Clonación de Voz

El grupo Clonación de Voz realiza clonación de voz de cero disparos a partir de un clip de audio de referencia corto. Importa una muestra de voz limpia usando LoadAudio (#4), conéctala a MossTTSGenerate (#6) impulsado por MossTTSModelLoader (#5), y proporciona el texto objetivo. El modelo extrae el timbre y estilo del hablante de la referencia y representa tu nuevo guion en esa voz. Usa contenido neutral y ruido de fondo mínimo en la referencia para mejorar la similitud, y mantén las duraciones moderadas para una respuesta más rápida.

Diseño de Voz

El Diseño de Voz crea una nueva voz a partir de una descripción en lenguaje natural en lugar de un clip de ejemplo. MossTTSVoiceDesign (#9) utiliza una descripción de texto como "Una voz masculina cálida y profunda con un ligero acento británico," combinada con tu guion, para sintetizar discurso de 24 kHz. El nodo está potenciado por una ruta generadora de voz dedicada cargada a través de MossTTSModelLoader (#8). Esto es ideal cuando deseas una personalidad consistente y reproducible sin necesidad de grabaciones reales. Refina los descriptores con rasgos como edad, timbre, acento y energía para dirigir el sonido.

Efectos de Sonido

Efectos de Sonido genera audio no verbal a partir de mensajes de texto, útil para pistas de fondo, transiciones o capas ambientales. Con MossTTSSoundEffect (#12) y su tubería de modelo de MossTTSModelLoader (#11), mensajes como "Lluvia fuerte sobre un techo de hojalata con truenos distantes" producen texturas ricas y repetibles. Usa sustantivos y acciones concisas para definir la escena, luego añade algunos adjetivos para precisar la intensidad o distancia. Previsualiza en PreviewAudio (#13) y itera rápidamente para ajustar a tu mezcla.

Diálogo de Múltiples Hablantes

El grupo Diálogo de Múltiples Hablantes representa conversaciones guionizadas con clips de referencia opcionales por hablante. Escribe tu guion usando etiquetas de hablantes entre corchetes, por ejemplo, [S1] Hola. y [S2] ¡Hola!, luego pásalo a MossTTSDialogue (#15) bajo la tubería de modelo de MossTTSModelLoader (#14). Puedes adjuntar entradas de audio de referencia para S1 y S2 para clonar voces específicas para cada papel, o dejarlas vacías para que el modelo elija hablantes distintos solo a partir del contexto del texto. Este camino es adecuado para llamadas y respuestas, narración con líneas de personajes, o maquetas de interfaces de voz.

Nodos clave en el flujo de trabajo ComfyUI MOSS TTS

MossTTSModelLoader (#1)

Carga la familia de modelos OpenMOSS seleccionada y ensambla la tubería interna de TTS. Elige la variante Local 1.7B para iteraciones rápidas en una sola GPU, o cambia a un modelo más grande Delay 8B cuando priorices la expresividad y la similitud. Mantén un cargador por familia de tareas para que cada rama descendente se mantenga autónoma.

MossTTSGenerate (#2)

El principal sintetizador de un solo hablante que consume tu mensaje de texto y audio de referencia opcional para producir discurso de 24 kHz. Proporciona texto limpio y bien puntuado para un ritmo más claro, y conecta un clip de voz corto cuando necesites clonación de cero disparos. Alterna la semilla entre fija y aleatoria para equilibrar la reproducibilidad y la exploración.

MossTTSVoiceDesign (#9)

Genera una voz novedosa a partir de un mensaje descriptivo junto con el texto a hablar. Enfoca la descripción en timbre, edad, acento y energía para dirigir la identidad mientras la mantienes concisa. Esta es una opción fuerte cuando la concesión de licencias o la obtención de una voz real no es práctica.

MossTTSSoundEffect (#12)

Sintetiza audio no verbal a partir de una breve descripción textual. Escribe mensajes compactos que anclen la fuente, la acción y el espacio, luego itera para coincidir con la escena. Ideal para ambientes y disparos únicos dentro del mismo gráfico ComfyUI MOSS TTS que usas para diálogo.

MossTTSDialogue (#15)

Analiza etiquetas de hablante entre corchetes y representa conversaciones de múltiples turnos como una única salida de audio. Usa [S1], [S2], y así sucesivamente para marcar cada línea, y opcionalmente conecta clips de referencia por hablante para preservar la identidad a través de los turnos. Mantén las líneas concisas para los traspasos más confiables entre hablantes.

Extras opcionales

  • Comienza con el modelo Local 1.7B para borradores rápidos, luego cambia a un punto de control Delay 8B cuando necesites mayor similitud o prosodia más rica.
  • Para clonación de cero disparos, usa un clip de voz limpio de 5–15 s con mínima reverberación y ruido para mejorar la transferencia de timbre.
  • En diálogo, mantén las etiquetas de hablante consistentes y libres de puntuación como [S1] para evitar errores de análisis.
  • Crea mensajes de diseño de voz con 3–6 rasgos como timbre, edad, acento, estilo y energía para resultados predecibles.
  • Usa puntuación y saltos de línea en tu texto para controlar pausas y ritmo en las salidas de ComfyUI MOSS TTS.
  • Añade un nodo SaveAudio después de cualquier vista previa si deseas exportación automática de archivos para renders por lotes.

Referencias: OpenMOSS/MOSS-TTS • MOSS-TTS-Local-Transformer • MOSS-TTS • MOSS-Audio-Tokenizer • comfyui-moss-tts

Reconocimientos

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos sinceramente a richservo por los nodos personalizados ComfyUI MOSS-TTS, a OpenMOSS por el repositorio MOSS-TTS y al equipo OpenMOSS-Team por los modelos MOSS-TTS (Delay 8B y Local 1.7B) y el MOSS Audio Tokenizer por sus contribuciones y mantenimiento. Para detalles autoritativos, por favor consulta la documentación original y los repositorios enlazados a continuación.

Recursos

  • richservo/comfyui-moss-tts
    • GitHub: richservo/comfyui-moss-tts
  • OpenMOSS/MOSS-TTS
    • GitHub: OpenMOSS/MOSS-TTS
    • Hugging Face: OpenMOSS-Team/MOSS-TTS
    • arXiv: 2603.18090
  • OpenMOSS-Team/MOSS-TTS (Delay 8B)
    • GitHub: OpenMOSS/MOSS-TTS
    • Hugging Face: OpenMOSS-Team/MOSS-TTS
    • arXiv: 2603.18090
  • OpenMOSS-Team/MOSS-TTS-Local-Transformer (Local 1.7B)
    • GitHub: OpenMOSS/MOSS-TTS
    • Hugging Face: OpenMOSS-Team/MOSS-TTS-Local-Transformer
    • arXiv: 2603.18090
  • OpenMOSS-Team/MOSS-Audio-Tokenizer
    • Hugging Face: OpenMOSS-Team/MOSS-Audio-Tokenizer
    • arXiv: 2602.10934

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Fish Audio S2 TTS | Generador de Voz Expresiva

Crea discursos realistas con emociones, estilos y voces clonadas rápidamente.

MMAudio | Video a Audio

MMAudio: Modelo avanzado de video a audio para la generación de audio de alta calidad.

Generación de Música ACE-Step | Creación de Audio AI

Genera música de calidad de estudio 15× más rápido con tecnología de difusión innovadora.

ACE-Step 1.5XL Base texto a música | Generador de Sonido AI

Convierte tu texto en música pura creada por IA al instante.

ACE-Step 1.5XL Turbo comfyui workflow | Generador de Texto a Música

Convierte tu texto en música increíble de manera rápida y clara.

SkyReels V1 | Creación de Video Centrado en Humanos

Genera videos humanos cinematográficos con expresiones faciales genuinas y movimientos naturales a partir de texto o imágenes.

Z Image ControlNet | Generador de Imágenes de Precisión

Control total sobre las poses de las imágenes, bordes y disposiciones de profundidad.

Hunyuan Image to Video | Creador de Movimiento Impresionante

Crea películas magníficas a partir de imágenes fijas mediante movimiento cinematográfico y efectos personalizables.

Síguenos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Soporte
  • Discord
  • Correo electrónico
  • Estado del sistema
  • afiliado
Recursos
  • ComfyUI en línea gratis
  • Guías de ComfyUI
  • RunComfy API
  • RunComfy MCP
  • Tutoriales de ComfyUI
  • Nodos de ComfyUI
  • Aprende más
Legal
  • Términos de servicio
  • Política de privacidad
  • Política de cookies
RunComfy
Derechos de autor 2026 RunComfy. Todos los derechos reservados.

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.