ComfyUI MOSS TTS Workflow

¿Quiere ejecutar este flujo de trabajo?

Flujos de trabajo completamente operativos
Sin nodos ni modelos faltantes
No se requiere configuración manual
Presenta visuales impresionantes

ComfyUI MOSS TTS Examples

ComfyUI MOSS TTS: texto a voz, clonación de voz, SFX y diálogo en un solo flujo de trabajo#

Este flujo de trabajo ComfyUI MOSS TTS convierte texto en discurso vívido de 24 kHz usando la familia OpenMOSS MOSS-TTS. Cubre síntesis rápida de un solo hablante, clonación de voz de cero disparos a partir de un clip de referencia corto, diseño de voz descriptivo, efectos de sonido procedimentales y diálogo de múltiples hablantes con referencias opcionales por hablante.

Construido sobre la pila de nodos oficial de MOSS-TTS y la familia de modelos, equilibra velocidad y calidad. La ruta Local 1.7B es el carril rápido práctico en una sola GPU, mientras que los modelos más grandes Delay 8B intercambian velocidad por mayor capacidad y expresividad. Si necesitas mensajes reutilizables, voces clonadas o diálogo dentro de ComfyUI, este flujo de trabajo ComfyUI MOSS TTS está diseñado para ti.

Modelos clave en el flujo de trabajo ComfyUI MOSS TTS#

OpenMOSS MOSS-TTS Local 1.7B. Transformador de texto a voz amigable con una sola GPU que ofrece discurso rápido y natural de 24 kHz para trabajos de producción diaria. Tarjeta del modelo: MOSS-TTS-Local-Transformer.
OpenMOSS MOSS-TTS Delay 8B. Una línea de modelos más grande que enfatiza la calidad, la similitud de hablantes, y la prosodia a costa de la velocidad y la memoria. Tarjeta del modelo: MOSS-TTS.
MOSS Audio Tokenizer. El codec aprendido que conecta formas de onda y tokens discretos para los modelos MOSS-TTS, permitiendo decodificación de alta fidelidad. Tarjeta del modelo: MOSS-Audio-Tokenizer.

Para detalles de implementación y actualizaciones, consulta los repositorios oficiales: OpenMOSS/MOSS-TTS y la pila de nodos que potencia este flujo de trabajo richservo/comfyui-moss-tts.

Cómo usar el flujo de trabajo ComfyUI MOSS TTS#

Este gráfico está organizado en cinco grupos independientes. Elige el grupo que coincida con tu objetivo, ejecútalo, luego previsualiza el audio directamente en el lienzo. Puedes ejecutar múltiples grupos en paralelo para probar diferentes enfoques.

TTS Básico#

El grupo TTS Básico convierte texto simple en discurso con la ruta rápida Local 1.7B. Carga el modelo en MossTTSModelLoader (#1), alimenta tu texto a MossTTSGenerate (#2), luego escucha en PreviewAudio (#3). El generador se condiciona con tu mensaje para dar forma a la pronunciación y prosodia, así que escribe naturalmente con puntuación para el ritmo. Mantén la semilla fija cuando quieras tomas repetibles, o aleatorízala al explorar variantes de entrega.

Clonación de Voz#

El grupo Clonación de Voz realiza clonación de voz de cero disparos a partir de un clip de audio de referencia corto. Importa una muestra de voz limpia usando LoadAudio (#4), conéctala a MossTTSGenerate (#6) impulsado por MossTTSModelLoader (#5), y proporciona el texto objetivo. El modelo extrae el timbre y estilo del hablante de la referencia y representa tu nuevo guion en esa voz. Usa contenido neutral y ruido de fondo mínimo en la referencia para mejorar la similitud, y mantén las duraciones moderadas para una respuesta más rápida.

Diseño de Voz#

El Diseño de Voz crea una nueva voz a partir de una descripción en lenguaje natural en lugar de un clip de ejemplo. MossTTSVoiceDesign (#9) utiliza una descripción de texto como "Una voz masculina cálida y profunda con un ligero acento británico," combinada con tu guion, para sintetizar discurso de 24 kHz. El nodo está potenciado por una ruta generadora de voz dedicada cargada a través de MossTTSModelLoader (#8). Esto es ideal cuando deseas una personalidad consistente y reproducible sin necesidad de grabaciones reales. Refina los descriptores con rasgos como edad, timbre, acento y energía para dirigir el sonido.

Efectos de Sonido#

Efectos de Sonido genera audio no verbal a partir de mensajes de texto, útil para pistas de fondo, transiciones o capas ambientales. Con MossTTSSoundEffect (#12) y su tubería de modelo de MossTTSModelLoader (#11), mensajes como "Lluvia fuerte sobre un techo de hojalata con truenos distantes" producen texturas ricas y repetibles. Usa sustantivos y acciones concisas para definir la escena, luego añade algunos adjetivos para precisar la intensidad o distancia. Previsualiza en PreviewAudio (#13) y itera rápidamente para ajustar a tu mezcla.

Diálogo de Múltiples Hablantes#

El grupo Diálogo de Múltiples Hablantes representa conversaciones guionizadas con clips de referencia opcionales por hablante. Escribe tu guion usando etiquetas de hablantes entre corchetes, por ejemplo, [S1] Hola. y [S2] ¡Hola!, luego pásalo a MossTTSDialogue (#15) bajo la tubería de modelo de MossTTSModelLoader (#14). Puedes adjuntar entradas de audio de referencia para S1 y S2 para clonar voces específicas para cada papel, o dejarlas vacías para que el modelo elija hablantes distintos solo a partir del contexto del texto. Este camino es adecuado para llamadas y respuestas, narración con líneas de personajes, o maquetas de interfaces de voz.

Nodos clave en el flujo de trabajo ComfyUI MOSS TTS#

`MossTTSModelLoader` (#1)#

Carga la familia de modelos OpenMOSS seleccionada y ensambla la tubería interna de TTS. Elige la variante Local 1.7B para iteraciones rápidas en una sola GPU, o cambia a un modelo más grande Delay 8B cuando priorices la expresividad y la similitud. Mantén un cargador por familia de tareas para que cada rama descendente se mantenga autónoma.

`MossTTSGenerate` (#2)#

El principal sintetizador de un solo hablante que consume tu mensaje de texto y audio de referencia opcional para producir discurso de 24 kHz. Proporciona texto limpio y bien puntuado para un ritmo más claro, y conecta un clip de voz corto cuando necesites clonación de cero disparos. Alterna la semilla entre fija y aleatoria para equilibrar la reproducibilidad y la exploración.

`MossTTSVoiceDesign` (#9)#

Genera una voz novedosa a partir de un mensaje descriptivo junto con el texto a hablar. Enfoca la descripción en timbre, edad, acento y energía para dirigir la identidad mientras la mantienes concisa. Esta es una opción fuerte cuando la concesión de licencias o la obtención de una voz real no es práctica.

`MossTTSSoundEffect` (#12)#

Sintetiza audio no verbal a partir de una breve descripción textual. Escribe mensajes compactos que anclen la fuente, la acción y el espacio, luego itera para coincidir con la escena. Ideal para ambientes y disparos únicos dentro del mismo gráfico ComfyUI MOSS TTS que usas para diálogo.

`MossTTSDialogue` (#15)#

Analiza etiquetas de hablante entre corchetes y representa conversaciones de múltiples turnos como una única salida de audio. Usa [S1], [S2], y así sucesivamente para marcar cada línea, y opcionalmente conecta clips de referencia por hablante para preservar la identidad a través de los turnos. Mantén las líneas concisas para los traspasos más confiables entre hablantes.

Extras opcionales#

Comienza con el modelo Local 1.7B para borradores rápidos, luego cambia a un punto de control Delay 8B cuando necesites mayor similitud o prosodia más rica.
Para clonación de cero disparos, usa un clip de voz limpio de 5–15 s con mínima reverberación y ruido para mejorar la transferencia de timbre.
En diálogo, mantén las etiquetas de hablante consistentes y libres de puntuación como [S1] para evitar errores de análisis.
Crea mensajes de diseño de voz con 3–6 rasgos como timbre, edad, acento, estilo y energía para resultados predecibles.
Usa puntuación y saltos de línea en tu texto para controlar pausas y ritmo en las salidas de ComfyUI MOSS TTS.
Añade un nodo SaveAudio después de cualquier vista previa si deseas exportación automática de archivos para renders por lotes.

Referencias: OpenMOSS/MOSS-TTS • MOSS-TTS-Local-Transformer • MOSS-TTS • MOSS-Audio-Tokenizer • comfyui-moss-tts

Reconocimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos sinceramente a richservo por los nodos personalizados ComfyUI MOSS-TTS, a OpenMOSS por el repositorio MOSS-TTS y al equipo OpenMOSS-Team por los modelos MOSS-TTS (Delay 8B y Local 1.7B) y el MOSS Audio Tokenizer por sus contribuciones y mantenimiento. Para detalles autoritativos, por favor consulta la documentación original y los repositorios enlazados a continuación.

Recursos#

richservo/comfyui-moss-tts
- GitHub: richservo/comfyui-moss-tts
OpenMOSS/MOSS-TTS
- GitHub: OpenMOSS/MOSS-TTS
- Hugging Face: OpenMOSS-Team/MOSS-TTS
- arXiv: 2603.18090
OpenMOSS-Team/MOSS-TTS (Delay 8B)
- GitHub: OpenMOSS/MOSS-TTS
- Hugging Face: OpenMOSS-Team/MOSS-TTS
- arXiv: 2603.18090
OpenMOSS-Team/MOSS-TTS-Local-Transformer (Local 1.7B)
- GitHub: OpenMOSS/MOSS-TTS
- Hugging Face: OpenMOSS-Team/MOSS-TTS-Local-Transformer
- arXiv: 2603.18090
OpenMOSS-Team/MOSS-Audio-Tokenizer
- Hugging Face: OpenMOSS-Team/MOSS-Audio-Tokenizer
- arXiv: 2602.10934

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Fish Audio S2 TTS | Generador de Voz Expresiva

Crea discursos realistas con emociones, estilos y voces clonadas rápidamente.

MMAudio | Video a Audio

MMAudio: Modelo avanzado de video a audio para la generación de audio de alta calidad.

Generación de Música ACE-Step | Creación de Audio AI

Genera música de calidad de estudio 15× más rápido con tecnología de difusión innovadora.

ACE-Step 1.5XL Base texto a música | Generador de Sonido AI

Convierte tu texto en música pura creada por IA al instante.

ACE-Step 1.5XL Turbo comfyui workflow | Generador de Texto a Música

Convierte tu texto en música increíble de manera rápida y clara.

HunyuanCustom | Generador de Video Multi-Subject

Crea videos de dos sujetos con una preservación de identidad excepcional.

ComfyUI FLUX | Una Nueva Generación de Imágenes Artísticas

Un nuevo modelo de generación de imágenes desarrollado por Black Forest Labs

Hunyuan Video | Image-Prompt to Video

Convierte una imagen y un aviso de texto en un video dinámico.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

ComfyUI MOSS TTS | Generador de Voz y Habla AI