Stable Audio Open 1.0 en ComfyUI | Flujo de trabajo de Texto a Música

ComfyUI Stable Audio Workflow

Stable Audio Open 1.0 in ComfyUI | Text-to-Music Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Stable Audio Examples

Stable Audio Open 1.0 Flujo de trabajo de Texto a Música#

Este flujo de trabajo convierte texto simple en música y paisajes sonoros originales utilizando Stable Audio Open 1.0. Está diseñado para compositores, diseñadores de sonido y creadores que desean generación de audio rápida y controlable sin salir de ComfyUI. Escribe una indicación, establece una duración objetivo, y el gráfico renderiza un MP3 que refleja tu estilo, estado de ánimo, tempo e instrumentación.

Bajo el capó, el flujo de trabajo codifica tu texto con un codificador de texto basado en T5, ejecuta el proceso de difusión de Stable Audio en el espacio de audio latente, luego decodifica a una forma de onda y guarda el resultado. Con una guía clara de indicaciones y un control de longitud simple, la generación de Stable Audio se vuelve predecible y repetible para pistas cinematográficas, ambientales o experimentales.

Modelos clave en el flujo de trabajo de Stable Audio de ComfyUI#

Stable Audio Open 1.0. Modelo de difusión latente de pesos abiertos para diseño de sonido y texto a música por Stability AI. Mapea la intención del texto a latentes de audio y soporta estilos y estructuras musicales variadas. Repositorio • Pesos
Codificador de Texto T5-Base. Modelo de texto de propósito general utilizado aquí para incrustar indicaciones para condicionar la generación de Stable Audio. Entradas claras y descriptivas llevan a música más consistente. Ficha del modelo

Cómo usar el flujo de trabajo de Stable Audio de ComfyUI#

El gráfico fluye desde la carga del modelo hasta el acondicionamiento de la indicación, luego el muestreo, la decodificación y el guardado. Los grupos están organizados para que puedas establecer modelos una vez, ajustar la longitud, escribir tu indicación y renderizar.

Carga de modelos#

Este grupo inicializa los activos principales. CheckpointLoaderSimple (#4) carga el punto de control de Stable Audio Open 1.0, que incluye el modelo de difusión y su VAE de audio. CLIPLoader (#10) carga el codificador de texto basado en T5 utilizado para el acondicionamiento. Una vez cargados, estos modelos proporcionan la columna vertebral para la generación de Stable Audio y permanecen residentes para ejecuciones posteriores.

Longitud#

Este grupo define cuánto durará tu audio. EmptyLatentAudio (#11) crea una pista latente en blanco con la duración elegida para que el muestreador sepa cuántos cuadros generar. Los clips más largos consumen más tiempo y memoria, así que comienza modestamente, luego escala. También puedes producir múltiples variaciones aumentando la dimensión del lote al explorar ideas.

Indicación#

Este grupo convierte el texto en las señales de guía para el proceso de difusión. Usa CLIPTextEncode (#6) para escribir una indicación positiva con instrumentos, género, estado de ánimo, tempo y pistas de producción, por ejemplo: "orquesta cinematográfica exuberante, cuerdas y metales envolventes, percusión profunda, pads ambientales, 90 BPM, edificante." Usa CLIPTextEncode (#7) para una indicación negativa para suprimir artefactos como "ruido áspero, recortes, distorsión." Juntos dirigen Stable Audio hacia las texturas y estructuras que deseas.

Generar y exportar#

KSampler (#3) realiza los pasos de difusión que transforman el latente vacío en un latente musical guiado por tus codificaciones de texto. VAEDecodeAudio (#12) convierte el audio latente de nuevo a una forma de onda. Finalmente, SaveAudioMP3 (#19) escribe un archivo MP3 para que puedas revisarlo o colocarlo directamente en tu línea de tiempo. Para trabajo iterativo, ajusta el prefijo del nombre de archivo para mantener las tomas organizadas.

Nodos clave en el flujo de trabajo de Stable Audio de ComfyUI#

CLIPTextEncode (#6) Este nodo codifica tu indicación positiva en el acondicionamiento que sigue Stable Audio. Prioriza listas claras de instrumentos, género, estado de ánimo, tempo o BPM, y términos de producción como "cálido," "lo-fi," "cinemático," o "ambiental." Cambios sutiles en la redacción pueden cambiar significativamente la composición. Consulta los nodos centrales de ComfyUI para un comportamiento general. ComfyUI
CLIPTextEncode (#7) La indicación negativa ayuda a evitar timbres indeseados o problemas de mezcla. Agrega términos que describan qué eliminar, por ejemplo "chirriante, timbre metálico, pops de glitch, siseo de radio." Mantener esto conciso a menudo produce renders de Stable Audio más limpios. ComfyUI
EmptyLatentAudio (#11) Controla la duración del clip en segundos y opcionalmente la cuenta del lote para múltiples variaciones. Aumenta los segundos para piezas más largas, teniendo en cuenta que el cálculo escala con la longitud. Usa generación por lotes para probar varias tomas de Stable Audio desde una sola indicación. ComfyUI
KSampler (#3) Impulsa el proceso de difusión para latentes de audio. Los controles más influyentes son steps, sampler, cfg, y seed. Aumenta steps para más detalle refinado, ajusta cfg para equilibrar la adherencia a la indicación con la creatividad, y establece un seed fijo para reproducir una toma o variarla para nuevas ideas. Consulta las notas del muestreador de ComfyUI para orientación general. ComfyUI
SaveAudioMP3 (#19) Exporta la forma de onda final a un MP3. Usa el filename_prefix para etiquetar versiones y mantener las iteraciones ordenadas. Al comparar indicaciones o semillas, guardar múltiples tomas lado a lado hace que la selección de Stable Audio sea más rápida. ComfyUI

Extras opcionales#

Escribe indicaciones como un breve de sesión: instrumentos, género, estado de ánimo, tempo o BPM, y adjetivos de mezcla.
Usa indicaciones negativas cortas y enfocadas para reducir el siseo, la dureza o los instrumentos no deseados.
Bloquea seed mientras iteras texto, luego cambia seed para explorar nuevas variaciones de Stable Audio.
Comienza con duraciones más cortas para ajustar el estilo, luego alarga una vez que el sonido sea correcto.
Mantén un prefijo de nombre de archivo consistente por concepto para que puedas comparar tomas de Stable Audio más tarde.

Recursos para una lectura más profunda: detalles del modelo de Stable Audio y ejemplos aquí, núcleo de ComfyUI y comportamiento de nodos aquí, y la ficha del modelo T5-Base aquí.

Reconocimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Stability AI por Stable Audio Open, comfyanonymous (ComfyUI) por los nodos de ComfyUI y referencias de flujo de trabajo, y Comfy-Org y ComfyUI-Wiki por el punto de control de Stable Audio Open 1.0 y el codificador de texto T5-Base por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y los repositorios enlazados a continuación.

Recursos#

Comfy-Org/Flujo de trabajo de Stable Audio Open 1.0
- GitHub: Stability-AI/stable-audio-open

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

MMAudio | Video a Audio

MMAudio: Modelo avanzado de video a audio para la generación de audio de alta calidad.

Generación de Música ACE-Step | Creación de Audio AI

Genera música de calidad de estudio 15× más rápido con tecnología de difusión innovadora.

EchoMimic | Animaciones de Retratos Impulsadas por Audio

Genera cabezas parlantes y gestos corporales realistas sincronizados con el audio proporcionado.

ACE++ Consistencia de Personajes

Genera imágenes consistentes de tu personaje en diferentes poses, ángulos y estilos a partir de una sola foto.

IPAdapter V1 + AnimateDiff + ControlNet | Arte en Movimiento

Descubre el uso innovador de IPAdapter para crear impresionantes obras de arte en movimiento.

ReActor | Intercambio Rápido de Rostros

Con ComfyUI ReActor, puedes intercambiar fácilmente los rostros de uno o más personajes en imágenes o videos.

Flux Redux | Variación y Restilización

Herramientas Oficiales Flux - Flux Redux para Variación y Restilización de Imágenes

AnimateDiff + ControlNet + IPAdapter V1 | Estilo de Anime Japonés

Transforma tus videos en cautivador anime japonés.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

Stable Audio Open 1.0 | Herramienta de Texto a Música