Este flujo de trabajo convierte texto simple en música y paisajes sonoros originales utilizando Stable Audio Open 1.0. Está diseñado para compositores, diseñadores de sonido y creadores que desean generación de audio rápida y controlable sin salir de ComfyUI. Escribe una indicación, establece una duración objetivo, y el gráfico renderiza un MP3 que refleja tu estilo, estado de ánimo, tempo e instrumentación.
Bajo el capó, el flujo de trabajo codifica tu texto con un codificador de texto basado en T5, ejecuta el proceso de difusión de Stable Audio en el espacio de audio latente, luego decodifica a una forma de onda y guarda el resultado. Con una guía clara de indicaciones y un control de longitud simple, la generación de Stable Audio se vuelve predecible y repetible para pistas cinematográficas, ambientales o experimentales.
El gráfico fluye desde la carga del modelo hasta el acondicionamiento de la indicación, luego el muestreo, la decodificación y el guardado. Los grupos están organizados para que puedas establecer modelos una vez, ajustar la longitud, escribir tu indicación y renderizar.
Este grupo inicializa los activos principales. CheckpointLoaderSimple (#4) carga el punto de control de Stable Audio Open 1.0, que incluye el modelo de difusión y su VAE de audio. CLIPLoader (#10) carga el codificador de texto basado en T5 utilizado para el acondicionamiento. Una vez cargados, estos modelos proporcionan la columna vertebral para la generación de Stable Audio y permanecen residentes para ejecuciones posteriores.
Este grupo define cuánto durará tu audio. EmptyLatentAudio (#11) crea una pista latente en blanco con la duración elegida para que el muestreador sepa cuántos cuadros generar. Los clips más largos consumen más tiempo y memoria, así que comienza modestamente, luego escala. También puedes producir múltiples variaciones aumentando la dimensión del lote al explorar ideas.
Este grupo convierte el texto en las señales de guía para el proceso de difusión. Usa CLIPTextEncode (#6) para escribir una indicación positiva con instrumentos, género, estado de ánimo, tempo y pistas de producción, por ejemplo: "orquesta cinematográfica exuberante, cuerdas y metales envolventes, percusión profunda, pads ambientales, 90 BPM, edificante." Usa CLIPTextEncode (#7) para una indicación negativa para suprimir artefactos como "ruido áspero, recortes, distorsión." Juntos dirigen Stable Audio hacia las texturas y estructuras que deseas.
KSampler (#3) realiza los pasos de difusión que transforman el latente vacío en un latente musical guiado por tus codificaciones de texto. VAEDecodeAudio (#12) convierte el audio latente de nuevo a una forma de onda. Finalmente, SaveAudioMP3 (#19) escribe un archivo MP3 para que puedas revisarlo o colocarlo directamente en tu línea de tiempo. Para trabajo iterativo, ajusta el prefijo del nombre de archivo para mantener las tomas organizadas.
CLIPTextEncode (#6)
Este nodo codifica tu indicación positiva en el acondicionamiento que sigue Stable Audio. Prioriza listas claras de instrumentos, género, estado de ánimo, tempo o BPM, y términos de producción como "cálido," "lo-fi," "cinemático," o "ambiental." Cambios sutiles en la redacción pueden cambiar significativamente la composición. Consulta los nodos centrales de ComfyUI para un comportamiento general. ComfyUI
CLIPTextEncode (#7)
La indicación negativa ayuda a evitar timbres indeseados o problemas de mezcla. Agrega términos que describan qué eliminar, por ejemplo "chirriante, timbre metálico, pops de glitch, siseo de radio." Mantener esto conciso a menudo produce renders de Stable Audio más limpios. ComfyUI
EmptyLatentAudio (#11)
Controla la duración del clip en segundos y opcionalmente la cuenta del lote para múltiples variaciones. Aumenta los segundos para piezas más largas, teniendo en cuenta que el cálculo escala con la longitud. Usa generación por lotes para probar varias tomas de Stable Audio desde una sola indicación. ComfyUI
KSampler (#3)
Impulsa el proceso de difusión para latentes de audio. Los controles más influyentes son steps, sampler, cfg, y seed. Aumenta steps para más detalle refinado, ajusta cfg para equilibrar la adherencia a la indicación con la creatividad, y establece un seed fijo para reproducir una toma o variarla para nuevas ideas. Consulta las notas del muestreador de ComfyUI para orientación general. ComfyUI
SaveAudioMP3 (#19)
Exporta la forma de onda final a un MP3. Usa el filename_prefix para etiquetar versiones y mantener las iteraciones ordenadas. Al comparar indicaciones o semillas, guardar múltiples tomas lado a lado hace que la selección de Stable Audio sea más rápida. ComfyUI
seed mientras iteras texto, luego cambia seed para explorar nuevas variaciones de Stable Audio.Recursos para una lectura más profunda: detalles del modelo de Stable Audio y ejemplos aquí, núcleo de ComfyUI y comportamiento de nodos aquí, y la ficha del modelo T5-Base aquí.
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Stability AI por Stable Audio Open, comfyanonymous (ComfyUI) por los nodos de ComfyUI y referencias de flujo de trabajo, y Comfy-Org y ComfyUI-Wiki por el punto de control de Stable Audio Open 1.0 y el codificador de texto T5-Base por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y los repositorios enlazados a continuación.
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.
RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.