ComfyUI>Flujos de trabajo>ACE-Step 1.5XL Base texto a música | Generador de Sonido AI

ACE-Step 1.5XL Base texto a música | Generador de Sonido AI

Workflow Name: RunComfy/ACE-Step-1.5XL-Base-text-to-music
Workflow ID: 0000...1396
Este flujo de trabajo te permite crear composiciones musicales complejas a partir de indicaciones de texto usando una configuración de difusión integrada. Construido sobre el modelo ACE-Step 1.5XL Base, combina codificadores avanzados VAE y Qwen para la creación de audio nítido y estructurado. Puedes producir música utilizable y de alta calidad sin edición ni postproducción. Se centra completamente en la generación de música en lugar de en el habla o TTS. Ideal para diseñadores, creadores e ingenieros de sonido que buscan resultados de audio personalizados impulsados por texto.

ComfyUI ACE-Step 1.5XL Base text to music Workflow

ACE-Step 1.5XL Base text to music in ComfyUI | AI Audio Workflow
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI ACE-Step 1.5XL Base text to music Examples

ACE-Step 1.5XL Base texto a música: Flujo de trabajo de indicación a canción para ComfyUI#

Este flujo de trabajo convierte descripciones en lenguaje natural en audio terminado usando la familia de difusión ACE-Step 1.5XL Base. Empareja el modelo base con su VAE ACE Step y codificadores de texto duales Qwen para mantener los resultados firmemente en el ámbito musical en lugar de TTS o habla. Si deseas música AI impulsada por indicaciones con estructura, tempos e instrumentación predecibles, este pipeline de ACE-Step 1.5XL Base texto a música es una configuración mínima y enfocada que te lleva de la idea a MP3 rápidamente.

Diseñado para productores, diseñadores de sonido y creadores, el gráfico enfatiza la claridad: elige modelos, establece una duración, escribe una indicación musical, luego genera y guarda. El flujo de trabajo de ACE-Step 1.5XL Base texto a música es lo suficientemente compacto para iteraciones rápidas mientras se mantiene expresivo para arreglos detallados, claves y tempos.

Modelos clave en Comfyui ACE-Step 1.5XL Base texto a música flujo de trabajo#

  • Modelo de difusión ACE-Step 1.5 XL Base (bf16). La columna vertebral generativa que desruida las latentes de audio en frases musicales coherentes y texturas. Archivo del modelo
  • ACE Step 1.5 VAE. El autoencoder variacional emparejado que codifica/decodifica entre el espacio latente y el dominio de la forma de onda, preservando el timbre y los balances de mezcla. Archivo del modelo
  • Codificador de texto Qwen 4B ACE15. Un gran codificador de texto adaptado para ACE que captura ricas semánticas musicales, estructura y señales de arreglo de la indicación. Archivo del modelo
  • Codificador de texto Qwen 0.6B ACE15. Un codificador adaptado a ACE más ligero que prioriza la velocidad y la eficiencia de recursos mientras retiene una fuerte comprensión de la indicación. Archivo del modelo

Cómo usar Comfyui ACE-Step 1.5XL Base texto a música flujo de trabajo#

El gráfico está organizado en tres grupos que fluyen hacia la generación y exportación: Modelo, Duración e Indicación. Cargas los modelos, eliges una longitud objetivo, describes la música, luego el muestreador crea latentes que el VAE decodifica en audio.

Modelo#

Este grupo carga los activos principales. UNETLoader (#104) selecciona el punto de control de difusión ACE-Step 1.5 XL Base, y VAELoader (#106) carga el VAE ACE Step 1.5 correspondiente para que la calidad de decodificación se alinee con el entrenamiento. DualCLIPLoader (#105) trae ambos codificadores Qwen ACE15; el flujo de trabajo los usa conjuntamente para que las indicaciones de texto ricas se traduzcan en un fuerte acondicionamiento musical.

Duración#

Aquí decides cuánto debe durar la pieza. Song Duration (#99) establece la longitud objetivo en segundos y la transmite hacia adelante para que el lienzo latente y el acondicionamiento de texto estén de acuerdo. PrimitiveInt (#109) proporciona una semilla, permitiéndote fijar resultados exactos para reproducibilidad o variarla para explorar tomas alternativas.

Indicación#

Aquí es donde el lenguaje se convierte en música. Escribe tu descripción en TextEncodeAceStepAudio1.5 (#94), incluyendo metadatos musicales útiles como tempo (BPM), métrica, clave, instrumentación, arreglo, presencia vocal y notas de mezcla. El nodo emite el acondicionamiento positivo; ConditioningZeroOut (#47) suministra un camino negativo neutral para que la generación se mantenga enfocada en tu descripción. EmptyAceStep1.5LatentAudio (#98) inicializa una línea de tiempo de audio latente para la duración elegida. ModelSamplingAuraFlow (#78) adapta el modelo base a un programador adecuado para el audio ACE-Step. KSampler (#3) combina modelo, acondicionamiento, latente y semilla para generar el latente musical. VAEDecodeAudio (#18) convierte el latente de nuevo a forma de onda, y SaveAudioMP3 (#107) escribe el resultado en un archivo MP3 listo para compartir.

Nodos clave en Comfyui ACE-Step 1.5XL Base texto a música flujo de trabajo#

TextEncodeAceStepAudio1.5 (#94)#

Convierte tu indicación en acondicionamiento que el modelo de difusión puede seguir. Acepta detalles musicales como tempo, firma de tiempo, clave, notas de arreglo, instrumentación, lenguaje e intención vocal opcional. Para obtener los mejores resultados, sé concreto sobre el género, la sensación y la ubicación en la mezcla, y mantén las señales estructurales concisas para que el modelo pueda mantener la coherencia durante la duración solicitada.

EmptyAceStep1.5LatentAudio (#98)#

Crea la “lienzo” de audio latente para la pieza. Alinea sus segundos con lo que estableciste en Song Duration (#99) y referenciado en el codificador de texto para evitar truncamiento o relleno no deseado. Los lienzos más largos invitan a un desarrollo más gradual, mientras que los más cortos se adaptan a bucles, señales y jingles.

ModelSamplingAuraFlow (#78)#

Configura la estrategia de muestreo adaptada al audio ACE-Step. Úsalo como se proporciona para resultados estables; ajusta solo si tienes una preferencia de programador específica, ya que interactúa con el conteo de pasos y la guía en KSampler (#3).

KSampler (#3)#

Realiza la desruida que convierte el acondicionamiento en latentes de audio. Las palancas clave aquí son el tipo de muestreador, el conteo de pasos y la semilla. Aumenta los pasos para refinar los detalles a costa de tiempo, y mantén la semilla fija al comparar indicaciones para que puedas atribuir cambios al texto en lugar de al azar.

DualCLIPLoader (#105)#

Carga ambos codificadores de texto Qwen ACE15. Si tienes acceso a ambos, comienza con el codificador 4B activo para una comprensión más rica del lenguaje; cambia al 0.6B cuando necesites iteraciones más rápidas o menor uso de memoria. Mantén la elección del codificador constante en las tomas al evaluar ediciones sutiles de la indicación.

ConditioningZeroOut (#47)#

Proporciona un camino negativo neutral. Si deseas suprimir artefactos específicos o alejarte del contenido hablado, puedes reemplazar esto con un nodo de indicación negativa real; de lo contrario, el negativo anulado mantiene la generación de ACE-Step 1.5XL Base texto a música enfocada en tu descripción positiva.

Extras opcionales#

  • Comienza las indicaciones con una receta compacta: género + estado de ánimo + tempo + métrica + clave + instrumentación + arreglo + notas de mezcla.
  • Usa verbos musicales explícitos y roles (líder, pad, bajo, percusión) para que el modelo asigne espacio en la mezcla y evite contenido similar al habla.
  • Fija la semilla al probar A/B indicaciones, luego varía la semilla para explorar actuaciones alternativas de una idea ganadora.
  • Mantén la duración alineada a través de Song Duration (#99), TextEncodeAceStepAudio1.5 (#94), y EmptyAceStep1.5LatentAudio (#98) para un fraseo predecible.
  • Elige Qwen 4B para una comprensión más rica de la indicación o 0.6B para velocidad; mantén tu elección constante mientras iteras para hacer comparaciones justas.

Agradecimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Comfy.org por el flujo de trabajo audio_ace_step1_5_xl_base, Comfy-Org por el modelo de difusión ACE Step 1.5 XL Base y ACE Step 1.5 VAE, y al equipo de Qwen por los codificadores de texto 0.6B y 4B ACE15 por sus contribuciones y mantenimiento. Para obtener detalles autorizados, consulta la documentación original y los repositorios vinculados a continuación.

Recursos#

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

RunComfy
Derechos de autor 2026 RunComfy. Todos los derechos reservados.

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.