ACE-Step 1.5XL Base texto a música en ComfyUI | Flujo de trabajo de audio AI

ComfyUI ACE-Step 1.5XL Base text to music Workflow

ACE-Step 1.5XL Base text to music in ComfyUI | AI Audio Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI ACE-Step 1.5XL Base text to music Examples

ACE-Step 1.5XL Base texto a música: Flujo de trabajo de indicación a canción para ComfyUI#

Este flujo de trabajo convierte descripciones en lenguaje natural en audio terminado usando la familia de difusión ACE-Step 1.5XL Base. Empareja el modelo base con su VAE ACE Step y codificadores de texto duales Qwen para mantener los resultados firmemente en el ámbito musical en lugar de TTS o habla. Si deseas música AI impulsada por indicaciones con estructura, tempos e instrumentación predecibles, este pipeline de ACE-Step 1.5XL Base texto a música es una configuración mínima y enfocada que te lleva de la idea a MP3 rápidamente.

Diseñado para productores, diseñadores de sonido y creadores, el gráfico enfatiza la claridad: elige modelos, establece una duración, escribe una indicación musical, luego genera y guarda. El flujo de trabajo de ACE-Step 1.5XL Base texto a música es lo suficientemente compacto para iteraciones rápidas mientras se mantiene expresivo para arreglos detallados, claves y tempos.

Modelos clave en Comfyui ACE-Step 1.5XL Base texto a música flujo de trabajo#

Modelo de difusión ACE-Step 1.5 XL Base (bf16). La columna vertebral generativa que desruida las latentes de audio en frases musicales coherentes y texturas. Archivo del modelo
ACE Step 1.5 VAE. El autoencoder variacional emparejado que codifica/decodifica entre el espacio latente y el dominio de la forma de onda, preservando el timbre y los balances de mezcla. Archivo del modelo
Codificador de texto Qwen 4B ACE15. Un gran codificador de texto adaptado para ACE que captura ricas semánticas musicales, estructura y señales de arreglo de la indicación. Archivo del modelo
Codificador de texto Qwen 0.6B ACE15. Un codificador adaptado a ACE más ligero que prioriza la velocidad y la eficiencia de recursos mientras retiene una fuerte comprensión de la indicación. Archivo del modelo

Cómo usar Comfyui ACE-Step 1.5XL Base texto a música flujo de trabajo#

El gráfico está organizado en tres grupos que fluyen hacia la generación y exportación: Modelo, Duración e Indicación. Cargas los modelos, eliges una longitud objetivo, describes la música, luego el muestreador crea latentes que el VAE decodifica en audio.

Modelo#

Este grupo carga los activos principales. UNETLoader (#104) selecciona el punto de control de difusión ACE-Step 1.5 XL Base, y VAELoader (#106) carga el VAE ACE Step 1.5 correspondiente para que la calidad de decodificación se alinee con el entrenamiento. DualCLIPLoader (#105) trae ambos codificadores Qwen ACE15; el flujo de trabajo los usa conjuntamente para que las indicaciones de texto ricas se traduzcan en un fuerte acondicionamiento musical.

Duración#

Aquí decides cuánto debe durar la pieza. Song Duration (#99) establece la longitud objetivo en segundos y la transmite hacia adelante para que el lienzo latente y el acondicionamiento de texto estén de acuerdo. PrimitiveInt (#109) proporciona una semilla, permitiéndote fijar resultados exactos para reproducibilidad o variarla para explorar tomas alternativas.

Indicación#

Aquí es donde el lenguaje se convierte en música. Escribe tu descripción en TextEncodeAceStepAudio1.5 (#94), incluyendo metadatos musicales útiles como tempo (BPM), métrica, clave, instrumentación, arreglo, presencia vocal y notas de mezcla. El nodo emite el acondicionamiento positivo; ConditioningZeroOut (#47) suministra un camino negativo neutral para que la generación se mantenga enfocada en tu descripción. EmptyAceStep1.5LatentAudio (#98) inicializa una línea de tiempo de audio latente para la duración elegida. ModelSamplingAuraFlow (#78) adapta el modelo base a un programador adecuado para el audio ACE-Step. KSampler (#3) combina modelo, acondicionamiento, latente y semilla para generar el latente musical. VAEDecodeAudio (#18) convierte el latente de nuevo a forma de onda, y SaveAudioMP3 (#107) escribe el resultado en un archivo MP3 listo para compartir.

Nodos clave en Comfyui ACE-Step 1.5XL Base texto a música flujo de trabajo#

`TextEncodeAceStepAudio1.5` (#94)#

Convierte tu indicación en acondicionamiento que el modelo de difusión puede seguir. Acepta detalles musicales como tempo, firma de tiempo, clave, notas de arreglo, instrumentación, lenguaje e intención vocal opcional. Para obtener los mejores resultados, sé concreto sobre el género, la sensación y la ubicación en la mezcla, y mantén las señales estructurales concisas para que el modelo pueda mantener la coherencia durante la duración solicitada.

`EmptyAceStep1.5LatentAudio` (#98)#

Crea la “lienzo” de audio latente para la pieza. Alinea sus segundos con lo que estableciste en Song Duration (#99) y referenciado en el codificador de texto para evitar truncamiento o relleno no deseado. Los lienzos más largos invitan a un desarrollo más gradual, mientras que los más cortos se adaptan a bucles, señales y jingles.

`ModelSamplingAuraFlow` (#78)#

Configura la estrategia de muestreo adaptada al audio ACE-Step. Úsalo como se proporciona para resultados estables; ajusta solo si tienes una preferencia de programador específica, ya que interactúa con el conteo de pasos y la guía en KSampler (#3).

`KSampler` (#3)#

Realiza la desruida que convierte el acondicionamiento en latentes de audio. Las palancas clave aquí son el tipo de muestreador, el conteo de pasos y la semilla. Aumenta los pasos para refinar los detalles a costa de tiempo, y mantén la semilla fija al comparar indicaciones para que puedas atribuir cambios al texto en lugar de al azar.

`DualCLIPLoader` (#105)#

Carga ambos codificadores de texto Qwen ACE15. Si tienes acceso a ambos, comienza con el codificador 4B activo para una comprensión más rica del lenguaje; cambia al 0.6B cuando necesites iteraciones más rápidas o menor uso de memoria. Mantén la elección del codificador constante en las tomas al evaluar ediciones sutiles de la indicación.

`ConditioningZeroOut` (#47)#

Proporciona un camino negativo neutral. Si deseas suprimir artefactos específicos o alejarte del contenido hablado, puedes reemplazar esto con un nodo de indicación negativa real; de lo contrario, el negativo anulado mantiene la generación de ACE-Step 1.5XL Base texto a música enfocada en tu descripción positiva.

Extras opcionales#

Comienza las indicaciones con una receta compacta: género + estado de ánimo + tempo + métrica + clave + instrumentación + arreglo + notas de mezcla.
Usa verbos musicales explícitos y roles (líder, pad, bajo, percusión) para que el modelo asigne espacio en la mezcla y evite contenido similar al habla.
Fija la semilla al probar A/B indicaciones, luego varía la semilla para explorar actuaciones alternativas de una idea ganadora.
Mantén la duración alineada a través de Song Duration (#99), TextEncodeAceStepAudio1.5 (#94), y EmptyAceStep1.5LatentAudio (#98) para un fraseo predecible.
Elige Qwen 4B para una comprensión más rica de la indicación o 0.6B para velocidad; mantén tu elección constante mientras iteras para hacer comparaciones justas.

Agradecimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Comfy.org por el flujo de trabajo audio_ace_step1_5_xl_base, Comfy-Org por el modelo de difusión ACE Step 1.5 XL Base y ACE Step 1.5 VAE, y al equipo de Qwen por los codificadores de texto 0.6B y 4B ACE15 por sus contribuciones y mantenimiento. Para obtener detalles autorizados, consulta la documentación original y los repositorios vinculados a continuación.

Recursos#

Comfy.org/Página fuente del flujo de trabajo
- Documentación / Notas de la versión: página del flujo de trabajo audio_ace_step1_5_xl_base
Comfy-Org/Modelo de difusión ACE Step 1.5 XL Base
- Hugging Face: acestep_v1.5_xl_base_bf16.safetensors
Comfy-Org/ACE Step 1.5 VAE
- Hugging Face: ace_1.5_vae.safetensors
Comfy-Org/Codificador de texto Qwen 0.6B ACE15
- Hugging Face: qwen_0.6b_ace15.safetensors
Comfy-Org/Codificador de texto Qwen 4B ACE15
- Hugging Face: qwen_4b_ace15.safetensors

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Generación de Música ACE-Step | Creación de Audio AI

Genera música de calidad de estudio 15× más rápido con tecnología de difusión innovadora.

Ace Step 1.5 | Generador de Música AI de Calidad Comercial

Convierte texto en canciones completas con planificación inteligente y poder de difusión.

Stable Audio Open 1.0 | Herramienta de Texto a Música

Convierte indicaciones de texto en música cinematográfica de manera fluida y rápida.

MMAudio | Video a Audio

MMAudio: Modelo avanzado de video a audio para la generación de audio de alta calidad.

Generación de Efectos de Sonido Woosh | Text2Audio + VideoSync

Convierte indicaciones y videos en efectos de audio sincronizados precisos.

CatVTON | Increíble Virtual Try-On

CatVTON para una prueba virtual fácil y precisa.

IPAdapter Plus (V2) | Estilo y composición

IPAdapter Plus permite una transferencia efectiva de estilo y composición, funcionando como un LoRA de 1 imagen.

LTX 2.3 ID-LoRA | Generador de Avatares Parlantes

Crea avatares parlantes realistas con voz y visuales sincronizados.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

ACE-Step 1.5XL Base texto a música | Generador de Sonido AI