ACE-Step 1.5XL Turbo comfyui workflow | Generador de Texto a Música Rápida por AI

ComfyUI ACE-Step 1.5XL Turbo Workflow

ACE-Step 1.5XL Turbo comfyui workflow | Fast AI Text-to-Music

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI ACE-Step 1.5XL Turbo Examples

ACE-Step 1.5XL Turbo Texto a Música Workflow ComfyUI#

Convierte indicaciones compactas en música MP3 pulida con este workflow comfyui enfocado en la velocidad y la repetibilidad. Combina el generador ACE-Step 1.5XL Turbo con su VAE oficial y los codificadores de texto duales Qwen, luego exporta directamente a MP3 para fácil previsualización y reutilización. Productores, diseñadores de sonido y artistas de indicaciones pueden iterar rápidamente manteniendo los resultados consistentes a través de ejecuciones.

Modelos clave en este workflow comfyui#

ACE-Step 1.5XL Turbo (bf16). El modelo de difusión central que sintetiza música a partir de la condición de texto, optimizado para un desnoising rápido y latentes de audio de alta calidad. Archivo del modelo
ACE-Step 1.5 VAE. El decodificador que convierte latentes de audio en una forma de onda final mientras preserva el timbre y la dinámica esperados por la familia ACE-Step. Archivo del modelo
Qwen 0.6B ACE 1.5 codificador de texto. Codificador ligero que convierte tu indicación descriptiva en vectores de condición utilizados por el generador. Archivo del modelo
Qwen 4B ACE 1.5 codificador de texto. Codificador compañero más grande que enriquece semántica, señales de estilo, instrumentos y pistas vocales para renders más fieles. Archivo del modelo

Cómo usar este workflow comfyui#

El gráfico está organizado en dos grupos principales más controles globales. Carga la pila de modelos ACE-Step, describe la música que deseas, establece la duración de la canción y la semilla, luego muestrea, decodifica y exporta a MP3.

Grupo de modelos#

Esta sección inicializa la pila de modelos que espera el generador. UNETLoader (#104) carga ACE-Step 1.5XL Turbo, y VAELoader (#106) introduce la ACE-Step 1.5 VAE correspondiente para que la decodificación se mantenga fiel. DualCLIPLoader (#105) empareja los codificadores de texto Qwen 0.6B y 4B para preparar embeddings de indicaciones. El UNet se enruta a través de ModelSamplingAuraFlow (#78), que aplica la configuración del sampler requerida por el modelo antes de que comience el desnoising.

Grupo de indicaciones#

Escribe una descripción concisa del género, el estado de ánimo, los instrumentos, las voces, el tempo y el estilo de producción en TextEncodeAceStepAudio1.5 (#94). Si utilizas letras o notas estructurales, proporciónalas en el cuadro de texto secundario para que los codificadores puedan condicionar la fraseología y la dinámica. La condicionamiento negativo está intencionadamente deshabilitado vía ConditioningZeroOut (#47) para mantener los resultados enfocados y simplificar las iteraciones tempranas. El nodo también acepta la duración global y la semilla, asegurando que la condición se mantenga alineada con la longitud de la pista y tus configuraciones de reproducibilidad.

Duración y semilla#

Establece la longitud de la pista en segundos usando Float (Duration) (#99). Elige una semilla en Int (Seed) (#109) para hacer que las ejecuciones sean reproducibles tanto en el codificador como en el sampler. Mantener la misma semilla mientras solo cambias la indicación es una forma confiable de probar direcciones creativas A/B. Para una exploración más amplia, varía la semilla después de que estés satisfecho con la indicación.

Configuración de audio latente#

EmptyAceStep1.5LatentAudio (#98) construye un audio latente vacío que coincide con la duración elegida. Esto actúa como el lienzo que el sampler llenará durante el desnoising. Las duraciones más largas requieren más computación, por lo que considera comenzar más corto para validar una indicación antes de aumentar la escala. El workflow conecta la duración globalmente para que tu latente y la condición siempre permanezcan sincronizados.

Desnoising y muestreo#

KSampler (#3) realiza el proceso de difusión utilizando el modelo ACE-Step 1.5XL Turbo y tu condición de indicación. El camino del sampler pasa por ModelSamplingAuraFlow (#78) para coincidir con las configuraciones del scheduler esperadas por el modelo para una convergencia estable y rápida. Usa la misma semilla para comparar cambios en la redacción o el estilo, y solo ajusta las configuraciones del sampler una vez que tu indicación esté afinada. Cuando el sampler termina, tendrás un audio latente listo para decodificar.

Decodificar y exportar#

VAEDecodeAudio (#18) convierte el latente en una forma de onda con el ACE-Step 1.5 VAE para preservar el timbre previsto. SaveAudioMP3 (#107) escribe un MP3 con un nombre de archivo base y una etiqueta de versión opcional para que puedas mantener las tomas organizadas. MP3 es ideal para una revisión rápida y compartición, y siempre puedes re-renderizar o re-exportar a un formato diferente más tarde. El resultado aparece en tu ubicación de salida estándar de ComfyUI.

Nodos clave en este workflow comfyui#

`TextEncodeAceStepAudio1.5` (#94)#

Este nodo traduce tu descripción musical y letras opcionales en condiciones para el generador utilizando los codificadores Qwen emparejados. Mantén las indicaciones específicas sobre género, instrumentación, presencia vocal, tempo, estado de ánimo y carácter de mezcla. Asegúrate de que la duración del nodo coincida con la longitud global de la canción para que la estructura y la fraseología estén alineadas. Usa una semilla fija mientras iteras en la redacción para entender cómo los términos influyen en el arreglo y el timbre.

`EmptyAceStep1.5LatentAudio` (#98)#

Controla el lienzo de tiempo que el modelo llenará. Aumentar la duración incrementa la memoria y el tiempo de renderizado, así que itera en borradores más cortos antes de comprometerte con piezas más largas. Mantén los cambios de duración deliberados porque pueden alterar el tempo percibido y el ritmo de las secciones incluso con la misma indicación y semilla.

`KSampler` (#3)#

Impulsa la calidad, velocidad y textura general controlando cómo se elimina el ruido del latente. Comienza con la ruta del scheduler proporcionada y ajusta las configuraciones del sampler solo después de que la indicación se sienta correcta. Para borradores rápidos, reduce el esfuerzo de muestreo; para mayor fidelidad, aumentalo gradualmente manteniendo constante la semilla para que las diferencias sean fáciles de escuchar. Consulta el comportamiento central del sampler en el repositorio de ComfyUI para una guía general. ComfyUI en GitHub

`SaveAudioMP3` (#107)#

Maneja la exportación y el nombramiento de archivos para que puedas catalogar las tomas. Establece un nombre base claro y una etiqueta de versión para rastrear iteraciones. Si planeas masterizar o editar más, mantén la semilla del proyecto y la indicación en tus notas para que puedas re-renderizar con configuraciones de exportación alternativas cuando sea necesario.

Extras opcionales#

Escribe indicaciones como frases cortas y ordenadas: género, estado de ánimo, sensación de clave, tempo, instrumentos, tipo de voz, estilo de producción.
Mantén las letras concisas y alineadas con la duración elegida para evitar fraseología apresurada hacia el final.
Bloquea la semilla mientras refinas la indicación, luego varía la semilla para explorar arreglos alternativos con el mismo esquema.
Comienza con duraciones más cortas para validar la dirección, luego aumenta la escala una vez que el sonido central funcione.
La condicionamiento negativo está deshabilitado por diseño; habilita y ajusta una indicación negativa verdadera solo si necesitas exclusiones estrictas después de la exploración inicial.

Agradecimientos#

Este workflow implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Comfy.org por el workflow de Audio ACE Step 1.5 XL Turbo, y a Comfy-Org por el modelo de difusión ACE-Step 1.5XL Turbo, ACE-Step 1.5 VAE, ACE-Step 1.5 codificador de texto 0.6B, y ACE-Step 1.5 codificador de texto 4B por sus contribuciones y mantenimiento. Para detalles autorizados, consulte la documentación original y los repositorios enlazados a continuación.

Recursos#

Comfy.org/Workflow de Audio ACE Step 1.5 XL Turbo
- Documentos / Notas de Lanzamiento: Página del workflow
Comfy-Org/Modelo de difusión ACE-Step 1.5XL Turbo
- Hugging Face: acestep_v1.5_xl_turbo_bf16.safetensors
Comfy-Org/ACE-Step 1.5 VAE
- Hugging Face: ace_1.5_vae.safetensors
Comfy-Org/ACE-Step 1.5 codificador de texto 0.6B
- Hugging Face: qwen_0.6b_ace15.safetensors
Comfy-Org/ACE-Step 1.5 codificador de texto 4B
- Hugging Face: qwen_4b_ace15.safetensors

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Generación de Música ACE-Step | Creación de Audio AI

Genera música de calidad de estudio 15× más rápido con tecnología de difusión innovadora.

Ace Step 1.5 | Generador de Música AI de Calidad Comercial

Convierte texto en canciones completas con planificación inteligente y poder de difusión.

Stable Audio Open 1.0 | Herramienta de Texto a Música

Convierte indicaciones de texto en música cinematográfica de manera fluida y rápida.

MMAudio | Video a Audio

MMAudio: Modelo avanzado de video a audio para la generación de audio de alta calidad.

Generación de Efectos de Sonido Woosh | Text2Audio + VideoSync

Convierte indicaciones y videos en efectos de audio sincronizados precisos.

IDM-VTON | Prueba Virtual

Prueba virtual que crea resultados realistas capturando detalles y estilo de las prendas.

IPAdapter Plus (V2) | Fusionar Imágenes

Use varios métodos de fusión con IPAdapter Plus para un control preciso y eficiente de la combinación de imágenes.

CogVideoX-5B | Modelo Avanzado de Texto a Video

CogVideoX-5B: Modelo avanzado de texto a video para la generación de videos de alta calidad.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

ACE-Step 1.5XL Turbo comfyui workflow | Generador de Texto a Música