ACE-Step 1.5XL Turbo Texto a Música Workflow ComfyUI
Convierte indicaciones compactas en música MP3 pulida con este workflow comfyui enfocado en la velocidad y la repetibilidad. Combina el generador ACE-Step 1.5XL Turbo con su VAE oficial y los codificadores de texto duales Qwen, luego exporta directamente a MP3 para fácil previsualización y reutilización. Productores, diseñadores de sonido y artistas de indicaciones pueden iterar rápidamente manteniendo los resultados consistentes a través de ejecuciones.
Modelos clave en este workflow comfyui
- ACE-Step 1.5XL Turbo (bf16). El modelo de difusión central que sintetiza música a partir de la condición de texto, optimizado para un desnoising rápido y latentes de audio de alta calidad. Archivo del modelo
- ACE-Step 1.5 VAE. El decodificador que convierte latentes de audio en una forma de onda final mientras preserva el timbre y la dinámica esperados por la familia ACE-Step. Archivo del modelo
- Qwen 0.6B ACE 1.5 codificador de texto. Codificador ligero que convierte tu indicación descriptiva en vectores de condición utilizados por el generador. Archivo del modelo
- Qwen 4B ACE 1.5 codificador de texto. Codificador compañero más grande que enriquece semántica, señales de estilo, instrumentos y pistas vocales para renders más fieles. Archivo del modelo
Cómo usar este workflow comfyui
El gráfico está organizado en dos grupos principales más controles globales. Carga la pila de modelos ACE-Step, describe la música que deseas, establece la duración de la canción y la semilla, luego muestrea, decodifica y exporta a MP3.
Grupo de modelos
Esta sección inicializa la pila de modelos que espera el generador. UNETLoader (#104) carga ACE-Step 1.5XL Turbo, y VAELoader (#106) introduce la ACE-Step 1.5 VAE correspondiente para que la decodificación se mantenga fiel. DualCLIPLoader (#105) empareja los codificadores de texto Qwen 0.6B y 4B para preparar embeddings de indicaciones. El UNet se enruta a través de ModelSamplingAuraFlow (#78), que aplica la configuración del sampler requerida por el modelo antes de que comience el desnoising.
Grupo de indicaciones
Escribe una descripción concisa del género, el estado de ánimo, los instrumentos, las voces, el tempo y el estilo de producción en TextEncodeAceStepAudio1.5 (#94). Si utilizas letras o notas estructurales, proporciónalas en el cuadro de texto secundario para que los codificadores puedan condicionar la fraseología y la dinámica. La condicionamiento negativo está intencionadamente deshabilitado vía ConditioningZeroOut (#47) para mantener los resultados enfocados y simplificar las iteraciones tempranas. El nodo también acepta la duración global y la semilla, asegurando que la condición se mantenga alineada con la longitud de la pista y tus configuraciones de reproducibilidad.
Duración y semilla
Establece la longitud de la pista en segundos usando Float (Duration) (#99). Elige una semilla en Int (Seed) (#109) para hacer que las ejecuciones sean reproducibles tanto en el codificador como en el sampler. Mantener la misma semilla mientras solo cambias la indicación es una forma confiable de probar direcciones creativas A/B. Para una exploración más amplia, varía la semilla después de que estés satisfecho con la indicación.
Configuración de audio latente
EmptyAceStep1.5LatentAudio (#98) construye un audio latente vacío que coincide con la duración elegida. Esto actúa como el lienzo que el sampler llenará durante el desnoising. Las duraciones más largas requieren más computación, por lo que considera comenzar más corto para validar una indicación antes de aumentar la escala. El workflow conecta la duración globalmente para que tu latente y la condición siempre permanezcan sincronizados.
Desnoising y muestreo
KSampler (#3) realiza el proceso de difusión utilizando el modelo ACE-Step 1.5XL Turbo y tu condición de indicación. El camino del sampler pasa por ModelSamplingAuraFlow (#78) para coincidir con las configuraciones del scheduler esperadas por el modelo para una convergencia estable y rápida. Usa la misma semilla para comparar cambios en la redacción o el estilo, y solo ajusta las configuraciones del sampler una vez que tu indicación esté afinada. Cuando el sampler termina, tendrás un audio latente listo para decodificar.
Decodificar y exportar
VAEDecodeAudio (#18) convierte el latente en una forma de onda con el ACE-Step 1.5 VAE para preservar el timbre previsto. SaveAudioMP3 (#107) escribe un MP3 con un nombre de archivo base y una etiqueta de versión opcional para que puedas mantener las tomas organizadas. MP3 es ideal para una revisión rápida y compartición, y siempre puedes re-renderizar o re-exportar a un formato diferente más tarde. El resultado aparece en tu ubicación de salida estándar de ComfyUI.
Nodos clave en este workflow comfyui
TextEncodeAceStepAudio1.5 (#94)
Este nodo traduce tu descripción musical y letras opcionales en condiciones para el generador utilizando los codificadores Qwen emparejados. Mantén las indicaciones específicas sobre género, instrumentación, presencia vocal, tempo, estado de ánimo y carácter de mezcla. Asegúrate de que la duración del nodo coincida con la longitud global de la canción para que la estructura y la fraseología estén alineadas. Usa una semilla fija mientras iteras en la redacción para entender cómo los términos influyen en el arreglo y el timbre.
EmptyAceStep1.5LatentAudio (#98)
Controla el lienzo de tiempo que el modelo llenará. Aumentar la duración incrementa la memoria y el tiempo de renderizado, así que itera en borradores más cortos antes de comprometerte con piezas más largas. Mantén los cambios de duración deliberados porque pueden alterar el tempo percibido y el ritmo de las secciones incluso con la misma indicación y semilla.
KSampler (#3)
Impulsa la calidad, velocidad y textura general controlando cómo se elimina el ruido del latente. Comienza con la ruta del scheduler proporcionada y ajusta las configuraciones del sampler solo después de que la indicación se sienta correcta. Para borradores rápidos, reduce el esfuerzo de muestreo; para mayor fidelidad, aumentalo gradualmente manteniendo constante la semilla para que las diferencias sean fáciles de escuchar. Consulta el comportamiento central del sampler en el repositorio de ComfyUI para una guía general. ComfyUI en GitHub
SaveAudioMP3 (#107)
Maneja la exportación y el nombramiento de archivos para que puedas catalogar las tomas. Establece un nombre base claro y una etiqueta de versión para rastrear iteraciones. Si planeas masterizar o editar más, mantén la semilla del proyecto y la indicación en tus notas para que puedas re-renderizar con configuraciones de exportación alternativas cuando sea necesario.
Extras opcionales
- Escribe indicaciones como frases cortas y ordenadas: género, estado de ánimo, sensación de clave, tempo, instrumentos, tipo de voz, estilo de producción.
- Mantén las letras concisas y alineadas con la duración elegida para evitar fraseología apresurada hacia el final.
- Bloquea la semilla mientras refinas la indicación, luego varía la semilla para explorar arreglos alternativos con el mismo esquema.
- Comienza con duraciones más cortas para validar la dirección, luego aumenta la escala una vez que el sonido central funcione.
- La condicionamiento negativo está deshabilitado por diseño; habilita y ajusta una indicación negativa verdadera solo si necesitas exclusiones estrictas después de la exploración inicial.
Agradecimientos
Este workflow implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Comfy.org por el workflow de Audio ACE Step 1.5 XL Turbo, y a Comfy-Org por el modelo de difusión ACE-Step 1.5XL Turbo, ACE-Step 1.5 VAE, ACE-Step 1.5 codificador de texto 0.6B, y ACE-Step 1.5 codificador de texto 4B por sus contribuciones y mantenimiento. Para detalles autorizados, consulte la documentación original y los repositorios enlazados a continuación.
Recursos
- Comfy.org/Workflow de Audio ACE Step 1.5 XL Turbo
- Documentos / Notas de Lanzamiento: Página del workflow
- Comfy-Org/Modelo de difusión ACE-Step 1.5XL Turbo
- Hugging Face: acestep_v1.5_xl_turbo_bf16.safetensors
- Comfy-Org/ACE-Step 1.5 VAE
- Hugging Face: ace_1.5_vae.safetensors
- Comfy-Org/ACE-Step 1.5 codificador de texto 0.6B
- Hugging Face: qwen_0.6b_ace15.safetensors
- Comfy-Org/ACE-Step 1.5 codificador de texto 4B
- Hugging Face: qwen_4b_ace15.safetensors
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.
