Generación de Música ACE-Step | Creación de Audio AI
ACE-Step es un modelo base de código abierto revolucionario para la generación de música que cierra la brecha entre la velocidad de generación y la calidad musical. Al integrar la generación basada en difusión con el Deep Compression AutoEncoder de Sana y un transformador lineal ligero, sintetiza hasta 4 minutos de música de alta calidad en solo 20 segundos—15× más rápido que las alternativas basadas en LLM. El modelo sobresale en mantener la coherencia musical mientras ofrece control avanzado sobre letras, clonación de voz y capacidades de remix.ComfyUI ACE-Step Flujo de trabajo

- Flujos de trabajo completamente operativos
- Sin nodos ni modelos faltantes
- No se requiere configuración manual
- Presenta visuales impresionantes
ComfyUI ACE-Step Ejemplos
ComfyUI ACE-Step Descripción
1. ¿Qué es el Flujo de Trabajo ComfyUI ACE-Step?
ComfyUI ACE-Step integra el modelo base de generación de música ACE-Step recién desarrollado en el entorno ComfyUI. Basado en una arquitectura híbrida que combina la generación basada en difusión con el Deep Compression AutoEncoder (DCAE) de Sana y un transformador lineal ligero, ACE-Step permite una generación de música ultrarrápida y de alta calidad con capacidades de control excepcionales. Este flujo de trabajo permite a los usuarios crear música original en diversos géneros y estilos con simples indicaciones de lenguaje natural y letras.
2. Beneficios de ComfyUI ACE-Step:
- Velocidad sin precedentes: Sintetiza hasta 4 minutos de música en solo 20 segundos—15× más rápido que las alternativas basadas en LLM
- Coherencia musical: ACE-Step mantiene una calidad superior en las dimensiones de melodía, armonía y ritmo
- Soporte multilingüe: Genera música en 19 idiomas diferentes con un rendimiento excepcional en los 10 principales idiomas
- Control avanzado: Permite clonación de voz, edición de letras, remix y generación de pistas con parámetros detallados
- Flexibilidad creativa: Soporta diversos estilos, géneros e instrumentos musicales con varios formatos de descripción
- Integración perfecta: Se conecta directamente a los flujos de trabajo de ComfyUI para la creación de audio impulsada por IA
3. Cómo Usar el Flujo de Trabajo ComfyUI ACE-Step
3.1 Métodos de Generación con ComfyUI ACE-Step
Configuración de Ejemplo para ACE-Step:
- Preparar entradas:
En el nodo
TextEncodeAceStepAudio
:- Agregar etiquetas descriptivas para el estilo musical (e.g., "country rock, folk rock, southern rock, bluegrass, pop")
- Ingresar letras con etiquetas de estructura como [verse], [chorus], [bridge]
- Ajustar lyrics_strength (1.00 es el valor predeterminado)
- Configurar parámetros del nodo
KSampler
:- Ajustar pasos (50 recomendados para ACE-Step)
- Establecer cfg (4.0 es el valor predeterminado)
- Establecer valor de denoise (1.00 es el valor predeterminado)
- En el nodo
EmptyAceStepLatentAudio
:- Establecer duración deseada en segundos (30.0 es el valor predeterminado)
- Establecer batch_size
- Hacer clic en el botón
Run
para ejecutar el flujo de trabajo ACE-Step - En el nodo
SaveAudio
: escuchar o guardar la música generada
Flujo de Trabajo Central de Generación ACE-Step
- Mejor para: Crear música original a partir de descripciones de texto y letras
- Características:
- Generación rápida (15× más rápida que las alternativas LLM)
- Fuerte coherencia y calidad musical
- Control flexible de duración
Flujos de Trabajo Especializados ACE-Step (basados en LoRA)
- Lyric2Vocal: Modelo ACE-Step afinado para generar voces de alta calidad a partir de letras
- Text2Samples: Variante especializada de ACE-Step para producir bucles instrumentales y muestras
- RapMachine: Modelo ACE-Step optimizado para la generación de rap con varios estilos
3.2 Referencia de Parámetros para ComfyUI ACE-Step
Nodo TextEncodeAceStepAudio: Este nodo procesa entradas de texto para guiar la generación de música ACE-Step.
clip
: Campo de texto para descripciones de estilo, géneros y estado de ánimolyrics
: Campo de texto para letras de canciones con etiquetas de estructura opcionaleslyrics_strength
: Controla cuán fuertemente las letras influyen en la generación (predeterminado: 1.00)
Nodo KSampler: Controla el proceso de muestreo de difusión en ACE-Step.
seed
: Establece la semilla de aleatorización para resultados reproduciblescontrol_after_generate
: Opciones para el comportamiento de la semilla después de la generaciónsteps
: Número de pasos de difusión (mayor = más refinamiento)cfg
: Escala de guía libre de clasificador (mayor = más adherencia a la indicación)sampler_name
: Algoritmo usado para muestreo (res_multistep recomendado)scheduler
: Tipo de programación de ruido (simple recomendado)denoise
: Controla el nivel de eliminación de ruido (1.00 es desruido completo)
Nodo EmptyAceStepLatentAudio: Inicializa el espacio de generación de audio.
seconds
: Duración del audio generado en segundosbatch_size
: Número de muestras a generar simultáneamente
Nodo VAEDecodeAudio: Decodifica representaciones latentes en formato audible.
samples
: Entrada desde KSamplervae
: Modelo VAE usado para decodificación
Nodo SaveAudio: Produce el resultado final de audio ACE-Step.
filename_prefix
: Prefijo para archivos de audio guardadosaudio
: Reproductor para previsualizar el audio generado
3.3. Técnicas Avanzadas con ComfyUI ACE-Step
Generación de Variaciones:
- Ajustar el parámetro de varianza para controlar la similitud con las generaciones originales de ACE-Step
- Mayor varianza crea salidas más divergentes mientras preserva los elementos musicales centrales
Repintado:
- Regenerar selectivamente secciones específicas de audio mientras se preserva el resto
- Útil para corregir segmentos problemáticos sin cambiar toda la composición
Edición de Letras en ACE-Step:
- Modificar letras mientras se mantiene la melodía, el timbre vocal y el acompañamiento
- Soporta edición en múltiples idiomas preservando la estructura musical
Clonación de Voz:
- Preserva las características vocales mientras genera nuevo contenido con ACE-Step
- Se puede combinar con la edición de letras para actuaciones vocales flexibles
Transferencia de Estilo:
- Aplicar nuevos estilos musicales a composiciones existentes
- Mantiene la estructura musical central mientras adopta características de diferentes géneros
3.4. Consejos de Indicaciones para ACE-Step:
Para Música General:
- Ser específico sobre el género, estado de ánimo e instrumentación en las indicaciones de ACE-Step
- Ejemplos de indicaciones: "electronic, rock, pop" o "funk, pop, soul, melodic"
- Indicaciones más detalladas: "dark, death rock, metal, hardcore, electric guitar, powerful, bass, drums, 110 bpm, G major"
Para Música Instrumental:
- Especificar instrumentos y características musicales
- Ejemplos de indicaciones: "saxophone, jazz" o "violin, solo, fast tempo"
- Indicaciones más detalladas: "sonata, piano, Violin, B Flat Major, allegro"
Para Soporte Multilingüe:
- ACE-Step funciona mejor con: English, Chinese, Russian, Spanish, Japanese, German, French, Portuguese, Italian, Korean
- Los idiomas con escrituras no latinas como Chinese, Japanese y Korean están bien soportados
Más Información sobre ACE-Step
Para detalles adicionales y referencias de desarrollo:
- Modelo original ACE-Step por
- Desarrolladores del modelo: Junmin Gong, Sean Zhao, Sen Wang, Shengyuan Xu, y Joe Guo
Agradecimientos
Este flujo de trabajo está impulsado por ACE-Step, co-desarrollado por ACE Studio y StepFun. La integración ComfyUI ACE-Step permite una generación de música fluida dentro del entorno ComfyUI. Todo el crédito es para los autores originales por su trabajo innovador en ACE-Step.