Modelo de Generación de Música ACE-Step en ComfyUI

1. ¿Qué es el Flujo de Trabajo ComfyUI ACE-Step?

ComfyUI ACE-Step integra el modelo base de generación de música ACE-Step recién desarrollado en el entorno ComfyUI. Basado en una arquitectura híbrida que combina la generación basada en difusión con el Deep Compression AutoEncoder (DCAE) de Sana y un transformador lineal ligero, ACE-Step permite una generación de música ultrarrápida y de alta calidad con capacidades de control excepcionales. Este flujo de trabajo permite a los usuarios crear música original en diversos géneros y estilos con simples indicaciones de lenguaje natural y letras.

2. Beneficios de ComfyUI ACE-Step:

Velocidad sin precedentes: Sintetiza hasta 4 minutos de música en solo 20 segundos—15× más rápido que las alternativas basadas en LLM
Coherencia musical: ACE-Step mantiene una calidad superior en las dimensiones de melodía, armonía y ritmo
Soporte multilingüe: Genera música en 19 idiomas diferentes con un rendimiento excepcional en los 10 principales idiomas
Control avanzado: Permite clonación de voz, edición de letras, remix y generación de pistas con parámetros detallados
Flexibilidad creativa: Soporta diversos estilos, géneros e instrumentos musicales con varios formatos de descripción
Integración perfecta: Se conecta directamente a los flujos de trabajo de ComfyUI para la creación de audio impulsada por IA

3. Cómo Usar el Flujo de Trabajo ComfyUI ACE-Step

3.1 Métodos de Generación con ComfyUI ACE-Step

Configuración de Ejemplo para ACE-Step:

Preparar entradas: En el nodo TextEncodeAceStepAudio:
- Agregar etiquetas descriptivas para el estilo musical (e.g., "country rock, folk rock, southern rock, bluegrass, pop")
- Ingresar letras con etiquetas de estructura como [verse], [chorus], [bridge]
- Ajustar lyrics_strength (1.00 es el valor predeterminado)
Configurar parámetros del nodo KSampler:
- Ajustar pasos (50 recomendados para ACE-Step)
- Establecer cfg (4.0 es el valor predeterminado)
- Establecer valor de denoise (1.00 es el valor predeterminado)
En el nodo EmptyAceStepLatentAudio:
- Establecer duración deseada en segundos (30.0 es el valor predeterminado)
- Establecer batch_size
Hacer clic en el botón Run para ejecutar el flujo de trabajo ACE-Step
En el nodo SaveAudio: escuchar o guardar la música generada

Flujo de Trabajo Central de Generación ACE-Step

Mejor para: Crear música original a partir de descripciones de texto y letras
Características:
- Generación rápida (15× más rápida que las alternativas LLM)
- Fuerte coherencia y calidad musical
- Control flexible de duración

Flujos de Trabajo Especializados ACE-Step (basados en LoRA)

Lyric2Vocal: Modelo ACE-Step afinado para generar voces de alta calidad a partir de letras
Text2Samples: Variante especializada de ACE-Step para producir bucles instrumentales y muestras
RapMachine: Modelo ACE-Step optimizado para la generación de rap con varios estilos

3.2 Referencia de Parámetros para ComfyUI ACE-Step

Nodo TextEncodeAceStepAudio: Este nodo procesa entradas de texto para guiar la generación de música ACE-Step.

clip: Campo de texto para descripciones de estilo, géneros y estado de ánimo
lyrics: Campo de texto para letras de canciones con etiquetas de estructura opcionales
lyrics_strength: Controla cuán fuertemente las letras influyen en la generación (predeterminado: 1.00)

Nodo KSampler: Controla el proceso de muestreo de difusión en ACE-Step.

seed: Establece la semilla de aleatorización para resultados reproducibles
control_after_generate: Opciones para el comportamiento de la semilla después de la generación
steps: Número de pasos de difusión (mayor = más refinamiento)
cfg: Escala de guía libre de clasificador (mayor = más adherencia a la indicación)
sampler_name: Algoritmo usado para muestreo (res_multistep recomendado)
scheduler: Tipo de programación de ruido (simple recomendado)
denoise: Controla el nivel de eliminación de ruido (1.00 es desruido completo)

Nodo EmptyAceStepLatentAudio: Inicializa el espacio de generación de audio.

seconds: Duración del audio generado en segundos
batch_size: Número de muestras a generar simultáneamente

Nodo VAEDecodeAudio: Decodifica representaciones latentes en formato audible.

samples: Entrada desde KSampler
vae: Modelo VAE usado para decodificación

Nodo SaveAudio: Produce el resultado final de audio ACE-Step.

filename_prefix: Prefijo para archivos de audio guardados
audio: Reproductor para previsualizar el audio generado

3.3. Técnicas Avanzadas con ComfyUI ACE-Step

Generación de Variaciones:

Ajustar el parámetro de varianza para controlar la similitud con las generaciones originales de ACE-Step
Mayor varianza crea salidas más divergentes mientras preserva los elementos musicales centrales

Repintado:

Regenerar selectivamente secciones específicas de audio mientras se preserva el resto
Útil para corregir segmentos problemáticos sin cambiar toda la composición

Edición de Letras en ACE-Step:

Modificar letras mientras se mantiene la melodía, el timbre vocal y el acompañamiento
Soporta edición en múltiples idiomas preservando la estructura musical

Clonación de Voz:

Preserva las características vocales mientras genera nuevo contenido con ACE-Step
Se puede combinar con la edición de letras para actuaciones vocales flexibles

Transferencia de Estilo:

Aplicar nuevos estilos musicales a composiciones existentes
Mantiene la estructura musical central mientras adopta características de diferentes géneros

3.4. Consejos de Indicaciones para ACE-Step:

Para Música General:

Ser específico sobre el género, estado de ánimo e instrumentación en las indicaciones de ACE-Step
Ejemplos de indicaciones: "electronic, rock, pop" o "funk, pop, soul, melodic"
Indicaciones más detalladas: "dark, death rock, metal, hardcore, electric guitar, powerful, bass, drums, 110 bpm, G major"

Para Música Instrumental:

Especificar instrumentos y características musicales
Ejemplos de indicaciones: "saxophone, jazz" o "violin, solo, fast tempo"
Indicaciones más detalladas: "sonata, piano, Violin, B Flat Major, allegro"

Para Soporte Multilingüe:

ACE-Step funciona mejor con: English, Chinese, Russian, Spanish, Japanese, German, French, Portuguese, Italian, Korean
Los idiomas con escrituras no latinas como Chinese, Japanese y Korean están bien soportados

Más Información sobre ACE-Step

Para detalles adicionales y referencias de desarrollo:

Modelo original ACE-Step por ACE Studio and StepFun
Desarrolladores del modelo: Junmin Gong, Sean Zhao, Sen Wang, Shengyuan Xu, y Joe Guo

Agradecimientos

Este flujo de trabajo está impulsado por ACE-Step, co-desarrollado por ACE Studio y StepFun. La integración ComfyUI ACE-Step permite una generación de música fluida dentro del entorno ComfyUI. Todo el crédito es para los autores originales por su trabajo innovador en ACE-Step.

Want More ComfyUI Workflows?

MMAudio | Video a Audio

MMAudio: Modelo avanzado de video a audio para la generación de audio de alta calidad.

Sonic | Animación de Retratos con Sincronización Labial

Sonic ofrece sincronización labial avanzada impulsada por audio para retratos con animación de alta calidad.

LatentSync| Modelo de Sincronización de Labios

Tecnología avanzada de sincronización de labios impulsada por audio.

Qwen Image Edit 2511 | Flujo de Trabajo de Edición de Imagen Inteligente

Edita tu imagen exactamente como le indicas—rápido y preciso.

Creador de Personajes Consistentes 3.0 | Consistencia Fácil, Cualquier Ángulo

Haz que los personajes se mantengan iguales, en cada ángulo, fuertes y perfectos.

AnimateDiff + ControlNet TimeStep KeyFrame | Animación de transformación

Establezca KeyFrames de tiempo de ControlNet, como el primer y último cuadro, para crear animaciones de transformación.

Wan 2.2 Video Restyle | Restilización del Primer Fotograma para Generación de Video Consistente y Cinematográfica

Cambia el primer fotograma, amigos, tu estilo hace que todo el video se vea increíble. Pura magia.

Z Image | Generador Fotorrealista Ultra-Rápido

Genera visuales ultra-claros rápidamente con un detalle en tiempo real inigualable.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

Generación de Música ACE-Step | Creación de Audio AI