logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Flujos de trabajo>Generación de Música ACE-Step | Creación de Audio AI

Generación de Música ACE-Step | Creación de Audio AI

Workflow Name: RunComfy/ACE-Step-Music
Workflow ID: 0000...1224
ACE-Step es un modelo base de código abierto revolucionario para la generación de música que cierra la brecha entre la velocidad de generación y la calidad musical. Al integrar la generación basada en difusión con el Deep Compression AutoEncoder de Sana y un transformador lineal ligero, sintetiza hasta 4 minutos de música de alta calidad en solo 20 segundos—15× más rápido que las alternativas basadas en LLM. El modelo sobresale en mantener la coherencia musical mientras ofrece control avanzado sobre letras, clonación de voz y capacidades de remix.

1. ¿Qué es el Flujo de Trabajo ComfyUI ACE-Step?

ComfyUI ACE-Step integra el modelo base de generación de música ACE-Step recién desarrollado en el entorno ComfyUI. Basado en una arquitectura híbrida que combina la generación basada en difusión con el Deep Compression AutoEncoder (DCAE) de Sana y un transformador lineal ligero, ACE-Step permite una generación de música ultrarrápida y de alta calidad con capacidades de control excepcionales. Este flujo de trabajo permite a los usuarios crear música original en diversos géneros y estilos con simples indicaciones de lenguaje natural y letras.

2. Beneficios de ComfyUI ACE-Step:

  • Velocidad sin precedentes: Sintetiza hasta 4 minutos de música en solo 20 segundos—15× más rápido que las alternativas basadas en LLM
  • Coherencia musical: ACE-Step mantiene una calidad superior en las dimensiones de melodía, armonía y ritmo
  • Soporte multilingüe: Genera música en 19 idiomas diferentes con un rendimiento excepcional en los 10 principales idiomas
  • Control avanzado: Permite clonación de voz, edición de letras, remix y generación de pistas con parámetros detallados
  • Flexibilidad creativa: Soporta diversos estilos, géneros e instrumentos musicales con varios formatos de descripción
  • Integración perfecta: Se conecta directamente a los flujos de trabajo de ComfyUI para la creación de audio impulsada por IA

3. Cómo Usar el Flujo de Trabajo ComfyUI ACE-Step

3.1 Métodos de Generación con ComfyUI ACE-Step

Configuración de Ejemplo para ACE-Step:

  1. Preparar entradas: En el nodo TextEncodeAceStepAudio:
    • Agregar etiquetas descriptivas para el estilo musical (e.g., "country rock, folk rock, southern rock, bluegrass, pop")
    • Ingresar letras con etiquetas de estructura como [verse], [chorus], [bridge]
    • Ajustar lyrics_strength (1.00 es el valor predeterminado)
  2. Configurar parámetros del nodo KSampler:
    • Ajustar pasos (50 recomendados para ACE-Step)
    • Establecer cfg (4.0 es el valor predeterminado)
    • Establecer valor de denoise (1.00 es el valor predeterminado)
  3. En el nodo EmptyAceStepLatentAudio:
    • Establecer duración deseada en segundos (30.0 es el valor predeterminado)
    • Establecer batch_size
  4. Hacer clic en el botón Run para ejecutar el flujo de trabajo ACE-Step
  5. En el nodo SaveAudio: escuchar o guardar la música generada
Flujo de Trabajo Central de Generación ACE-Step
  • Mejor para: Crear música original a partir de descripciones de texto y letras
  • Características:
    • Generación rápida (15× más rápida que las alternativas LLM)
    • Fuerte coherencia y calidad musical
    • Control flexible de duración
Flujos de Trabajo Especializados ACE-Step (basados en LoRA)
  • Lyric2Vocal: Modelo ACE-Step afinado para generar voces de alta calidad a partir de letras
  • Text2Samples: Variante especializada de ACE-Step para producir bucles instrumentales y muestras
  • RapMachine: Modelo ACE-Step optimizado para la generación de rap con varios estilos

3.2 Referencia de Parámetros para ComfyUI ACE-Step

Nodo TextEncodeAceStepAudio: Este nodo procesa entradas de texto para guiar la generación de música ACE-Step.

  • clip: Campo de texto para descripciones de estilo, géneros y estado de ánimo
  • lyrics: Campo de texto para letras de canciones con etiquetas de estructura opcionales
  • lyrics_strength: Controla cuán fuertemente las letras influyen en la generación (predeterminado: 1.00)

Nodo KSampler: Controla el proceso de muestreo de difusión en ACE-Step.

  • seed: Establece la semilla de aleatorización para resultados reproducibles
  • control_after_generate: Opciones para el comportamiento de la semilla después de la generación
  • steps: Número de pasos de difusión (mayor = más refinamiento)
  • cfg: Escala de guía libre de clasificador (mayor = más adherencia a la indicación)
  • sampler_name: Algoritmo usado para muestreo (res_multistep recomendado)
  • scheduler: Tipo de programación de ruido (simple recomendado)
  • denoise: Controla el nivel de eliminación de ruido (1.00 es desruido completo)

Nodo EmptyAceStepLatentAudio: Inicializa el espacio de generación de audio.

  • seconds: Duración del audio generado en segundos
  • batch_size: Número de muestras a generar simultáneamente

Nodo VAEDecodeAudio: Decodifica representaciones latentes en formato audible.

  • samples: Entrada desde KSampler
  • vae: Modelo VAE usado para decodificación

Nodo SaveAudio: Produce el resultado final de audio ACE-Step.

  • filename_prefix: Prefijo para archivos de audio guardados
  • audio: Reproductor para previsualizar el audio generado

3.3. Técnicas Avanzadas con ComfyUI ACE-Step

Generación de Variaciones:

  • Ajustar el parámetro de varianza para controlar la similitud con las generaciones originales de ACE-Step
  • Mayor varianza crea salidas más divergentes mientras preserva los elementos musicales centrales

Repintado:

  • Regenerar selectivamente secciones específicas de audio mientras se preserva el resto
  • Útil para corregir segmentos problemáticos sin cambiar toda la composición

Edición de Letras en ACE-Step:

  • Modificar letras mientras se mantiene la melodía, el timbre vocal y el acompañamiento
  • Soporta edición en múltiples idiomas preservando la estructura musical

Clonación de Voz:

  • Preserva las características vocales mientras genera nuevo contenido con ACE-Step
  • Se puede combinar con la edición de letras para actuaciones vocales flexibles

Transferencia de Estilo:

  • Aplicar nuevos estilos musicales a composiciones existentes
  • Mantiene la estructura musical central mientras adopta características de diferentes géneros

3.4. Consejos de Indicaciones para ACE-Step:

Para Música General:

  • Ser específico sobre el género, estado de ánimo e instrumentación en las indicaciones de ACE-Step
  • Ejemplos de indicaciones: "electronic, rock, pop" o "funk, pop, soul, melodic"
  • Indicaciones más detalladas: "dark, death rock, metal, hardcore, electric guitar, powerful, bass, drums, 110 bpm, G major"

Para Música Instrumental:

  • Especificar instrumentos y características musicales
  • Ejemplos de indicaciones: "saxophone, jazz" o "violin, solo, fast tempo"
  • Indicaciones más detalladas: "sonata, piano, Violin, B Flat Major, allegro"

Para Soporte Multilingüe:

  • ACE-Step funciona mejor con: English, Chinese, Russian, Spanish, Japanese, German, French, Portuguese, Italian, Korean
  • Los idiomas con escrituras no latinas como Chinese, Japanese y Korean están bien soportados

Más Información sobre ACE-Step

Para detalles adicionales y referencias de desarrollo:

  • Modelo original ACE-Step por ACE Studio and StepFun
  • Desarrolladores del modelo: Junmin Gong, Sean Zhao, Sen Wang, Shengyuan Xu, y Joe Guo

Agradecimientos

Este flujo de trabajo está impulsado por ACE-Step, co-desarrollado por ACE Studio y StepFun. La integración ComfyUI ACE-Step permite una generación de música fluida dentro del entorno ComfyUI. Todo el crédito es para los autores originales por su trabajo innovador en ACE-Step.

Want More ComfyUI Workflows?

MMAudio | Video a Audio

MMAudio: Modelo avanzado de video a audio para la generación de audio de alta calidad.

Sonic | Animación de Retratos con Sincronización Labial

Sonic ofrece sincronización labial avanzada impulsada por audio para retratos con animación de alta calidad.

LatentSync| Modelo de Sincronización de Labios

Tecnología avanzada de sincronización de labios impulsada por audio.

Stable Diffusion 3.5

Stable Diffusion 3.5

Stable Diffusion 3.5 (SD3.5) para generación de imágenes de alta calidad y diversidad.

LivePortrait | Animar Retratos | Img2Vid

Anima retratos con expresiones faciales y movimiento usando una sola imagen y un video de referencia.

Hunyuan Video | Texto a Video

Genera videos a partir de indicaciones de texto.

SUPIR + Foolhardy Remacri | Mejorador de Imágenes/Videos a 8K

SUPIR + Foolhardy Remacri | Mejorador de Imágenes/Videos a 8K

Mejore las imágenes a 8K con el modelo SUPIR y 4x Foolhardy Remacri.

Flux Fill | Relleno Interior y Exterior

Herramientas Oficiales Flux - Flux Fill para Relleno Interior y Exterior

Síguenos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Soporte
  • Discord
  • Correo electrónico
  • Estado del sistema
  • afiliado
Recursos
  • ComfyUI en línea gratis
  • Guías de ComfyUI
  • RunComfy API
  • Tutoriales de ComfyUI
  • Nodos de ComfyUI
  • Aprende más
Legal
  • Términos de servicio
  • Política de privacidad
  • Política de cookies
RunComfy
Derechos de autor 2025 RunComfy. Todos los derechos reservados.

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.