logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>Flujos de trabajo>ACE-Step 1.5XL Base texto a música | Generador de Sonido AI

ACE-Step 1.5XL Base texto a música | Generador de Sonido AI

Workflow Name: RunComfy/ACE-Step-1.5XL-Base-text-to-music
Workflow ID: 0000...1396
Este flujo de trabajo te permite crear composiciones musicales complejas a partir de indicaciones de texto usando una configuración de difusión integrada. Construido sobre el modelo ACE-Step 1.5XL Base, combina codificadores avanzados VAE y Qwen para la creación de audio nítido y estructurado. Puedes producir música utilizable y de alta calidad sin edición ni postproducción. Se centra completamente en la generación de música en lugar de en el habla o TTS. Ideal para diseñadores, creadores e ingenieros de sonido que buscan resultados de audio personalizados impulsados por texto.

ACE-Step 1.5XL Base texto a música: Flujo de trabajo de indicación a canción para ComfyUI

Este flujo de trabajo convierte descripciones en lenguaje natural en audio terminado usando la familia de difusión ACE-Step 1.5XL Base. Empareja el modelo base con su VAE ACE Step y codificadores de texto duales Qwen para mantener los resultados firmemente en el ámbito musical en lugar de TTS o habla. Si deseas música AI impulsada por indicaciones con estructura, tempos e instrumentación predecibles, este pipeline de ACE-Step 1.5XL Base texto a música es una configuración mínima y enfocada que te lleva de la idea a MP3 rápidamente.

Diseñado para productores, diseñadores de sonido y creadores, el gráfico enfatiza la claridad: elige modelos, establece una duración, escribe una indicación musical, luego genera y guarda. El flujo de trabajo de ACE-Step 1.5XL Base texto a música es lo suficientemente compacto para iteraciones rápidas mientras se mantiene expresivo para arreglos detallados, claves y tempos.

Modelos clave en Comfyui ACE-Step 1.5XL Base texto a música flujo de trabajo

  • Modelo de difusión ACE-Step 1.5 XL Base (bf16). La columna vertebral generativa que desruida las latentes de audio en frases musicales coherentes y texturas. Archivo del modelo
  • ACE Step 1.5 VAE. El autoencoder variacional emparejado que codifica/decodifica entre el espacio latente y el dominio de la forma de onda, preservando el timbre y los balances de mezcla. Archivo del modelo
  • Codificador de texto Qwen 4B ACE15. Un gran codificador de texto adaptado para ACE que captura ricas semánticas musicales, estructura y señales de arreglo de la indicación. Archivo del modelo
  • Codificador de texto Qwen 0.6B ACE15. Un codificador adaptado a ACE más ligero que prioriza la velocidad y la eficiencia de recursos mientras retiene una fuerte comprensión de la indicación. Archivo del modelo

Cómo usar Comfyui ACE-Step 1.5XL Base texto a música flujo de trabajo

El gráfico está organizado en tres grupos que fluyen hacia la generación y exportación: Modelo, Duración e Indicación. Cargas los modelos, eliges una longitud objetivo, describes la música, luego el muestreador crea latentes que el VAE decodifica en audio.

Modelo

Este grupo carga los activos principales. UNETLoader (#104) selecciona el punto de control de difusión ACE-Step 1.5 XL Base, y VAELoader (#106) carga el VAE ACE Step 1.5 correspondiente para que la calidad de decodificación se alinee con el entrenamiento. DualCLIPLoader (#105) trae ambos codificadores Qwen ACE15; el flujo de trabajo los usa conjuntamente para que las indicaciones de texto ricas se traduzcan en un fuerte acondicionamiento musical.

Duración

Aquí decides cuánto debe durar la pieza. Song Duration (#99) establece la longitud objetivo en segundos y la transmite hacia adelante para que el lienzo latente y el acondicionamiento de texto estén de acuerdo. PrimitiveInt (#109) proporciona una semilla, permitiéndote fijar resultados exactos para reproducibilidad o variarla para explorar tomas alternativas.

Indicación

Aquí es donde el lenguaje se convierte en música. Escribe tu descripción en TextEncodeAceStepAudio1.5 (#94), incluyendo metadatos musicales útiles como tempo (BPM), métrica, clave, instrumentación, arreglo, presencia vocal y notas de mezcla. El nodo emite el acondicionamiento positivo; ConditioningZeroOut (#47) suministra un camino negativo neutral para que la generación se mantenga enfocada en tu descripción. EmptyAceStep1.5LatentAudio (#98) inicializa una línea de tiempo de audio latente para la duración elegida. ModelSamplingAuraFlow (#78) adapta el modelo base a un programador adecuado para el audio ACE-Step. KSampler (#3) combina modelo, acondicionamiento, latente y semilla para generar el latente musical. VAEDecodeAudio (#18) convierte el latente de nuevo a forma de onda, y SaveAudioMP3 (#107) escribe el resultado en un archivo MP3 listo para compartir.

Nodos clave en Comfyui ACE-Step 1.5XL Base texto a música flujo de trabajo

TextEncodeAceStepAudio1.5 (#94)

Convierte tu indicación en acondicionamiento que el modelo de difusión puede seguir. Acepta detalles musicales como tempo, firma de tiempo, clave, notas de arreglo, instrumentación, lenguaje e intención vocal opcional. Para obtener los mejores resultados, sé concreto sobre el género, la sensación y la ubicación en la mezcla, y mantén las señales estructurales concisas para que el modelo pueda mantener la coherencia durante la duración solicitada.

EmptyAceStep1.5LatentAudio (#98)

Crea la “lienzo” de audio latente para la pieza. Alinea sus segundos con lo que estableciste en Song Duration (#99) y referenciado en el codificador de texto para evitar truncamiento o relleno no deseado. Los lienzos más largos invitan a un desarrollo más gradual, mientras que los más cortos se adaptan a bucles, señales y jingles.

ModelSamplingAuraFlow (#78)

Configura la estrategia de muestreo adaptada al audio ACE-Step. Úsalo como se proporciona para resultados estables; ajusta solo si tienes una preferencia de programador específica, ya que interactúa con el conteo de pasos y la guía en KSampler (#3).

KSampler (#3)

Realiza la desruida que convierte el acondicionamiento en latentes de audio. Las palancas clave aquí son el tipo de muestreador, el conteo de pasos y la semilla. Aumenta los pasos para refinar los detalles a costa de tiempo, y mantén la semilla fija al comparar indicaciones para que puedas atribuir cambios al texto en lugar de al azar.

DualCLIPLoader (#105)

Carga ambos codificadores de texto Qwen ACE15. Si tienes acceso a ambos, comienza con el codificador 4B activo para una comprensión más rica del lenguaje; cambia al 0.6B cuando necesites iteraciones más rápidas o menor uso de memoria. Mantén la elección del codificador constante en las tomas al evaluar ediciones sutiles de la indicación.

ConditioningZeroOut (#47)

Proporciona un camino negativo neutral. Si deseas suprimir artefactos específicos o alejarte del contenido hablado, puedes reemplazar esto con un nodo de indicación negativa real; de lo contrario, el negativo anulado mantiene la generación de ACE-Step 1.5XL Base texto a música enfocada en tu descripción positiva.

Extras opcionales

  • Comienza las indicaciones con una receta compacta: género + estado de ánimo + tempo + métrica + clave + instrumentación + arreglo + notas de mezcla.
  • Usa verbos musicales explícitos y roles (líder, pad, bajo, percusión) para que el modelo asigne espacio en la mezcla y evite contenido similar al habla.
  • Fija la semilla al probar A/B indicaciones, luego varía la semilla para explorar actuaciones alternativas de una idea ganadora.
  • Mantén la duración alineada a través de Song Duration (#99), TextEncodeAceStepAudio1.5 (#94), y EmptyAceStep1.5LatentAudio (#98) para un fraseo predecible.
  • Elige Qwen 4B para una comprensión más rica de la indicación o 0.6B para velocidad; mantén tu elección constante mientras iteras para hacer comparaciones justas.

Agradecimientos

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Comfy.org por el flujo de trabajo audio_ace_step1_5_xl_base, Comfy-Org por el modelo de difusión ACE Step 1.5 XL Base y ACE Step 1.5 VAE, y al equipo de Qwen por los codificadores de texto 0.6B y 4B ACE15 por sus contribuciones y mantenimiento. Para obtener detalles autorizados, consulta la documentación original y los repositorios vinculados a continuación.

Recursos

  • Comfy.org/Página fuente del flujo de trabajo
    • Documentación / Notas de la versión: página del flujo de trabajo audio_ace_step1_5_xl_base
  • Comfy-Org/Modelo de difusión ACE Step 1.5 XL Base
    • Hugging Face: acestep_v1.5_xl_base_bf16.safetensors
  • Comfy-Org/ACE Step 1.5 VAE
    • Hugging Face: ace_1.5_vae.safetensors
  • Comfy-Org/Codificador de texto Qwen 0.6B ACE15
    • Hugging Face: qwen_0.6b_ace15.safetensors
  • Comfy-Org/Codificador de texto Qwen 4B ACE15
    • Hugging Face: qwen_4b_ace15.safetensors

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Generación de Música ACE-Step | Creación de Audio AI

Genera música de calidad de estudio 15× más rápido con tecnología de difusión innovadora.

Ace Step 1.5 | Generador de Música AI de Calidad Comercial

Convierte texto en canciones completas con planificación inteligente y poder de difusión.

Stable Audio Open 1.0 | Herramienta de Texto a Música

Convierte indicaciones de texto en música cinematográfica de manera fluida y rápida.

MMAudio | Video a Audio

MMAudio: Modelo avanzado de video a audio para la generación de audio de alta calidad.

Generación de Efectos de Sonido Woosh | Text2Audio + VideoSync

Convierte indicaciones y videos en efectos de audio sincronizados precisos.

Qwen Image Edit 2509 | Editor de Múltiples Imágenes

Convierte 2-3 imágenes en una obra maestra editada y sin costuras al instante.

Stable Diffusion 3.5 vs FLUX.1

Stable Diffusion 3.5 vs FLUX.1

Compara Stable Diffusion 3.5 y FLUX.1 en un flujo de trabajo de ComfyUI.

Hunyuan Video | Image-Prompt to Video

Convierte una imagen y un aviso de texto en un video dinámico.

Síguenos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Soporte
  • Discord
  • Correo electrónico
  • Estado del sistema
  • afiliado
Recursos
  • ComfyUI en línea gratis
  • Guías de ComfyUI
  • RunComfy API
  • Tutoriales de ComfyUI
  • Nodos de ComfyUI
  • Aprende más
Legal
  • Términos de servicio
  • Política de privacidad
  • Política de cookies
RunComfy
Derechos de autor 2026 RunComfy. Todos los derechos reservados.

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.