Ace Step 1.5 en el Flujo de Trabajo de ComfyUI | Difusión de Texto a Música

Flujo de trabajo de texto a música Ace Step 1.5 para ComfyUI

Esta plantilla convierte un breve resumen creativo y letras opcionales en un MP3 terminado usando Ace Step 1.5. Está diseñado para músicos, productores y creadores que desean una generación de canciones rápida y de alta calidad con estructura coherente, voces y control estilístico desde el texto. El flujo de trabajo se centra en un camino directo de texto a música para que puedas pasar de la idea al audio en una sola pasada.

Ace Step 1.5 empareja un módulo de planificación con un transformador de difusión para ofrecer continuidad musical de calidad comercial mientras permanece lo suficientemente liviano para hardware cotidiano. En este gráfico de ComfyUI, Ace Step 1.5 acepta un estilo de indicación más letras, planifica el arreglo, sintetiza una representación de audio latente, luego decodifica y guarda un archivo listo para compartir.

Modelos clave en el flujo de trabajo ComfyUI Ace Step 1.5

Punto de control Ace Step 1.5 Turbo AIO. El modelo base que mapea texto y letras a música y maneja la síntesis basada en difusión en el dominio de audio. Disponible desde Comfy‑Org en Hugging Face como parte del conjunto de archivos ComfyUI: Comfy-Org/ace_step_1.5_ComfyUI_files.
Codificador de texto Ace Step 1.5. Empaquetado con el punto de control y utilizado para convertir tu indicación de prosa y letras opcionales en condicionamiento para el generador. Expuesto en el gráfico por el nodo TextEncodeAceStepAudio1.5.
VAE de audio Ace Step 1.5. También empaquetado en el punto de control y utilizado para decodificar el latente sintetizado en una forma de onda del dominio temporal para exportación.

Cómo usar el flujo de trabajo Comfyui Ace Step 1.5

A un nivel alto, cargas el modelo Ace Step 1.5, eliges la duración de la canción, describes la música y pegas las letras, luego ejecutas el muestreo para sintetizar y decodificar a MP3.

Paso 1 - Cargar Modelo

Este grupo inicializa los activos principales a través de CheckpointLoaderSimple (#97). Seleccionar el archivo Ace Step 1.5 Turbo AIO carga el modelo, su codificador de texto y el VAE de audio en un solo paso. El nodo ModelSamplingAuraFlow (#78) adjunta una configuración de muestreador compatible con Ace Step 1.5 para que el KSampler aguas abajo pueda ejecutarse con el algoritmo previsto. Una vez configurado, el resto del flujo de trabajo puede ser impulsado puramente por tu indicación y duración.

Paso 2 - Duración

Aquí el control Song Duration (#99) alimenta segundos a EmptyAceStep1.5LatentAudio (#98), que preasigna la longitud latente objetivo para la pista. Establecer una longitud más corta es excelente para la ideación rápida y las verificaciones de estilo, mientras que valores más largos permiten a Ace Step 1.5 planificar secciones más completas. La duración fluye hacia adelante para que el codificador y el muestreador estén de acuerdo sobre cuánto estructura generar. Si más tarde extiendes la canción, mantén la misma semilla para preservar el ambiente y los motivos.

Paso 3 - Indicación

Usa TextEncodeAceStepAudio1.5 (#94) para describir el estilo, el estado de ánimo, la instrumentación y las notas de producción, y opcionalmente pegar letras. Ace Step 1.5 lee esto para planificar melodía, armonía, ritmo y fraseo vocal con secciones coherentes. La línea seed (#102) hace que los resultados sean repetibles o aleatorios según prefieras. Un ConditioningZeroOut (#47) envía un condicionamiento negativo neutral para reducir conflictos, lo cual es a menudo un buen valor predeterminado para salidas musicales. Si deseas una indicación negativa más estricta, reemplaza ese nodo con tu propio camino de texto negativo.

`KSampler` (#3)

Este nodo realiza el proceso de difusión real utilizando la conexión de modelo Ace Step 1.5 desde ModelSamplingAuraFlow (#78), el condicionamiento positivo de tu indicación, el condicionamiento negativo neutral y la longitud latente preasignada. Transforma el ruido en un latente estructurado que refleja tus instrucciones de texto y letras. Para una ideación rápida, puedes mantener el tiempo de ejecución conservador, luego escalar la calidad cuando bloquees un concepto. La misma semilla produce una estructura consistente a través de tomas para que puedas elegir entre opciones de muestreador.

`VAEDecodeAudio` (#18)

Después del muestreo, este nodo convierte la representación de audio latente de nuevo en una forma de onda del dominio temporal usando el VAE Ace Step 1.5. Preserva la forma musical planificada durante la codificación mientras suaviza detalles finos introducidos durante la difusión. La salida es una señal de audio de banda completa lista para exportar.

`SaveAudioMP3` (#104)

Finalmente, la forma de onda se escribe en un archivo MP3 en tus salidas estándar de ComfyUI. Elige una tasa de bits apropiada para tu objetivo y renderiza. Esto te da un archivo compacto y compartible mientras mantiene el latente original disponible para reejecuciones si ajustas indicaciones o semillas.

Nodos clave en el flujo de trabajo Comfyui Ace Step 1.5

`TextEncodeAceStepAudio1.5` (#94)

Transforma tu resumen creativo y letras en condicionamiento que Ace Step 1.5 entiende. Para control, ajusta el lenguaje, la clave musical y el tempo para dirigir el fraseo y la armonía, y establece la estructura de la sección cuando quieras más o menos cambios de forma. Usa notas de producción descriptivas como género, estado de ánimo y señales de mezcla para anclar el estilo. Mantén las letras concisas y métricas para un fraseo vocal más limpio.

`KSampler` (#3)

Impulsa el proceso de difusión que convierte la planificación en latentes de audio. Aumenta los pasos para más detalle y estabilidad, o redúcelos para vistas previas muy rápidas. Prueba métodos de muestreo alternativos si deseas un comportamiento transitorio diferente, luego mantén la semilla fija para hacer comparaciones justas. Aumenta la fuerza de la guía para una mayor adherencia a tu indicación Ace Step 1.5, disminúyela para una improvisación más libre.

`EmptyAceStep1.5LatentAudio` (#98)

Asigna la longitud de la canción objetivo como un tensor latente para que cada etapa posterior funcione en la misma duración. Establece esto en el número de segundos que deseas en el render final. Latentes más largos requieren más cálculo y pueden beneficiarse de configuraciones de calidad ligeramente más altas en el muestreador.

`ModelSamplingAuraFlow` (#78)

Adjunta una estrategia de muestreo compatible con Ace Step 1.5 que equilibra velocidad y coherencia musical. Úsalo cuando desees iteraciones receptivas que aún mantengan la estructura global intacta. Si experimentas con diferentes familias de muestreadores, usa la misma semilla para evaluar cómo cambian el tiempo y los transitorios.

`SaveAudioMP3` (#104)

Exporta la forma de onda decodificada a un archivo comprimido. Selecciona la tasa de bits para equilibrar tamaño y fidelidad para tu destino de lanzamiento o compartición. Para archivo o mezcla, puedes intercambiar esto por un nodo de guardado WAV en la misma posición.

`ConditioningZeroOut` (#47)

Proporciona un condicionamiento negativo neutral, que es un valor predeterminado seguro para la generación de música impulsada por letras. Reemplázalo con una indicación negativa personalizada si necesitas exclusiones explícitas como sin voces o menos artefactos de alta frecuencia. Mantén las instrucciones positivas y negativas conceptualmente distintas para evitar conflictos.

Extras opcionales

Comienza con 30–60 segundos para validar el estilo, luego extiende la duración para completar la pista mientras mantienes la semilla fija.
Para instrumentales con Ace Step 1.5, dilo explícitamente en la indicación o pon "no vocals" en un camino de indicación negativa.
Trata las letras como líneas cantables con fraseo natural y conteos de sílabas consistentes para mejorar los resultados vocales.
Guarda semillas prometedoras junto con las indicaciones para que puedas volver a visitar y escalar más tarde sin perder la identidad de la canción.

Referencias útiles: el proyecto ComfyUI en GitHub para información general de uso ComfyUI y los archivos Ace Step 1.5 ComfyUI en Hugging Face para el punto de control y activos Comfy-Org/ace_step_1.5_ComfyUI_files.

Agradecimientos

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos sinceramente a Comfy.org por el flujo de trabajo Ace Step 1.5 por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y los repositorios enlazados a continuación.

Recursos

Comfy.org/Fuente del Flujo de Trabajo Ace Step 1.5
- Documentos / Notas de la Versión: Ace Step 1.5 ahora está disponible en ComfyUI

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Generación de Música ACE-Step | Creación de Audio AI

Genera música de calidad de estudio 15× más rápido con tecnología de difusión innovadora.

MMAudio | Video a Audio

MMAudio: Modelo avanzado de video a audio para la generación de audio de alta calidad.

Wan 2.1 | Generación de Video Revolucionaria

Crea videos increíbles a partir de texto o imágenes con IA revolucionaria ejecutándose en CPUs cotidianas.

Wan 2.1 LoRA

Mejora la generación de video Wan 2.1 con modelos LoRA para un estilo y personalización mejorados.

FLUX Img2Img | Fusionar Visuales e Indicaciones

Fusiona visuales e indicaciones para obtener resultados impresionantes y mejorados.

AnimateDiff + IPAdapter V1 | Imagen a Video

Con IPAdapter, puede controlar eficientemente la generación de animaciones utilizando imágenes de referencia.

Wan 2.2 Animate V2 | Generador de Video de Pose Realista

Transforma fotos en videos de personajes animados con movimiento suave utilizando Wan 2.2.

LivePortrait | Animar Retratos | Img2Vid

Anima retratos con expresiones faciales y movimiento usando una sola imagen y un video de referencia.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

Ace Step 1.5 | Generador de Música AI de Calidad Comercial

Flujo de trabajo de texto a música Ace Step 1.5 para ComfyUI

Modelos clave en el flujo de trabajo ComfyUI Ace Step 1.5

Cómo usar el flujo de trabajo Comfyui Ace Step 1.5

Paso 1 - Cargar Modelo

Paso 2 - Duración

Paso 3 - Indicación

KSampler (#3)

VAEDecodeAudio (#18)

SaveAudioMP3 (#104)

Nodos clave en el flujo de trabajo Comfyui Ace Step 1.5

TextEncodeAceStepAudio1.5 (#94)

KSampler (#3)

EmptyAceStep1.5LatentAudio (#98)

ModelSamplingAuraFlow (#78)

SaveAudioMP3 (#104)

ConditioningZeroOut (#47)

Extras opcionales

Agradecimientos

Recursos

Want More ComfyUI Workflows?

Generación de Música ACE-Step | Creación de Audio AI

MMAudio | Video a Audio

Wan 2.1 | Generación de Video Revolucionaria

Wan 2.1 LoRA

FLUX Img2Img | Fusionar Visuales e Indicaciones

AnimateDiff + IPAdapter V1 | Imagen a Video

Wan 2.2 Animate V2 | Generador de Video de Pose Realista

LivePortrait | Animar Retratos | Img2Vid

`KSampler` (#3)

`VAEDecodeAudio` (#18)

`SaveAudioMP3` (#104)

`TextEncodeAceStepAudio1.5` (#94)

`KSampler` (#3)

`EmptyAceStep1.5LatentAudio` (#98)

`ModelSamplingAuraFlow` (#78)

`SaveAudioMP3` (#104)

`ConditioningZeroOut` (#47)