Ace Step 1.5 no ComfyUI Workflow | Text-to-Music Diffusion

ComfyUI Ace Step 1.5 Workflow

Ace Step 1.5 in ComfyUI Workflow | Text-to-Music Diffusion

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Ace Step 1.5 Examples

Fluxo de trabalho texto-para-música Ace Step 1.5 para ComfyUI#

Este modelo transforma uma breve criativa e letras opcionais em um MP3 finalizado usando Ace Step 1.5. É projetado para músicos, produtores e criadores que desejam geração rápida de músicas de alta qualidade com estrutura coerente, vocais e controle estilístico a partir de texto. O fluxo de trabalho foca em um caminho direto de texto para música para que você possa ir da ideia ao áudio em uma única passagem.

O Ace Step 1.5 combina um módulo de planejamento com um transformador de difusão para oferecer continuidade musical de nível comercial, permanecendo leve o suficiente para hardware cotidiano. Neste gráfico ComfyUI, o Ace Step 1.5 aceita um prompt de estilo mais letras, planeja o arranjo, sintetiza uma representação de áudio latente, então decodifica e salva um arquivo pronto para compartilhar.

Modelos principais no fluxo de trabalho Comfyui Ace Step 1.5#

Ace Step 1.5 Turbo AIO checkpoint. O modelo base que mapeia texto e letras para música e lida com a síntese baseada em difusão no domínio do áudio. Disponível na Comfy-Org no Hugging Face como parte do conjunto de arquivos ComfyUI: Comfy-Org/ace_step_1.5_ComfyUI_files.
Codificador de texto Ace Step 1.5. Empacotado com o checkpoint e usado para converter seu prompt de prosa e letras opcionais em condicionamento para o gerador. Exposto no gráfico pelo nó TextEncodeAceStepAudio1.5.
Ace Step 1.5 audio VAE. Também empacotado no checkpoint e usado para decodificar o latente sintetizado em uma forma de onda no domínio do tempo para exportação.

Como usar o fluxo de trabalho Comfyui Ace Step 1.5#

Em um nível alto, você carrega o modelo Ace Step 1.5, escolhe a duração da música, descreve a música e cola as letras, então executa a amostragem para sintetizar e decodificar para MP3.

Passo 1 - Carregar Modelo#

Este grupo inicializa os ativos principais através de CheckpointLoaderSimple (#97). Selecionar o arquivo Ace Step 1.5 Turbo AIO carrega o modelo, seu codificador de texto e o VAE de áudio em um único passo. O nó ModelSamplingAuraFlow (#78) anexa uma configuração de amostrador compatível com Ace Step 1.5 para que o KSampler a jusante possa executar com o algoritmo pretendido. Uma vez configurado, o resto do fluxo de trabalho pode ser conduzido puramente pelo seu prompt e duração.

Passo 2 - Duração#

Aqui o controle Song Duration (#99) alimenta segundos para EmptyAceStep1.5LatentAudio (#98), que pré-aloca o comprimento latente alvo para a faixa. Configurar um comprimento mais curto é ótimo para ideação rápida e verificações de estilo, enquanto valores mais longos permitem que o Ace Step 1.5 planeje seções mais completas. A duração flui para frente para que o codificador e o amostrador concordem sobre quanto de estrutura gerar. Se você estender a música mais tarde, mantenha a mesma semente para preservar o clima e os motivos.

Passo 3 - Prompt#

Use TextEncodeAceStepAudio1.5 (#94) para descrever o estilo, humor, instrumentação e notas de produção, e opcionalmente colar letras. O Ace Step 1.5 lê isso para planejar melodia, harmonia, ritmo e fraseado vocal com seções coerentes. A linha seed (#102) torna os resultados repetíveis ou aleatórios conforme você preferir. Um ConditioningZeroOut (#47) envia um condicionamento negativo neutro para reduzir conflitos, o que geralmente é um bom padrão para saídas musicais. Se você quiser um prompt negativo mais estrito, substitua esse nó pelo seu próprio caminho de texto negativo.

`KSampler` (#3)#

Este nó realiza o processo de difusão real usando a conexão do modelo Ace Step 1.5 do ModelSamplingAuraFlow (#78), o condicionamento positivo do seu prompt, o condicionamento negativo neutro e o comprimento latente pré-alocado. Ele transforma ruído em um latente estruturado que reflete suas instruções de texto e letras. Para ideação rápida, você pode manter o tempo de execução conservador, depois aumentar a qualidade quando fixar um conceito. A mesma semente gera estrutura consistente em todas as tomadas para que você possa A/B as escolhas do amostrador.

`VAEDecodeAudio` (#18)#

Após a amostragem, este nó converte a representação de áudio latente de volta em uma forma de onda no domínio do tempo usando o VAE Ace Step 1.5. Preserva a forma musical planejada durante a codificação enquanto suaviza detalhes finos introduzidos durante a difusão. A saída é um sinal de áudio de banda completa pronto para exportação.

`SaveAudioMP3` (#104)#

Finalmente, a forma de onda é gravada em um arquivo MP3 em suas saídas padrão do ComfyUI. Escolha uma taxa de bits apropriada para seu alvo e renderize. Isso lhe dá um arquivo compacto e compartilhável enquanto mantém o latente original disponível para reexecuções se você ajustar prompts ou sementes.

Nós principais no fluxo de trabalho Comfyui Ace Step 1.5#

`TextEncodeAceStepAudio1.5` (#94)#

Transforma sua breve criativa e letras em condicionamento que o Ace Step 1.5 entende. Para controle, ajuste a linguagem, a tonalidade musical e o tempo para direcionar o fraseado e a harmonia, e defina a estrutura da seção quando você quiser mais ou menos mudanças de forma. Use notas de produção descritivas como gênero, humor e dicas de mixagem para ancorar o estilo. Mantenha as letras concisas e métricas para um fraseado vocal mais limpo.

`KSampler` (#3)#

Dirige o processo de difusão que transforma o planejamento em latentes de áudio. Aumente os passos para mais detalhes e estabilidade, ou reduza-os para pré-visualizações muito rápidas. Experimente métodos de amostragem alternativos se você quiser um comportamento transitório diferente, então mantenha a semente fixa para fazer comparações justas. Aumente a força de orientação para maior aderência ao seu prompt Ace Step 1.5, reduza para uma improvisação mais livre.

`EmptyAceStep1.5LatentAudio` (#98)#

Aloca o comprimento da música alvo como um tensor latente para que cada estágio a jusante trabalhe na mesma duração. Defina isso para o número de segundos que você deseja no render final. Latentes mais longos requerem mais computação e podem se beneficiar de configurações de qualidade ligeiramente mais altas no amostrador.

`ModelSamplingAuraFlow` (#78)#

Anexa uma estratégia de amostragem compatível com Ace Step 1.5 que equilibra velocidade e coerência musical. Use quando você quiser iterações responsivas que ainda mantêm a estrutura global intacta. Se você experimentar com diferentes famílias de amostradores, use a mesma semente para avaliar como o tempo e os transientes mudam.

`SaveAudioMP3` (#104)#

Exporta a forma de onda decodificada para um arquivo comprimido. Selecione a taxa de bits para equilibrar o tamanho e a fidelidade para seu destino de lançamento ou compartilhamento. Para arquivamento ou mixagem, você pode trocar isso por um nó de salvamento WAV na mesma posição.

`ConditioningZeroOut` (#47)#

Fornece um condicionamento negativo neutro, que é um padrão seguro para geração de música dirigida por letras. Substitua por um prompt negativo personalizado se precisar de exclusões explícitas, como sem vocais ou menos artefatos de alta frequência. Mantenha as instruções positivas e negativas conceitualmente distintas para evitar conflitos.

Extras opcionais#

Comece com 30–60 segundos para validar o estilo, depois estenda a duração para completar a faixa enquanto mantém a semente fixa.
Para instrumentais com Ace Step 1.5, diga isso explicitamente no prompt ou coloque "sem vocais" em um caminho de prompt negativo.
Trate as letras como linhas cantáveis com fraseado natural e contagens de sílabas consistentes para melhorar os resultados vocais.
Salve sementes promissoras junto com os prompts para que você possa revisitar e ampliar mais tarde sem perder a identidade da música.

Referências úteis: o projeto ComfyUI no GitHub para informações gerais de uso ComfyUI e os arquivos Ace Step 1.5 ComfyUI no Hugging Face para o checkpoint e ativos Comfy-Org/ace_step_1.5_ComfyUI_files.

Agradecimentos#

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos sinceramente à Comfy.org pelo fluxo de trabalho Ace Step 1.5 por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos#

Comfy.org/Ace Step 1.5 Workflow Source
- Documentação / Notas de Lançamento: Ace Step 1.5 está agora disponível no ComfyUI

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Geração de Música ACE-Step | Criação de Áudio com IA

Gere música de qualidade de estúdio 15× mais rápido com tecnologia de difusão revolucionária.

MMAudio | Vídeo para Áudio

MMAudio: Modelo avançado de vídeo para áudio para geração de áudio de alta qualidade.

Wan 2.1 | Geração de Vídeo Revolucionária

Crie vídeos incríveis a partir de texto ou imagens com IA revolucionária rodando em CPUs comuns.

Wan 2.1 LoRA

Melhore a geração de vídeo Wan 2.1 com modelos LoRA para estilo e personalização aprimorados.

Face to Many | 3D, Emoji, Pixel, Clay, Toy, Video game

utiliza modelos LoRA, ControlNet e InstantID para transformações avançadas de rosto para muitos

LTX 2.3 Director | Criador de Vídeos Cinematográficos com IA

Transforme prompts em vídeos cinematográficos completos com controle de timeline.

ComfyUI Vid2Vid Dance Transfer

Transfere o movimento e o estilo de um vídeo fonte para uma imagem ou objeto alvo.

Insira Qualquer Coisa | Edição de Imagem Baseada em Referência

Insira qualquer assunto em imagens com orientação de máscara ou texto.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

Ace Step 1.5 | Gerador de Música AI de Nível Comercial

ComfyUI Ace Step 1.5 Workflow

ComfyUI Ace Step 1.5 Examples

Fluxo de trabalho texto-para-música Ace Step 1.5 para ComfyUI#

Modelos principais no fluxo de trabalho Comfyui Ace Step 1.5#

Como usar o fluxo de trabalho Comfyui Ace Step 1.5#

Passo 1 - Carregar Modelo#

Passo 2 - Duração#

Passo 3 - Prompt#

KSampler (#3)#

VAEDecodeAudio (#18)#

SaveAudioMP3 (#104)#

Nós principais no fluxo de trabalho Comfyui Ace Step 1.5#

TextEncodeAceStepAudio1.5 (#94)#

KSampler (#3)#

EmptyAceStep1.5LatentAudio (#98)#

ModelSamplingAuraFlow (#78)#

SaveAudioMP3 (#104)#

ConditioningZeroOut (#47)#

Extras opcionais#

Agradecimentos#

Recursos#

Want More ComfyUI Workflows?

Geração de Música ACE-Step | Criação de Áudio com IA

MMAudio | Vídeo para Áudio

Wan 2.1 | Geração de Vídeo Revolucionária

Wan 2.1 LoRA

Face to Many | 3D, Emoji, Pixel, Clay, Toy, Video game

LTX 2.3 Director | Criador de Vídeos Cinematográficos com IA

ComfyUI Vid2Vid Dance Transfer

Insira Qualquer Coisa | Edição de Imagem Baseada em Referência

`KSampler` (#3)#

`VAEDecodeAudio` (#18)#

`SaveAudioMP3` (#104)#

`TextEncodeAceStepAudio1.5` (#94)#

`KSampler` (#3)#

`EmptyAceStep1.5LatentAudio` (#98)#

`ModelSamplingAuraFlow` (#78)#

`SaveAudioMP3` (#104)#

`ConditioningZeroOut` (#47)#