ComfyUI>Fluxos de Trabalho>ACE-Step 1.5XL Base texto para música | Gerador de Som AI

ACE-Step 1.5XL Base texto para música | Gerador de Som AI

Workflow Name: RunComfy/ACE-Step-1.5XL-Base-text-to-music
Workflow ID: 0000...1396
Este fluxo de trabalho permite criar composições musicais complexas a partir de prompts de texto usando uma configuração de difusão integrada. Construído no modelo ACE-Step 1.5XL Base, combina codificadores VAE e Qwen avançados para criação de áudio nítida e estruturada. Você pode produzir música utilizável e de alta qualidade sem edição ou pós-processamento. Foca inteiramente na geração de música em vez de fala ou TTS. Ideal para designers, criadores e engenheiros de som que buscam resultados de áudio personalizados orientados por texto.

ComfyUI ACE-Step 1.5XL Base text to music Workflow

ACE-Step 1.5XL Base text to music in ComfyUI | AI Audio Workflow
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI ACE-Step 1.5XL Base text to music Examples

ACE-Step 1.5XL Base texto para música: Fluxo de trabalho de prompt para música para ComfyUI#

Este fluxo de trabalho transforma descrições em linguagem natural em áudio finalizado usando a família de difusão ACE-Step 1.5XL Base. Ele combina o modelo base com seu ACE Step VAE e codificadores de texto Qwen duplos para manter os resultados firmemente no campo musical em vez de TTS ou fala. Se você deseja música AI orientada por prompt com estrutura, tempos e instrumentação previsíveis, este pipeline ACE-Step 1.5XL Base texto para música é uma configuração focada e mínima que leva você da ideia ao MP3 rapidamente.

Projetado para produtores, designers de som e criadores, o gráfico enfatiza a clareza: escolha modelos, defina uma duração, escreva um prompt musical, depois gere e salve. O fluxo de trabalho ACE-Step 1.5XL Base texto para música é compacto o suficiente para iteração rápida enquanto permanece expressivo para arranjos detalhados, tons e tempos.

Modelos principais no fluxo de trabalho Comfyui ACE-Step 1.5XL Base texto para música#

  • ACE-Step 1.5 XL Base (bf16) modelo de difusão. A espinha dorsal generativa que elimina ruídos de latentes de áudio em frases e texturas musicais coerentes. Model file
  • ACE Step 1.5 VAE. O autoencoder variacional emparelhado que codifica/decodifica entre espaço latente e domínio de forma de onda, preservando timbre e balanços de mixagem. Model file
  • Qwen 4B ACE15 codificador de texto. Um grande codificador de texto adaptado para ACE que captura semânticas musicais ricas, estrutura e pistas de arranjo do prompt. Model file
  • Qwen 0.6B ACE15 codificador de texto. Um codificador ACE adaptado mais leve que prioriza velocidade e eficiência de recursos enquanto mantém forte compreensão do prompt. Model file

Como usar o fluxo de trabalho Comfyui ACE-Step 1.5XL Base texto para música#

O gráfico está organizado em três grupos que fluem para geração e exportação: Modelo, Duração e Prompt. Você carrega os modelos, escolhe um comprimento alvo, descreve a música, então o sampler cria latentes que o VAE decodifica em áudio.

Modelo#

Este grupo carrega os ativos principais. UNETLoader (#104) seleciona o ponto de verificação de difusão ACE-Step 1.5 XL Base, e VAELoader (#106) carrega o ACE Step 1.5 VAE correspondente para que a qualidade de decodificação esteja alinhada com o treinamento. DualCLIPLoader (#105) traz ambos os codificadores Qwen ACE15; o fluxo de trabalho os usa em conjunto para que prompts de texto ricos se traduzam em condicionamento musical forte.

Duração#

Aqui você decide a duração da peça. Song Duration (#99) define o comprimento alvo em segundos e o encaminha para que a tela latente e o condicionamento de texto concordem. PrimitiveInt (#109) fornece uma semente, permitindo que você bloqueie resultados exatos para reprodutibilidade ou varie para explorar alternativas.

Prompt#

Aqui a linguagem se torna música. Escreva sua descrição em TextEncodeAceStepAudio1.5 (#94), incluindo metadados musicais úteis como tempo (BPM), compasso, tonalidade, instrumentação, arranjo, presença vocal e notas de mixagem. O nó emite o condicionamento positivo; ConditioningZeroOut (#47) fornece um caminho negativo neutro para que a geração se concentre em sua descrição. EmptyAceStep1.5LatentAudio (#98) inicializa uma linha do tempo de áudio latente para a duração escolhida. ModelSamplingAuraFlow (#78) adapta o modelo base a um agendador adequado para áudio ACE-Step. KSampler (#3) combina modelo, condicionamento, latente e semente para gerar o latente da música. VAEDecodeAudio (#18) converte o latente de volta para forma de onda, e SaveAudioMP3 (#107) grava o resultado em um arquivo MP3 pronto para compartilhar.

Nós principais no fluxo de trabalho Comfyui ACE-Step 1.5XL Base texto para música#

TextEncodeAceStepAudio1.5 (#94)#

Transforma seu prompt em condicionamento que o modelo de difusão pode seguir. Aceita detalhes musicais como tempo, assinatura de tempo, tonalidade, notas de arranjo, instrumentação, idioma e intenção vocal opcional. Para melhores resultados, seja concreto sobre gênero, sensação e colocação na mixagem, e mantenha pistas estruturais concisas para que o modelo possa manter a coerência ao longo da duração solicitada.

EmptyAceStep1.5LatentAudio (#98)#

Cria a “tela” de áudio latente para a peça. Combine seus segundos com o que você definiu em Song Duration (#99) e referenciado no codificador de texto para evitar truncamento ou preenchimento indesejado. Telas mais longas convidam a um desenvolvimento mais gradual, enquanto as mais curtas são adequadas para loops, pistas e stingers.

ModelSamplingAuraFlow (#78)#

Configura a estratégia de amostragem adaptada para áudio ACE-Step. Use como fornecido para resultados estáveis; ajuste apenas se tiver uma preferência específica de agendador, pois ele interage com a contagem de etapas e orientação em KSampler (#3).

KSampler (#3)#

Realiza a remoção de ruído que transforma o condicionamento em latentes de áudio. As alavancas principais aqui são o tipo de sampler, contagem de etapas e semente. Aumente as etapas para refinar detalhes ao custo de tempo, e mantenha a semente fixa ao comparar prompts para que você possa atribuir mudanças ao texto em vez de aleatoriedade.

DualCLIPLoader (#105)#

Carrega ambos os codificadores de texto Qwen ACE15. Se você tem acesso a ambos, comece com o codificador 4B ativo para uma compreensão mais rica da linguagem; mude para a variante 0.6B quando precisar de iterações mais rápidas ou menor uso de memória. Mantenha a escolha do codificador consistente entre tomadas ao avaliar edições sutis de prompts.

ConditioningZeroOut (#47)#

Fornece um caminho negativo neutro. Se você quiser suprimir artefatos específicos ou desviar de conteúdo falado, pode substituir isso por um nó de prompt negativo real; caso contrário, o negativo zerado mantém a geração de texto para música ACE-Step 1.5XL Base focada em sua descrição positiva.

Extras opcionais#

  • Comece prompts com uma receita compacta: gênero + humor + tempo + compasso + tonalidade + instrumentação + arranjo + notas de mixagem.
  • Use verbos e papéis musicais explícitos (lead, pad, bass, percussion) para que o modelo aloque espaço na mixagem e evite conteúdo semelhante a fala.
  • Fixe a semente ao testar prompts A/B, depois varie a semente para explorar performances alternativas de uma ideia vencedora.
  • Mantenha a duração alinhada entre Song Duration (#99), TextEncodeAceStepAudio1.5 (#94) e EmptyAceStep1.5LatentAudio (#98) para fraseado previsível.
  • Escolha Qwen 4B para compreensão de prompt mais rica ou 0.6B para velocidade; mantenha sua escolha constante enquanto itera para tornar as comparações justas.

Agradecimentos#

Este fluxo de trabalho implementa e constrói sobre os seguintes trabalhos e recursos. Agradecemos imensamente à Comfy.org pelo fluxo de trabalho audio_ace_step1_5_xl_base, à Comfy-Org pelo modelo de difusão ACE Step 1.5 XL Base e ACE Step 1.5 VAE, e à equipe Qwen pelos codificadores de texto 0.6B e 4B ACE15 por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos#

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

RunComfy
Copyright 2026 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.