Stable Audio 3.0 Medium Base workflow no ComfyUI

ComfyUI Stable Audio 3.0 Medium Base workflow Workflow

Stable Audio 3.0 Medium Base workflow in ComfyUI | Text-to-Audio

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Stable Audio 3.0 Medium Base workflow Examples

Stable Audio 3.0 Medium Base workflow para texto-para-áudio de longa duração no ComfyUI#

Este workflow Stable Audio 3.0 Medium Base transforma ideias de texto curtas em áudio estéreo mais longo e musical. É construído em torno do checkpoint stable_audio_3_medium_base com os codificadores de texto T5-Gemma e Qwen3.5 para entregar esboços de música orientados por prompts, camas ambientes, SFX e one-shots com configurações reprodutíveis no ComfyUI.

O gráfico inclui um sistema opcional de reprompt consciente de categoria que pode expandir sua ideia breve em um prompt denso e pronto para produção antes da síntese. Você escolhe a categoria, duração e semente, então o pipeline condiciona o Stable Audio 3 e renderiza o áudio que é salvo como um MP3. O workflow segue o modelo oficial e os ativos fornecidos pela Comfy-Org para Stable Audio 3.0 Medium Base. Veja o modelo de referência e os modelos em Comfy-Org/workflow_templates e Comfy-Org/stable-audio-3.

Modelos-chave no workflow Comfyui Stable Audio 3.0 Medium Base#

Stable Audio 3 Medium Base checkpoint. O modelo generativo central que sintetiza áudio estéreo a partir de condicionamento de texto e latentes. Fonte: Comfy-Org/stable-audio-3.
Codificador de texto T5-Gemma Base UL2. Produz as embeddings de texto usadas para condicionar o Stable Audio 3 para prompts positivos e negativos. O arquivo do codificador de texto empacotado está incluído na pasta text_encoders do repositório Stable Audio 3: Comfy-Org/stable-audio-3.
Modelo de texto Qwen3.5 2B. Alimenta o reprompt opcional consciente de categoria que expande uma ideia curta em uma descrição detalhada de música, instrumento, SFX ou one-shot. Fonte: Comfy-Org/Qwen3.5.

Como usar o workflow Comfyui Stable Audio 3.0 Medium Base#

Em um nível alto, você fornece uma ideia curta e uma duração alvo. O gráfico pode manter suas palavras como estão ou usar o Qwen3.5 para reescrevê-las via um template de categoria. O resultado é codificado para condicionamento, amostrado pelo Stable Audio 3, decodificado para áudio e salvo.

Entradas do usuário: prompt e duração#

O subgrafo Audio Generation (Stable Audio 3 Medium Base) (#52) expõe user_input, duration, seed, use_reprompt e category. Escreva uma ideia breve em linguagem simples, como um estilo, lista de instrumentos, humor e um BPM opcional. Escolha um comprimento de clipe em segundos e defina uma seed para reprodutibilidade ou variação. Ative use_reprompt quando quiser a reescrita orientada por template, então selecione uma category como Música, Instrumento, SFX ou One-shot.

Carregadores: checkpoint e codificadores de texto#

CheckpointLoaderSimple (#25) carrega stable_audio_3_medium_base.safetensors, fornecendo o MODEL e VAE usados posteriormente para amostragem e decodificação. CLIPLoader (#26) carrega o codificador T5-Gemma usado para condicionamento. Um segundo CLIPLoader (#29) carrega o modelo Qwen3.5 que dirige a etapa de reprompt.

Reprompt: modelos JSON e categoria#

Um seletor de categoria CustomCombo (#43) alimenta um grande JSON de prompts de sistema em JsonExtractString (#49). O modelo selecionado é inserido em um meta-prompt por Text Replace (PROMPT TEMPLATE) (#38). Seu user_input é injetado por Text Replace (USER INPUT) (#39), e o comprimento alvo é inserido usando Text Replace (AUDIO LENGTH) (#40), mantendo a reescrita alinhada com a duração escolhida.

Reprompt: Qwen TextGenerate#

TextGenerate (#28) usa o Qwen3.5 para transformar o modelo montado mais sua ideia em um prompt conciso e detalhado que segue regras específicas de categoria. Esta etapa é especialmente útil para estruturas musicais mais longas e para SFX onde a linguagem técnica concreta é importante. A reescrita do prompt é pré-visualizável, para que você possa iterar rapidamente na escolha de categoria e fraseado.

Alternando entre texto original e reescrito#

ComfySwitchNode (#34) seleciona seu texto original ou a reescrita gerada pelo Qwen com base em use_reprompt. Deixe ligado para obter prompts estruturados e conscientes de comprimento, ou desligue quando quiser controle literal sobre a redação. Este simples interruptor torna o teste A/B direto.

Codificação CLIP: condicionamento#

CLIPTextEncode (#6) converte o prompt selecionado no condicionamento positivo que dirige o modelo. Um segundo CLIPTextEncode (#7) fornece um condicionamento negativo neutro por padrão. Este emparelhamento fornece ao Stable Audio 3 uma orientação clara enquanto evita artefatos indesejados.

Geração de áudio: Stable Audio#

EmptyLatentAudio (#11) cria um latente de áudio cujo comprimento corresponde à duration. KSampler (#3) realiza o processo de remoção de ruído usando o MODEL Stable Audio 3 Medium Base do checkpoint. VAEDecodeAudio (#12) transforma o latente final em uma forma de onda estéreo audível. Como a mesma duration também informa o reprompt, o comprimento do clipe renderizado e o texto reescrito permanecem sincronizados.

Salvar e exportar#

Fora do subgrafo, SaveAudioMP3 (#19) grava o resultado em um arquivo MP3 com um prefixo útil para organização. Use isso ao gerar em lote takes com diferentes valores de seed ou categorias, depois ouça e mantenha seus favoritos.

Nós-chave no workflow Comfyui Stable Audio 3.0 Medium Base#

ComfySwitchNode (#34). Alterna entre o user_input original e o texto gerado pelo Qwen. Ative para reescritas estruturadas e conscientes de comprimento ou desative para controle direto.
TextGenerate (#28). Executa o Qwen3.5 com um prompt de sistema específico de categoria para expandir ideias. Para personalizar o estilo de reescrita, edite os modelos de categoria em JsonExtractString (#49) e os prompts de cola nos nós Text Replace adjacentes.
EmptyLatentAudio (#11). Define o comprimento do clipe. Mantenha isso alinhado com o token AUDIO_LENGTH inserido para que o tempo de síntese corresponda à intenção textual.
KSampler (#3). Governa a trajetória de remoção de ruído para Stable Audio 3. Ajuste seed para variações enquanto mantém outras configurações estáveis para comparar takes de forma justa.
SaveAudioMP3 (#19). Controla o prefixo do nome do arquivo de saída e o formato para uma rápida construção de biblioteca a partir de várias execuções.

Extras opcionais#

Comece com uma ideia de uma ou duas frases que nomeie gênero ou origem, instrumentos-chave ou texturas e humor. O reprompt pode preencher detalhes como BPM e arranjo.
Escolha a categoria que corresponde ao seu objetivo: Música para faixas completas, Instrumento para loops ou stems, SFX para ambientes e ações, One-shot para hits isolados.
Mantenha a duração realista para o seu conteúdo alvo. Clipe muito longos são mais pesados para computar e podem se beneficiar de uma seed estável enquanto você itera.
Quando os resultados parecerem lotados, desative o reprompt e tente uma frase mais simples, depois reative uma vez que você goste da direção.
Para takes alternativos rápidos, mantenha tudo constante e altere apenas a seed.

Agradecimentos#

Este workflow implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos a Comfy-Org pelo artigo de suporte do ComfyUI Stable Audio 3 Day-0, Comfy-Org pelo template oficial do workflow Stable Audio 3.0 Medium Base, Comfy-Org pelos arquivos de modelo Stable Audio 3, e Comfy-Org pelos arquivos de modelo do codificador Qwen3.5 por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos#

Comfy-Org/ComfyUI Stable Audio 3 Day-0 Support Article
- Docs / Release Notes: Stable Audio 3 Day-0 Support
Comfy-Org/Official Stable Audio 3.0 Medium Base Workflow Template
- GitHub: Comfy-Org/workflow_templates
Comfy-Org/Stable Audio 3 Model Files
- Hugging Face: Comfy-Org/stable-audio-3
Comfy-Org/Qwen3.5 Encoder Model Files
- Hugging Face: Comfy-Org/Qwen3.5

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Stable Audio Open 1.0 | Ferramenta Texto-para-Música

Transforma prompts de texto em música cinematográfica de forma contínua e rápida.

Geração de Música ACE-Step | Criação de Áudio com IA

Gere música de qualidade de estúdio 15× mais rápido com tecnologia de difusão revolucionária.

Ace Step 1.5 | Gerador de Música AI de Nível Comercial

Transforma texto em músicas completas com planejamento inteligente e poder de difusão.

ACE-Step 1.5XL Base texto para música | Gerador de Som AI

Transforma seu texto em música pura criada por IA instantaneamente.

ACE-Step 1.5XL Turbo comfyui workflow | Gerador de Texto para Música

Transforma seu texto em música incrível de forma rápida e clara.

EchoMimic | Animações de Retratos Guiadas por Áudio

Gere cabeças falantes realistas e gestos corporais sincronizados com o áudio fornecido.

Edição de Imagem FireRed | Aprimorador Inteligente de Fotos

Correções nítidas de fotos com controle fiel de tom e detalhe perfeito.

Fluxo de Trabalho LTX-2.3 ICLoRA LipDub | Gerador de Vídeo com Sincronização Labial

Transforme qualquer vídeo em uma obra-prima falada com sincronização labial perfeita.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

Stable Audio 3.0 Medium Base | Gerador de Texto-para-Música