Stable Audio Open 1.0 em ComfyUI | Fluxo de Trabalho Texto-para-Música

Stable Audio Open 1.0 Fluxo de Trabalho Texto-para-Música

Este fluxo de trabalho transforma texto simples em música original e paisagens sonoras usando o Stable Audio Open 1.0. É projetado para compositores, designers de som e criadores que desejam geração de áudio rápida e controlável sem sair do ComfyUI. Você escreve um prompt, define uma duração alvo, e o gráfico renderiza um MP3 que reflete seu estilo, humor, tempo e instrumentação.

Sob o capô, o fluxo de trabalho codifica seu texto com um codificador de texto baseado em T5, executa o processo de difusão do Stable Audio no espaço latente de áudio, depois decodifica para uma forma de onda e salva o resultado. Com orientação clara de prompts e um controle de comprimento simples, a geração Stable Audio torna-se previsível e repetível para faixas cinematográficas, ambientes ou experimentais.

Modelos chave no fluxo de trabalho Stable Audio do ComfyUI

Stable Audio Open 1.0. Modelo de difusão latente de pesos abertos para texto-para-música e design de som pela Stability AI. Mapeia a intenção do texto para latentes de áudio e suporta estilos e estruturas musicais variadas. Repository • Weights
T5-Base Text Encoder. Modelo de texto de propósito geral usado aqui para embutir prompts para condicionamento da geração Stable Audio. Entradas claras e descritivas levam a uma música mais consistente. Model card

Como usar o fluxo de trabalho Stable Audio do ComfyUI

O gráfico flui do carregamento do modelo para o condicionamento do prompt, depois amostragem, decodificação e salvamento. Os grupos são organizados para que você possa definir modelos uma vez, ajustar o comprimento, escrever seu prompt e renderizar.

Carregar modelos

Este grupo inicializa os ativos principais. CheckpointLoaderSimple (#4) carrega o checkpoint Stable Audio Open 1.0, que inclui o modelo de difusão e seu VAE de áudio. CLIPLoader (#10) carrega o codificador de texto baseado em T5 usado para condicionamento. Uma vez carregados, esses modelos fornecem a base para a geração Stable Audio e permanecem residentes para execuções subsequentes.

Comprimento

Este grupo define quanto tempo seu áudio terá. EmptyLatentAudio (#11) cria uma faixa latente em branco com a duração escolhida para que o sampler saiba quantos quadros gerar. Clipes mais longos consomem mais tempo e memória, então comece modestamente, depois escale. Você também pode produzir várias variações aumentando a dimensão do lote ao explorar ideias.

Prompt

Este grupo transforma texto em sinais de orientação para o processo de difusão. Use CLIPTextEncode (#6) para escrever um prompt positivo com instrumentos, gênero, humor, tempo e dicas de produção, por exemplo: "orquestra cinematográfica luxuosa, cordas e metais varrendo, percussão profunda, pads ambientes, 90 BPM, edificante." Use CLIPTextEncode (#7) para um prompt negativo para suprimir artefatos como "ruído áspero, recorte, distorção." Juntos, eles direcionam o Stable Audio para as texturas e estruturas que você deseja.

Gerar e exportar

KSampler (#3) realiza as etapas de difusão que transformam o latente vazio em um latente musical guiado por suas codificações de texto. VAEDecodeAudio (#12) converte o áudio latente de volta para uma forma de onda. Finalmente, SaveAudioMP3 (#19) grava um arquivo MP3 para que você possa revisar ou colocá-lo diretamente em sua linha do tempo. Para trabalho iterativo, ajuste o prefixo do nome do arquivo para manter as versões organizadas.

Nós chave no fluxo de trabalho Stable Audio do ComfyUI

CLIPTextEncode (#6) Este nó codifica seu prompt positivo em um condicionamento que o Stable Audio segue. Priorize listas claras de instrumentos, gênero, humor, tempo ou BPM, e termos de produção como "quente," "lo-fi," "cinemático," ou "ambiente." Mudanças sutis na redação podem mudar significativamente a composição. Veja os nós principais do ComfyUI para comportamento geral. ComfyUI
CLIPTextEncode (#7) O prompt negativo ajuda a evitar timbres indesejados ou problemas de mixagem. Adicione termos que descrevam o que remover, por exemplo, "guincho, toque metálico, pops de falha, chiado de rádio." Manter isso conciso frequentemente resulta em renders mais limpos do Stable Audio. ComfyUI
EmptyLatentAudio (#11) Controla a duração do clipe em segundos e, opcionalmente, a contagem do lote para múltiplas variações. Aumente os segundos para peças mais longas, observando que a computação escala com o comprimento. Use a geração em lote para auditar várias tomadas do Stable Audio a partir de um único prompt. ComfyUI
KSampler (#3) Conduz o processo de difusão para latentes de áudio. Os controles mais influentes são steps, sampler, cfg, e seed. Aumente steps para detalhes mais refinados, ajuste cfg para equilibrar aderência ao prompt com criatividade, e defina um seed fixo para reproduzir uma tomada ou variá-la para novas ideias. Consulte as notas do sampler do ComfyUI para orientação geral. ComfyUI
SaveAudioMP3 (#19) Exporta a forma de onda final para um MP3. Use o filename_prefix para rotular versões e manter as iterações organizadas. Ao comparar prompts ou seeds, salvar várias tomadas lado a lado torna a seleção de Stable Audio mais rápida. ComfyUI

Extras opcionais

Escreva prompts como um briefing de sessão: instrumentos, gênero, humor, tempo ou BPM, e adjetivos de mixagem.
Use prompts negativos curtos e focados para reduzir chiado, aspereza ou instrumentos indesejados.
Trave o seed enquanto itera texto, depois mude o seed para explorar novas variações do Stable Audio.
Comece com durações mais curtas para ajustar o estilo, depois alongue uma vez que o som esteja correto.
Mantenha um prefixo de nome de arquivo consistente por conceito para que você possa comparar tomadas do Stable Audio mais tarde.

Recursos para leitura mais profunda: detalhes e exemplos do modelo Stable Audio aqui, núcleo e comportamento de nós do ComfyUI aqui, e o cartão de modelo T5-Base aqui.

Reconhecimentos

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos imensamente ao Stability AI pelo Stable Audio Open, comfyanonymous (ComfyUI) pelos nós e referências de fluxo de trabalho do ComfyUI, e Comfy-Org e ComfyUI-Wiki pelo checkpoint do Stable Audio Open 1.0 e codificador de texto T5-Base por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos

Comfy-Org/Stable Audio Open 1.0 workflow
- GitHub: Stability-AI/stable-audio-open

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

MMAudio | Vídeo para Áudio

MMAudio: Modelo avançado de vídeo para áudio para geração de áudio de alta qualidade.

Geração de Música ACE-Step | Criação de Áudio com IA

Gere música de qualidade de estúdio 15× mais rápido com tecnologia de difusão revolucionária.

EchoMimic | Animações de Retratos Guiadas por Áudio

Gere cabeças falantes realistas e gestos corporais sincronizados com o áudio fornecido.

ACE++ Consistência de Personagem

Gere imagens consistentes do seu personagem em poses, ângulos e estilos a partir de uma única foto.

ReActor | Troca Rápida de Rostos

Com o ComfyUI ReActor, você pode facilmente trocar os rostos de um ou mais personagens em imagens ou vídeos.

Face to Many | 3D, Emoji, Pixel, Clay, Toy, Video game

utiliza modelos LoRA, ControlNet e InstantID para transformações avançadas de rosto para muitos

FLUX.2 Klein Edição de Imagem Unificada | Inpaint, Outpaint & Remove Inteligente

Edição impecável. Remova, preencha e estenda qualquer imagem rapidamente.

AnimateDiff + Batch Prompt Schedule | Texto para Vídeo

Utilize Prompts Travel com Animatediff para controle preciso sobre quadros específicos dentro da animação.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

Stable Audio Open 1.0 | Ferramenta Texto-para-Música

Stable Audio Open 1.0 Fluxo de Trabalho Texto-para-Música

Modelos chave no fluxo de trabalho Stable Audio do ComfyUI

Como usar o fluxo de trabalho Stable Audio do ComfyUI

Carregar modelos

Comprimento

Prompt

Gerar e exportar

Nós chave no fluxo de trabalho Stable Audio do ComfyUI

Extras opcionais

Reconhecimentos

Recursos

Want More ComfyUI Workflows?

MMAudio | Vídeo para Áudio

Geração de Música ACE-Step | Criação de Áudio com IA

EchoMimic | Animações de Retratos Guiadas por Áudio

ACE++ Consistência de Personagem

ReActor | Troca Rápida de Rostos

Face to Many | 3D, Emoji, Pixel, Clay, Toy, Video game

FLUX.2 Klein Edição de Imagem Unificada | Inpaint, Outpaint & Remove Inteligente

AnimateDiff + Batch Prompt Schedule | Texto para Vídeo