Este fluxo de trabalho transforma texto simples em música original e paisagens sonoras usando o Stable Audio Open 1.0. É projetado para compositores, designers de som e criadores que desejam geração de áudio rápida e controlável sem sair do ComfyUI. Você escreve um prompt, define uma duração alvo, e o gráfico renderiza um MP3 que reflete seu estilo, humor, tempo e instrumentação.
Sob o capô, o fluxo de trabalho codifica seu texto com um codificador de texto baseado em T5, executa o processo de difusão do Stable Audio no espaço latente de áudio, depois decodifica para uma forma de onda e salva o resultado. Com orientação clara de prompts e um controle de comprimento simples, a geração Stable Audio torna-se previsível e repetível para faixas cinematográficas, ambientes ou experimentais.
O gráfico flui do carregamento do modelo para o condicionamento do prompt, depois amostragem, decodificação e salvamento. Os grupos são organizados para que você possa definir modelos uma vez, ajustar o comprimento, escrever seu prompt e renderizar.
Este grupo inicializa os ativos principais. CheckpointLoaderSimple (#4) carrega o checkpoint Stable Audio Open 1.0, que inclui o modelo de difusão e seu VAE de áudio. CLIPLoader (#10) carrega o codificador de texto baseado em T5 usado para condicionamento. Uma vez carregados, esses modelos fornecem a base para a geração Stable Audio e permanecem residentes para execuções subsequentes.
Este grupo define quanto tempo seu áudio terá. EmptyLatentAudio (#11) cria uma faixa latente em branco com a duração escolhida para que o sampler saiba quantos quadros gerar. Clipes mais longos consomem mais tempo e memória, então comece modestamente, depois escale. Você também pode produzir várias variações aumentando a dimensão do lote ao explorar ideias.
Este grupo transforma texto em sinais de orientação para o processo de difusão. Use CLIPTextEncode (#6) para escrever um prompt positivo com instrumentos, gênero, humor, tempo e dicas de produção, por exemplo: "orquestra cinematográfica luxuosa, cordas e metais varrendo, percussão profunda, pads ambientes, 90 BPM, edificante." Use CLIPTextEncode (#7) para um prompt negativo para suprimir artefatos como "ruído áspero, recorte, distorção." Juntos, eles direcionam o Stable Audio para as texturas e estruturas que você deseja.
KSampler (#3) realiza as etapas de difusão que transformam o latente vazio em um latente musical guiado por suas codificações de texto. VAEDecodeAudio (#12) converte o áudio latente de volta para uma forma de onda. Finalmente, SaveAudioMP3 (#19) grava um arquivo MP3 para que você possa revisar ou colocá-lo diretamente em sua linha do tempo. Para trabalho iterativo, ajuste o prefixo do nome do arquivo para manter as versões organizadas.
CLIPTextEncode (#6)
Este nó codifica seu prompt positivo em um condicionamento que o Stable Audio segue. Priorize listas claras de instrumentos, gênero, humor, tempo ou BPM, e termos de produção como "quente," "lo-fi," "cinemático," ou "ambiente." Mudanças sutis na redação podem mudar significativamente a composição. Veja os nós principais do ComfyUI para comportamento geral. ComfyUI
CLIPTextEncode (#7)
O prompt negativo ajuda a evitar timbres indesejados ou problemas de mixagem. Adicione termos que descrevam o que remover, por exemplo, "guincho, toque metálico, pops de falha, chiado de rádio." Manter isso conciso frequentemente resulta em renders mais limpos do Stable Audio. ComfyUI
EmptyLatentAudio (#11)
Controla a duração do clipe em segundos e, opcionalmente, a contagem do lote para múltiplas variações. Aumente os segundos para peças mais longas, observando que a computação escala com o comprimento. Use a geração em lote para auditar várias tomadas do Stable Audio a partir de um único prompt. ComfyUI
KSampler (#3)
Conduz o processo de difusão para latentes de áudio. Os controles mais influentes são steps, sampler, cfg, e seed. Aumente steps para detalhes mais refinados, ajuste cfg para equilibrar aderência ao prompt com criatividade, e defina um seed fixo para reproduzir uma tomada ou variá-la para novas ideias. Consulte as notas do sampler do ComfyUI para orientação geral. ComfyUI
SaveAudioMP3 (#19)
Exporta a forma de onda final para um MP3. Use o filename_prefix para rotular versões e manter as iterações organizadas. Ao comparar prompts ou seeds, salvar várias tomadas lado a lado torna a seleção de Stable Audio mais rápida. ComfyUI
seed enquanto itera texto, depois mude o seed para explorar novas variações do Stable Audio.Recursos para leitura mais profunda: detalhes e exemplos do modelo Stable Audio aqui, núcleo e comportamento de nós do ComfyUI aqui, e o cartão de modelo T5-Base aqui.
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos imensamente ao Stability AI pelo Stable Audio Open, comfyanonymous (ComfyUI) pelos nós e referências de fluxo de trabalho do ComfyUI, e Comfy-Org e ComfyUI-Wiki pelo checkpoint do Stable Audio Open 1.0 e codificador de texto T5-Base por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.