Stable Audio Open 1.0 Fluxo de Trabalho Texto-para-Música
Este fluxo de trabalho transforma texto simples em música original e paisagens sonoras usando o Stable Audio Open 1.0. É projetado para compositores, designers de som e criadores que desejam geração de áudio rápida e controlável sem sair do ComfyUI. Você escreve um prompt, define uma duração alvo, e o gráfico renderiza um MP3 que reflete seu estilo, humor, tempo e instrumentação.
Sob o capô, o fluxo de trabalho codifica seu texto com um codificador de texto baseado em T5, executa o processo de difusão do Stable Audio no espaço latente de áudio, depois decodifica para uma forma de onda e salva o resultado. Com orientação clara de prompts e um controle de comprimento simples, a geração Stable Audio torna-se previsível e repetível para faixas cinematográficas, ambientes ou experimentais.
Modelos chave no fluxo de trabalho Stable Audio do ComfyUI
- Stable Audio Open 1.0. Modelo de difusão latente de pesos abertos para texto-para-música e design de som pela Stability AI. Mapeia a intenção do texto para latentes de áudio e suporta estilos e estruturas musicais variadas. Repository • Weights
- T5-Base Text Encoder. Modelo de texto de propósito geral usado aqui para embutir prompts para condicionamento da geração Stable Audio. Entradas claras e descritivas levam a uma música mais consistente. Model card
Como usar o fluxo de trabalho Stable Audio do ComfyUI
O gráfico flui do carregamento do modelo para o condicionamento do prompt, depois amostragem, decodificação e salvamento. Os grupos são organizados para que você possa definir modelos uma vez, ajustar o comprimento, escrever seu prompt e renderizar.
Carregar modelos
Este grupo inicializa os ativos principais. CheckpointLoaderSimple (#4) carrega o checkpoint Stable Audio Open 1.0, que inclui o modelo de difusão e seu VAE de áudio. CLIPLoader (#10) carrega o codificador de texto baseado em T5 usado para condicionamento. Uma vez carregados, esses modelos fornecem a base para a geração Stable Audio e permanecem residentes para execuções subsequentes.
Comprimento
Este grupo define quanto tempo seu áudio terá. EmptyLatentAudio (#11) cria uma faixa latente em branco com a duração escolhida para que o sampler saiba quantos quadros gerar. Clipes mais longos consomem mais tempo e memória, então comece modestamente, depois escale. Você também pode produzir várias variações aumentando a dimensão do lote ao explorar ideias.
Prompt
Este grupo transforma texto em sinais de orientação para o processo de difusão. Use CLIPTextEncode (#6) para escrever um prompt positivo com instrumentos, gênero, humor, tempo e dicas de produção, por exemplo: "orquestra cinematográfica luxuosa, cordas e metais varrendo, percussão profunda, pads ambientes, 90 BPM, edificante." Use CLIPTextEncode (#7) para um prompt negativo para suprimir artefatos como "ruído áspero, recorte, distorção." Juntos, eles direcionam o Stable Audio para as texturas e estruturas que você deseja.
Gerar e exportar
KSampler (#3) realiza as etapas de difusão que transformam o latente vazio em um latente musical guiado por suas codificações de texto. VAEDecodeAudio (#12) converte o áudio latente de volta para uma forma de onda. Finalmente, SaveAudioMP3 (#19) grava um arquivo MP3 para que você possa revisar ou colocá-lo diretamente em sua linha do tempo. Para trabalho iterativo, ajuste o prefixo do nome do arquivo para manter as versões organizadas.
Nós chave no fluxo de trabalho Stable Audio do ComfyUI
CLIPTextEncode(#6) Este nó codifica seu prompt positivo em um condicionamento que o Stable Audio segue. Priorize listas claras de instrumentos, gênero, humor, tempo ou BPM, e termos de produção como "quente," "lo-fi," "cinemático," ou "ambiente." Mudanças sutis na redação podem mudar significativamente a composição. Veja os nós principais do ComfyUI para comportamento geral. ComfyUICLIPTextEncode(#7) O prompt negativo ajuda a evitar timbres indesejados ou problemas de mixagem. Adicione termos que descrevam o que remover, por exemplo, "guincho, toque metálico, pops de falha, chiado de rádio." Manter isso conciso frequentemente resulta em renders mais limpos do Stable Audio. ComfyUIEmptyLatentAudio(#11) Controla a duração do clipe em segundos e, opcionalmente, a contagem do lote para múltiplas variações. Aumente os segundos para peças mais longas, observando que a computação escala com o comprimento. Use a geração em lote para auditar várias tomadas do Stable Audio a partir de um único prompt. ComfyUIKSampler(#3) Conduz o processo de difusão para latentes de áudio. Os controles mais influentes sãosteps,sampler,cfg, eseed. Aumentestepspara detalhes mais refinados, ajustecfgpara equilibrar aderência ao prompt com criatividade, e defina umseedfixo para reproduzir uma tomada ou variá-la para novas ideias. Consulte as notas do sampler do ComfyUI para orientação geral. ComfyUISaveAudioMP3(#19) Exporta a forma de onda final para um MP3. Use ofilename_prefixpara rotular versões e manter as iterações organizadas. Ao comparar prompts ou seeds, salvar várias tomadas lado a lado torna a seleção de Stable Audio mais rápida. ComfyUI
Extras opcionais
- Escreva prompts como um briefing de sessão: instrumentos, gênero, humor, tempo ou BPM, e adjetivos de mixagem.
- Use prompts negativos curtos e focados para reduzir chiado, aspereza ou instrumentos indesejados.
- Trave o
seedenquanto itera texto, depois mude oseedpara explorar novas variações do Stable Audio. - Comece com durações mais curtas para ajustar o estilo, depois alongue uma vez que o som esteja correto.
- Mantenha um prefixo de nome de arquivo consistente por conceito para que você possa comparar tomadas do Stable Audio mais tarde.
Recursos para leitura mais profunda: detalhes e exemplos do modelo Stable Audio aqui, núcleo e comportamento de nós do ComfyUI aqui, e o cartão de modelo T5-Base aqui.
Reconhecimentos
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos imensamente ao Stability AI pelo Stable Audio Open, comfyanonymous (ComfyUI) pelos nós e referências de fluxo de trabalho do ComfyUI, e Comfy-Org e ComfyUI-Wiki pelo checkpoint do Stable Audio Open 1.0 e codificador de texto T5-Base por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Recursos
- Comfy-Org/Stable Audio Open 1.0 workflow
- GitHub: Stability-AI/stable-audio-open
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
