logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Fluxos de Trabalho>Stable Audio Open 1.0 | Ferramenta Texto-para-Música

Stable Audio Open 1.0 | Ferramenta Texto-para-Música

Workflow Name: RunComfy/Stable-Audio
Workflow ID: 0000...1308
Gere paisagens sonoras expressivas e composições musicais a partir de prompts escritos usando este fluxo de trabalho texto-para-música. Construído sobre o modelo avançado de difusão de áudio, ele fornece controle total sobre duração, tom e emoção. Perfeito para designers e criadores que buscam saídas sonoras cinematográficas ou ambientes. Ele codifica o texto com precisão e o processa em áudio realista e audível. Obtenha qualidade consistente e flexibilidade para qualquer tema ou humor criativo.

Stable Audio Open 1.0 Fluxo de Trabalho Texto-para-Música

Este fluxo de trabalho transforma texto simples em música original e paisagens sonoras usando o Stable Audio Open 1.0. É projetado para compositores, designers de som e criadores que desejam geração de áudio rápida e controlável sem sair do ComfyUI. Você escreve um prompt, define uma duração alvo, e o gráfico renderiza um MP3 que reflete seu estilo, humor, tempo e instrumentação.

Sob o capô, o fluxo de trabalho codifica seu texto com um codificador de texto baseado em T5, executa o processo de difusão do Stable Audio no espaço latente de áudio, depois decodifica para uma forma de onda e salva o resultado. Com orientação clara de prompts e um controle de comprimento simples, a geração Stable Audio torna-se previsível e repetível para faixas cinematográficas, ambientes ou experimentais.

Modelos chave no fluxo de trabalho Stable Audio do ComfyUI

  • Stable Audio Open 1.0. Modelo de difusão latente de pesos abertos para texto-para-música e design de som pela Stability AI. Mapeia a intenção do texto para latentes de áudio e suporta estilos e estruturas musicais variadas. Repository • Weights
  • T5-Base Text Encoder. Modelo de texto de propósito geral usado aqui para embutir prompts para condicionamento da geração Stable Audio. Entradas claras e descritivas levam a uma música mais consistente. Model card

Como usar o fluxo de trabalho Stable Audio do ComfyUI

O gráfico flui do carregamento do modelo para o condicionamento do prompt, depois amostragem, decodificação e salvamento. Os grupos são organizados para que você possa definir modelos uma vez, ajustar o comprimento, escrever seu prompt e renderizar.

Carregar modelos

Este grupo inicializa os ativos principais. CheckpointLoaderSimple (#4) carrega o checkpoint Stable Audio Open 1.0, que inclui o modelo de difusão e seu VAE de áudio. CLIPLoader (#10) carrega o codificador de texto baseado em T5 usado para condicionamento. Uma vez carregados, esses modelos fornecem a base para a geração Stable Audio e permanecem residentes para execuções subsequentes.

Comprimento

Este grupo define quanto tempo seu áudio terá. EmptyLatentAudio (#11) cria uma faixa latente em branco com a duração escolhida para que o sampler saiba quantos quadros gerar. Clipes mais longos consomem mais tempo e memória, então comece modestamente, depois escale. Você também pode produzir várias variações aumentando a dimensão do lote ao explorar ideias.

Prompt

Este grupo transforma texto em sinais de orientação para o processo de difusão. Use CLIPTextEncode (#6) para escrever um prompt positivo com instrumentos, gênero, humor, tempo e dicas de produção, por exemplo: "orquestra cinematográfica luxuosa, cordas e metais varrendo, percussão profunda, pads ambientes, 90 BPM, edificante." Use CLIPTextEncode (#7) para um prompt negativo para suprimir artefatos como "ruído áspero, recorte, distorção." Juntos, eles direcionam o Stable Audio para as texturas e estruturas que você deseja.

Gerar e exportar

KSampler (#3) realiza as etapas de difusão que transformam o latente vazio em um latente musical guiado por suas codificações de texto. VAEDecodeAudio (#12) converte o áudio latente de volta para uma forma de onda. Finalmente, SaveAudioMP3 (#19) grava um arquivo MP3 para que você possa revisar ou colocá-lo diretamente em sua linha do tempo. Para trabalho iterativo, ajuste o prefixo do nome do arquivo para manter as versões organizadas.

Nós chave no fluxo de trabalho Stable Audio do ComfyUI

  • CLIPTextEncode (#6) Este nó codifica seu prompt positivo em um condicionamento que o Stable Audio segue. Priorize listas claras de instrumentos, gênero, humor, tempo ou BPM, e termos de produção como "quente," "lo-fi," "cinemático," ou "ambiente." Mudanças sutis na redação podem mudar significativamente a composição. Veja os nós principais do ComfyUI para comportamento geral. ComfyUI

  • CLIPTextEncode (#7) O prompt negativo ajuda a evitar timbres indesejados ou problemas de mixagem. Adicione termos que descrevam o que remover, por exemplo, "guincho, toque metálico, pops de falha, chiado de rádio." Manter isso conciso frequentemente resulta em renders mais limpos do Stable Audio. ComfyUI

  • EmptyLatentAudio (#11) Controla a duração do clipe em segundos e, opcionalmente, a contagem do lote para múltiplas variações. Aumente os segundos para peças mais longas, observando que a computação escala com o comprimento. Use a geração em lote para auditar várias tomadas do Stable Audio a partir de um único prompt. ComfyUI

  • KSampler (#3) Conduz o processo de difusão para latentes de áudio. Os controles mais influentes são steps, sampler, cfg, e seed. Aumente steps para detalhes mais refinados, ajuste cfg para equilibrar aderência ao prompt com criatividade, e defina um seed fixo para reproduzir uma tomada ou variá-la para novas ideias. Consulte as notas do sampler do ComfyUI para orientação geral. ComfyUI

  • SaveAudioMP3 (#19) Exporta a forma de onda final para um MP3. Use o filename_prefix para rotular versões e manter as iterações organizadas. Ao comparar prompts ou seeds, salvar várias tomadas lado a lado torna a seleção de Stable Audio mais rápida. ComfyUI

Extras opcionais

  • Escreva prompts como um briefing de sessão: instrumentos, gênero, humor, tempo ou BPM, e adjetivos de mixagem.
  • Use prompts negativos curtos e focados para reduzir chiado, aspereza ou instrumentos indesejados.
  • Trave o seed enquanto itera texto, depois mude o seed para explorar novas variações do Stable Audio.
  • Comece com durações mais curtas para ajustar o estilo, depois alongue uma vez que o som esteja correto.
  • Mantenha um prefixo de nome de arquivo consistente por conceito para que você possa comparar tomadas do Stable Audio mais tarde.

Recursos para leitura mais profunda: detalhes e exemplos do modelo Stable Audio aqui, núcleo e comportamento de nós do ComfyUI aqui, e o cartão de modelo T5-Base aqui.

Reconhecimentos

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos imensamente ao Stability AI pelo Stable Audio Open, comfyanonymous (ComfyUI) pelos nós e referências de fluxo de trabalho do ComfyUI, e Comfy-Org e ComfyUI-Wiki pelo checkpoint do Stable Audio Open 1.0 e codificador de texto T5-Base por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos

  • Comfy-Org/Stable Audio Open 1.0 workflow
    • GitHub: Stability-AI/stable-audio-open

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

MMAudio | Vídeo para Áudio

MMAudio: Modelo avançado de vídeo para áudio para geração de áudio de alta qualidade.

Geração de Música ACE-Step | Criação de Áudio com IA

Gere música de qualidade de estúdio 15× mais rápido com tecnologia de difusão revolucionária.

EchoMimic | Animações de Retratos Guiadas por Áudio

Gere cabeças falantes realistas e gestos corporais sincronizados com o áudio fornecido.

ACE++ Consistência de Personagem

Gere imagens consistentes do seu personagem em poses, ângulos e estilos a partir de uma única foto.

FLUX IPAdapter V2 | XLabs

FLUX IPAdapter V2 | XLabs

Explore o modelo XLabs FLUX IPAdapter V2 em comparação com o V1 para seus objetivos criativos.

AnimateDiff + IPAdapter V1 | Imagem para Vídeo

Com o IPAdapter, você pode controlar eficientemente a geração de animações usando imagens de referência.

ComfyUI Vid2Vid Dance Transfer

Transfere o movimento e o estilo de um vídeo fonte para uma imagem ou objeto alvo.

ByteDance USO | Gerador Unificado de Estilo & Assunto

ByteDance USO torna a fusão de assunto e estilo simples e poderosa.

Siga-nos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Suporte
  • Discord
  • E-mail
  • Status do Sistema
  • afiliado
Recursos
  • ComfyUI Online Gratuito
  • Guias do ComfyUI
  • RunComfy API
  • Tutoriais do ComfyUI
  • Nós do ComfyUI
  • Saiba Mais
Legal
  • Termos de Serviço
  • Política de Privacidade
  • Política de Cookies
RunComfy
Copyright 2025 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.