logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Workflow>Stable Audio Open 1.0 | Strumento Text-to-Music

Stable Audio Open 1.0 | Strumento Text-to-Music

Workflow Name: RunComfy/Stable-Audio
Workflow ID: 0000...1308
Genera paesaggi sonori espressivi e composizioni musicali da prompt scritti utilizzando questo workflow text-to-music. Basato sul modello avanzato di diffusione audio, fornisce pieno controllo su durata, tono ed emozione. Perfetto per designer e creatori in cerca di output sonori cinematografici o ambientali. Codifica il testo con precisione e lo elabora in audio realistico e ascoltabile. Ottieni qualità costante e flessibilità per qualsiasi tema o atmosfera creativa.

Stable Audio Open 1.0 Text-to-Music Workflow

Questo workflow trasforma testo semplice in musica originale e paesaggi sonori utilizzando Stable Audio Open 1.0. È progettato per compositori, sound designer e creatori che desiderano una generazione audio veloce e controllabile senza lasciare ComfyUI. Scrivi un prompt, imposta una durata target e il grafico rende un MP3 che riflette il tuo stile, umore, tempo e strumentazione.

Sotto il cofano, il workflow codifica il tuo testo con un encoder di testo basato su T5, esegue il processo di diffusione di Stable Audio nello spazio audio latente, quindi decodifica in un'onda sonora e salva il risultato. Con una guida chiara per i prompt e un semplice controllo di lunghezza, la generazione di Stable Audio diventa prevedibile e ripetibile per tracce cinematografiche, ambientali o sperimentali.

Modelli chiave nel workflow di Comfyui Stable Audio

  • Stable Audio Open 1.0. Modello di diffusione latente a pesi aperti per text-to-music e sound design di Stability AI. Mappa l'intento testuale in latenti audio e supporta stili e strutture musicali variati. Repository • Weights
  • T5-Base Text Encoder. Modello di testo generico usato qui per incorporare i prompt per il conditioning della generazione di Stable Audio. Input chiari e descrittivi portano a musica più coerente. Model card

Come usare il workflow di Comfyui Stable Audio

Il grafico fluisce dal caricamento del modello al conditioning del prompt, poi al campionamento, alla decodifica e al salvataggio. I gruppi sono organizzati in modo da poter impostare i modelli una volta, regolare la lunghezza, scrivere il tuo prompt e renderizzare.

Carica modelli

Questo gruppo inizializza le risorse principali. CheckpointLoaderSimple (#4) carica il checkpoint di Stable Audio Open 1.0, che include il modello di diffusione e il suo audio VAE. CLIPLoader (#10) carica l'encoder di testo basato su T5 utilizzato per il conditioning. Una volta caricati, questi modelli forniscono la struttura di base per la generazione di Stable Audio e rimangono residenti per esecuzioni successive.

Durata

Questo gruppo definisce quanto sarà lungo il tuo audio. EmptyLatentAudio (#11) crea una traccia latente vuota con la durata scelta in modo che il campionatore sappia quanti fotogrammi generare. Clip più lunghe consumano più tempo e memoria, quindi inizia modestamente, poi scala. Puoi anche produrre più variazioni aumentando la dimensione del batch quando esplori idee.

Prompt

Questo gruppo trasforma il testo in segnali di guida per il processo di diffusione. Usa CLIPTextEncode (#6) per scrivere un prompt positivo con strumenti, genere, umore, tempo e indicazioni di produzione, per esempio: “orchestra cinematografica lussureggiante, archi e ottoni avvolgenti, percussioni profonde, pad ambientali, 90 BPM, edificante.” Usa CLIPTextEncode (#7) per un prompt negativo per sopprimere artefatti come “rumore duro, clipping, distorsione.” Insieme guidano Stable Audio verso le texture e le strutture desiderate.

Genera ed esporta

KSampler (#3) esegue i passaggi di diffusione che trasformano il latente vuoto in un latente musicale guidato dalle tue codifiche testuali. VAEDecodeAudio (#12) converte l'audio latente di nuovo in un'onda sonora. Infine, SaveAudioMP3 (#19) scrive un file MP3 in modo che tu possa rivederlo o inserirlo direttamente nella tua timeline. Per lavori iterativi, regola il prefisso del nome file per mantenere le versioni organizzate.

Nodi chiave nel workflow di Comfyui Stable Audio

  • CLIPTextEncode (#6) Questo nodo codifica il tuo prompt positivo nel conditioning che Stable Audio segue. Dai priorità a elenchi chiari di strumenti, genere, umore, tempo o BPM, e termini di produzione come “caldo,” “lo-fi,” “cinematografico,” o “ambientale.” Cambiamenti sottili nella formulazione possono spostare significativamente la composizione. Vedi i nodi core di ComfyUI per il comportamento generale. ComfyUI

  • CLIPTextEncode (#7) Il prompt negativo aiuta a evitare timbri indesiderati o problemi di mix. Aggiungi termini che descrivono cosa rimuovere, per esempio “stridio, ronzio metallico, glitch, fruscio radio.” Mantenere questo conciso spesso porta a rendering di Stable Audio più puliti. ComfyUI

  • EmptyLatentAudio (#11) Controlla la durata del clip in secondi e opzionalmente il conteggio del batch per più variazioni. Aumenta i secondi per pezzi più lunghi, notando che il calcolo scala con la lunghezza. Usa la generazione batch per provare diverse interpretazioni di Stable Audio da un singolo prompt. ComfyUI

  • KSampler (#3) Guida il processo di diffusione per i latenti audio. I controlli più influenti sono steps, sampler, cfg, e seed. Aumenta steps per dettagli più raffinati, regola cfg per bilanciare l'aderenza al prompt con la creatività, e imposta un seed fisso per riprodurre un take o variarlo per nuove idee. Consulta le note del sampler di ComfyUI per una guida generale. ComfyUI

  • SaveAudioMP3 (#19) Esporta l'onda sonora finale in un MP3. Usa il filename_prefix per etichettare le versioni e mantenere le iterazioni ordinate. Quando confronti prompt o seeds, salvare più take uno accanto all'altro rende la selezione di Stable Audio più veloce. ComfyUI

Extra opzionali

  • Scrivi prompt come un brief di sessione: strumenti, genere, umore, tempo o BPM, e aggettivi di mix.
  • Usa prompt negativi brevi e mirati per ridurre fruscio, durezza o strumenti indesiderati.
  • Blocca seed mentre iteri il testo, poi cambia seed per esplorare nuove variazioni di Stable Audio.
  • Inizia con durate più brevi per sintonizzare lo stile, poi allunga una volta che il suono è giusto.
  • Mantieni un prefisso di nome file coerente per concetto in modo da poter confrontare i take di Stable Audio più tardi.

Risorse per letture più approfondite: dettagli e esempi del modello di Stable Audio qui, core e comportamento dei nodi di ComfyUI qui, e la scheda del modello T5-Base qui.

Riconoscimenti

Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo sinceramente Stability AI per Stable Audio Open, comfyanonymous (ComfyUI) per i nodi di ComfyUI e i riferimenti al workflow, e Comfy-Org e ComfyUI-Wiki per il checkpoint di Stable Audio Open 1.0 e l'encoder di testo T5-Base per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione e ai repository originali collegati di seguito.

Risorse

  • Comfy-Org/Stable Audio Open 1.0 workflow
    • GitHub: Stability-AI/stable-audio-open

Nota: L'uso dei modelli, dei dataset e del codice citati è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

MMAudio | Da Video a Audio

MMAudio: Modello avanzato da video a audio per la generazione di audio di alta qualità.

Generazione Musicale ACE-Step | Creazione Audio AI

Genera musica di qualità da studio 15× più velocemente con la tecnologia di diffusione rivoluzionaria.

EchoMimic | Animazioni di Ritratti Guidate dall'Audio

Genera teste parlanti realistiche e gesti del corpo sincronizzati con l'audio fornito.

ACE++ Coerenza del Personaggio

Genera immagini coerenti del tuo personaggio tra pose, angolazioni e stili da una singola foto.

Qwen Image Edit 2509 | Editor Multi-Immagine

Trasforma 2–3 immagini in un capolavoro modificato senza soluzione di continuità istantaneamente.

IC-Light | Video Relighting | AnimateDiff

Rilumina i tuoi video con light maps e prompt

FLUX Img2Img | Unisci Visivi e Prompt

FLUX Img2Img | Unisci Visivi e Prompt

Unisci visivi e prompt per risultati sorprendenti e migliorati.

SVD + IPAdapter V1 | Da immagine a video

Utilizza IPAdapter per la generazione di immagini statiche e Stable Video Diffusion per la generazione dinamica di video.

Seguici
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Supporto
  • Discord
  • Email
  • Stato del Sistema
  • affiliato
Risorse
  • ComfyUI Online Gratuito
  • Guide di ComfyUI
  • RunComfy API
  • Tutorial ComfyUI
  • Nodi ComfyUI
  • Scopri di Più
Legale
  • Termini di Servizio
  • Informativa sulla Privacy
  • Informativa sui Cookie
RunComfy
Copyright 2025 RunComfy. Tutti i Diritti Riservati.

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Playground, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.