Questo workflow trasforma testo semplice in musica originale e paesaggi sonori utilizzando Stable Audio Open 1.0. È progettato per compositori, sound designer e creatori che desiderano una generazione audio veloce e controllabile senza lasciare ComfyUI. Scrivi un prompt, imposta una durata target e il grafico rende un MP3 che riflette il tuo stile, umore, tempo e strumentazione.
Sotto il cofano, il workflow codifica il tuo testo con un encoder di testo basato su T5, esegue il processo di diffusione di Stable Audio nello spazio audio latente, quindi decodifica in un'onda sonora e salva il risultato. Con una guida chiara per i prompt e un semplice controllo di lunghezza, la generazione di Stable Audio diventa prevedibile e ripetibile per tracce cinematografiche, ambientali o sperimentali.
Il grafico fluisce dal caricamento del modello al conditioning del prompt, poi al campionamento, alla decodifica e al salvataggio. I gruppi sono organizzati in modo da poter impostare i modelli una volta, regolare la lunghezza, scrivere il tuo prompt e renderizzare.
Questo gruppo inizializza le risorse principali. CheckpointLoaderSimple (#4) carica il checkpoint di Stable Audio Open 1.0, che include il modello di diffusione e il suo audio VAE. CLIPLoader (#10) carica l'encoder di testo basato su T5 utilizzato per il conditioning. Una volta caricati, questi modelli forniscono la struttura di base per la generazione di Stable Audio e rimangono residenti per esecuzioni successive.
Questo gruppo definisce quanto sarà lungo il tuo audio. EmptyLatentAudio (#11) crea una traccia latente vuota con la durata scelta in modo che il campionatore sappia quanti fotogrammi generare. Clip più lunghe consumano più tempo e memoria, quindi inizia modestamente, poi scala. Puoi anche produrre più variazioni aumentando la dimensione del batch quando esplori idee.
Questo gruppo trasforma il testo in segnali di guida per il processo di diffusione. Usa CLIPTextEncode (#6) per scrivere un prompt positivo con strumenti, genere, umore, tempo e indicazioni di produzione, per esempio: “orchestra cinematografica lussureggiante, archi e ottoni avvolgenti, percussioni profonde, pad ambientali, 90 BPM, edificante.” Usa CLIPTextEncode (#7) per un prompt negativo per sopprimere artefatti come “rumore duro, clipping, distorsione.” Insieme guidano Stable Audio verso le texture e le strutture desiderate.
KSampler (#3) esegue i passaggi di diffusione che trasformano il latente vuoto in un latente musicale guidato dalle tue codifiche testuali. VAEDecodeAudio (#12) converte l'audio latente di nuovo in un'onda sonora. Infine, SaveAudioMP3 (#19) scrive un file MP3 in modo che tu possa rivederlo o inserirlo direttamente nella tua timeline. Per lavori iterativi, regola il prefisso del nome file per mantenere le versioni organizzate.
CLIPTextEncode (#6)
Questo nodo codifica il tuo prompt positivo nel conditioning che Stable Audio segue. Dai priorità a elenchi chiari di strumenti, genere, umore, tempo o BPM, e termini di produzione come “caldo,” “lo-fi,” “cinematografico,” o “ambientale.” Cambiamenti sottili nella formulazione possono spostare significativamente la composizione. Vedi i nodi core di ComfyUI per il comportamento generale. ComfyUI
CLIPTextEncode (#7)
Il prompt negativo aiuta a evitare timbri indesiderati o problemi di mix. Aggiungi termini che descrivono cosa rimuovere, per esempio “stridio, ronzio metallico, glitch, fruscio radio.” Mantenere questo conciso spesso porta a rendering di Stable Audio più puliti. ComfyUI
EmptyLatentAudio (#11)
Controlla la durata del clip in secondi e opzionalmente il conteggio del batch per più variazioni. Aumenta i secondi per pezzi più lunghi, notando che il calcolo scala con la lunghezza. Usa la generazione batch per provare diverse interpretazioni di Stable Audio da un singolo prompt. ComfyUI
KSampler (#3)
Guida il processo di diffusione per i latenti audio. I controlli più influenti sono steps, sampler, cfg, e seed. Aumenta steps per dettagli più raffinati, regola cfg per bilanciare l'aderenza al prompt con la creatività, e imposta un seed fisso per riprodurre un take o variarlo per nuove idee. Consulta le note del sampler di ComfyUI per una guida generale. ComfyUI
SaveAudioMP3 (#19)
Esporta l'onda sonora finale in un MP3. Usa il filename_prefix per etichettare le versioni e mantenere le iterazioni ordinate. Quando confronti prompt o seeds, salvare più take uno accanto all'altro rende la selezione di Stable Audio più veloce. ComfyUI
seed mentre iteri il testo, poi cambia seed per esplorare nuove variazioni di Stable Audio.Risorse per letture più approfondite: dettagli e esempi del modello di Stable Audio qui, core e comportamento dei nodi di ComfyUI qui, e la scheda del modello T5-Base qui.
Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo sinceramente Stability AI per Stable Audio Open, comfyanonymous (ComfyUI) per i nodi di ComfyUI e i riferimenti al workflow, e Comfy-Org e ComfyUI-Wiki per il checkpoint di Stable Audio Open 1.0 e l'encoder di testo T5-Base per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione e ai repository originali collegati di seguito.
Nota: L'uso dei modelli, dei dataset e del codice citati è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.
RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Playground, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.