ComfyUI>Workflow>Stable Audio Open 1.0 | Strumento Text-to-Music

Stable Audio Open 1.0 | Strumento Text-to-Music

Workflow Name: RunComfy/Stable-Audio

Workflow ID: 0000...1308

Genera paesaggi sonori espressivi e composizioni musicali da prompt scritti utilizzando questo workflow text-to-music. Basato sul modello avanzato di diffusione audio, fornisce pieno controllo su durata, tono ed emozione. Perfetto per designer e creatori in cerca di output sonori cinematografici o ambientali. Codifica il testo con precisione e lo elabora in audio realistico e ascoltabile. Ottieni qualità costante e flessibilità per qualsiasi tema o atmosfera creativa.

Stable Audio Open 1.0 Text-to-Music Workflow

Questo workflow trasforma testo semplice in musica originale e paesaggi sonori utilizzando Stable Audio Open 1.0. È progettato per compositori, sound designer e creatori che desiderano una generazione audio veloce e controllabile senza lasciare ComfyUI. Scrivi un prompt, imposta una durata target e il grafico rende un MP3 che riflette il tuo stile, umore, tempo e strumentazione.

Sotto il cofano, il workflow codifica il tuo testo con un encoder di testo basato su T5, esegue il processo di diffusione di Stable Audio nello spazio audio latente, quindi decodifica in un'onda sonora e salva il risultato. Con una guida chiara per i prompt e un semplice controllo di lunghezza, la generazione di Stable Audio diventa prevedibile e ripetibile per tracce cinematografiche, ambientali o sperimentali.

Modelli chiave nel workflow di Comfyui Stable Audio

Stable Audio Open 1.0. Modello di diffusione latente a pesi aperti per text-to-music e sound design di Stability AI. Mappa l'intento testuale in latenti audio e supporta stili e strutture musicali variati. Repository • Weights
T5-Base Text Encoder. Modello di testo generico usato qui per incorporare i prompt per il conditioning della generazione di Stable Audio. Input chiari e descrittivi portano a musica più coerente. Model card

Come usare il workflow di Comfyui Stable Audio

Il grafico fluisce dal caricamento del modello al conditioning del prompt, poi al campionamento, alla decodifica e al salvataggio. I gruppi sono organizzati in modo da poter impostare i modelli una volta, regolare la lunghezza, scrivere il tuo prompt e renderizzare.

Carica modelli

Questo gruppo inizializza le risorse principali. CheckpointLoaderSimple (#4) carica il checkpoint di Stable Audio Open 1.0, che include il modello di diffusione e il suo audio VAE. CLIPLoader (#10) carica l'encoder di testo basato su T5 utilizzato per il conditioning. Una volta caricati, questi modelli forniscono la struttura di base per la generazione di Stable Audio e rimangono residenti per esecuzioni successive.

Durata

Questo gruppo definisce quanto sarà lungo il tuo audio. EmptyLatentAudio (#11) crea una traccia latente vuota con la durata scelta in modo che il campionatore sappia quanti fotogrammi generare. Clip più lunghe consumano più tempo e memoria, quindi inizia modestamente, poi scala. Puoi anche produrre più variazioni aumentando la dimensione del batch quando esplori idee.

Prompt

Questo gruppo trasforma il testo in segnali di guida per il processo di diffusione. Usa CLIPTextEncode (#6) per scrivere un prompt positivo con strumenti, genere, umore, tempo e indicazioni di produzione, per esempio: “orchestra cinematografica lussureggiante, archi e ottoni avvolgenti, percussioni profonde, pad ambientali, 90 BPM, edificante.” Usa CLIPTextEncode (#7) per un prompt negativo per sopprimere artefatti come “rumore duro, clipping, distorsione.” Insieme guidano Stable Audio verso le texture e le strutture desiderate.

Genera ed esporta

KSampler (#3) esegue i passaggi di diffusione che trasformano il latente vuoto in un latente musicale guidato dalle tue codifiche testuali. VAEDecodeAudio (#12) converte l'audio latente di nuovo in un'onda sonora. Infine, SaveAudioMP3 (#19) scrive un file MP3 in modo che tu possa rivederlo o inserirlo direttamente nella tua timeline. Per lavori iterativi, regola il prefisso del nome file per mantenere le versioni organizzate.

Nodi chiave nel workflow di Comfyui Stable Audio

CLIPTextEncode (#6) Questo nodo codifica il tuo prompt positivo nel conditioning che Stable Audio segue. Dai priorità a elenchi chiari di strumenti, genere, umore, tempo o BPM, e termini di produzione come “caldo,” “lo-fi,” “cinematografico,” o “ambientale.” Cambiamenti sottili nella formulazione possono spostare significativamente la composizione. Vedi i nodi core di ComfyUI per il comportamento generale. ComfyUI
CLIPTextEncode (#7) Il prompt negativo aiuta a evitare timbri indesiderati o problemi di mix. Aggiungi termini che descrivono cosa rimuovere, per esempio “stridio, ronzio metallico, glitch, fruscio radio.” Mantenere questo conciso spesso porta a rendering di Stable Audio più puliti. ComfyUI
EmptyLatentAudio (#11) Controlla la durata del clip in secondi e opzionalmente il conteggio del batch per più variazioni. Aumenta i secondi per pezzi più lunghi, notando che il calcolo scala con la lunghezza. Usa la generazione batch per provare diverse interpretazioni di Stable Audio da un singolo prompt. ComfyUI
KSampler (#3) Guida il processo di diffusione per i latenti audio. I controlli più influenti sono steps, sampler, cfg, e seed. Aumenta steps per dettagli più raffinati, regola cfg per bilanciare l'aderenza al prompt con la creatività, e imposta un seed fisso per riprodurre un take o variarlo per nuove idee. Consulta le note del sampler di ComfyUI per una guida generale. ComfyUI
SaveAudioMP3 (#19) Esporta l'onda sonora finale in un MP3. Usa il filename_prefix per etichettare le versioni e mantenere le iterazioni ordinate. Quando confronti prompt o seeds, salvare più take uno accanto all'altro rende la selezione di Stable Audio più veloce. ComfyUI

Extra opzionali

Scrivi prompt come un brief di sessione: strumenti, genere, umore, tempo o BPM, e aggettivi di mix.
Usa prompt negativi brevi e mirati per ridurre fruscio, durezza o strumenti indesiderati.
Blocca seed mentre iteri il testo, poi cambia seed per esplorare nuove variazioni di Stable Audio.
Inizia con durate più brevi per sintonizzare lo stile, poi allunga una volta che il suono è giusto.
Mantieni un prefisso di nome file coerente per concetto in modo da poter confrontare i take di Stable Audio più tardi.

Risorse per letture più approfondite: dettagli e esempi del modello di Stable Audio qui, core e comportamento dei nodi di ComfyUI qui, e la scheda del modello T5-Base qui.

Riconoscimenti

Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo sinceramente Stability AI per Stable Audio Open, comfyanonymous (ComfyUI) per i nodi di ComfyUI e i riferimenti al workflow, e Comfy-Org e ComfyUI-Wiki per il checkpoint di Stable Audio Open 1.0 e l'encoder di testo T5-Base per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione e ai repository originali collegati di seguito.

Risorse

Comfy-Org/Stable Audio Open 1.0 workflow
- GitHub: Stability-AI/stable-audio-open

Nota: L'uso dei modelli, dei dataset e del codice citati è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

MMAudio | Da Video a Audio

MMAudio: Modello avanzato da video a audio per la generazione di audio di alta qualità.

Generazione Musicale ACE-Step | Creazione Audio AI

Genera musica di qualità da studio 15× più velocemente con la tecnologia di diffusione rivoluzionaria.

EchoMimic | Animazioni di Ritratti Guidate dall'Audio

Genera teste parlanti realistiche e gesti del corpo sincronizzati con l'audio fornito.

ACE++ Coerenza del Personaggio

Genera immagini coerenti del tuo personaggio tra pose, angolazioni e stili da una singola foto.

SUPIR | Upscaler Foto-Realistico per Immagini/Video

SUPIR consente il restauro foto-realistico delle immagini, funziona con il modello SDXL e supporta il miglioramento dei prompt testuali.

ReActor | Scambio di Facce Rapido

Con ComfyUI ReActor, puoi facilmente scambiare le facce di uno o più personaggi in immagini o video.

Consistent Character Creator 3.0 | Coerenza Facile, Qualsiasi Angolazione

Fai in modo che i personaggi rimangano gli stessi, ogni angolazione, forti e perfetti.

Animazione Controllabile nel Video AI | Strumento di Controllo del Movimento

Fai in modo che i video seguano istantaneamente e con precisione le tue regole di movimento.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.