Stable Audio 3.0 Medium Base Workflow in ComfyUI

ComfyUI Stable Audio 3.0 Medium Base workflow Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Stable Audio 3.0 Medium Base workflow Examples

Stable Audio 3.0 Medium Base Workflow für langformige Text-zu-Audio in ComfyUI#

Dieser Stable Audio 3.0 Medium Base Workflow verwandelt kurze Textideen in längere, musikalischere Stereo-Audios. Er basiert auf dem stable_audio_3_medium_base Checkpoint mit T5-Gemma und Qwen3.5 Text-Encodern, um promptgesteuerte Musikskizzen, Ambiente-Betten, SFX und One-Shots mit reproduzierbaren Einstellungen in ComfyUI zu liefern.

Der Graph enthält ein optionales kategoriebezogenes Reprompt-System, das Ihre kurze Idee in einen dichten, produktionsreifen Prompt erweitern kann, bevor die Synthese erfolgt. Sie wählen die Kategorie, Dauer und den Seed aus, dann konditioniert die Pipeline Stable Audio 3 und rendert Audio, das als MP3 gespeichert wird. Der Workflow folgt der offiziellen Vorlage und den Assets, die von Comfy-Org für Stable Audio 3.0 Medium Base bereitgestellt werden. Siehe die Referenzvorlage und Modelle unter Comfy-Org/workflow_templates und Comfy-Org/stable-audio-3.

Wichtige Modelle im Comfyui Stable Audio 3.0 Medium Base Workflow#

Stable Audio 3 Medium Base Checkpoint. Das Kernmodell, das Stereo-Audio aus Textkonditionierung und Latents synthetisiert. Quelle: Comfy-Org/stable-audio-3.
T5-Gemma Base UL2 Text-Encoder. Erzeugt die Texteingebungen, die Stable Audio 3 für positive und negative Prompts konditionieren. Verpackte Text-Encoder-Datei ist im Verzeichnis text_encoders des Stable Audio 3 Repositories enthalten: Comfy-Org/stable-audio-3.
Qwen3.5 2B Textmodell. Treibt das optionale kategoriebezogene Reprompt an, das eine kurze Idee in eine detaillierte Musik-, Instrument-, SFX- oder One-Shot-Beschreibung erweitert. Quelle: Comfy-Org/Qwen3.5.

So verwenden Sie den Comfyui Stable Audio 3.0 Medium Base Workflow#

Auf hoher Ebene geben Sie eine kurze Idee und eine Zielzeitdauer an. Der Graph kann Ihre Worte unverändert lassen oder Qwen3.5 verwenden, um sie über eine Kategorievorlage umzuschreiben. Das Ergebnis wird zur Konditionierung kodiert, von Stable Audio 3 abgetastet, in Audio dekodiert und gespeichert.

Benutzereingaben: Prompt und Dauer#

Der Untergraph Audio Generation (Stable Audio 3 Medium Base) (#52) legt user_input, duration, seed, use_reprompt und category offen. Schreiben Sie eine kurze Idee in einfacher Sprache, wie z.B. einen Stil, eine Instrumentenliste, eine Stimmung und ein optionales BPM. Wählen Sie eine Clip-Länge in Sekunden und legen Sie einen seed für Reproduzierbarkeit oder Variation fest. Schalten Sie use_reprompt ein, wenn Sie die vorlagengetriebene Umschreibung wünschen, und wählen Sie dann eine category wie Musik, Instrument, SFX oder One-Shot aus.

Lader: Checkpoint und Text-Encoder#

CheckpointLoaderSimple (#25) lädt stable_audio_3_medium_base.safetensors, das MODEL und VAE bereitstellt, die später für das Sampling und Dekodieren verwendet werden. CLIPLoader (#26) lädt den T5-Gemma-Encoder, der für die Konditionierung verwendet wird. Ein zweiter CLIPLoader (#29) lädt das Qwen3.5-Modell, das die Reprompt-Phase antreibt.

Reprompt: JSON-Vorlagen und Kategorie#

Ein Kategorieauswahl CustomCombo (#43) speist ein großes JSON von System-Prompts in JsonExtractString (#49) ein. Die ausgewählte Vorlage wird in einen Meta-Prompt von Text Replace (PROMPT TEMPLATE) (#38) eingefügt. Ihr user_input wird von Text Replace (USER INPUT) (#39) injiziert, und die Zielzeit wird mit Text Replace (AUDIO LENGTH) (#40) eingefügt, um die Umschreibung mit Ihrer gewählten Dauer abzugleichen.

Reprompt: Qwen TextGenerate#

TextGenerate (#28) verwendet Qwen3.5, um die zusammengestellte Vorlage plus Ihre Idee in einen prägnanten, detaillierten Prompt zu verwandeln, der kategoriespezifischen Regeln folgt. Diese Phase ist besonders hilfreich für längere musikalische Strukturen und für SFX, bei denen konkrete technische Sprache wichtig ist. Die Prompt-Umschreibung ist vorschaubar, sodass Sie schnell an der Kategorieauswahl und Formulierung arbeiten können.

Umschalten zwischen Original- und umgeschriebenem Text#

ComfySwitchNode (#34) wählt entweder Ihren Originaltext oder die von Qwen generierte Umschreibung basierend auf use_reprompt aus. Lassen Sie es eingeschaltet, um strukturierte, längenbewusste Prompts zu erhalten, oder schalten Sie es aus, wenn Sie wörtliche Kontrolle über die Formulierung wünschen. Dieser einfache Schalter macht A/B-Tests unkompliziert.

CLIP Encode: Konditionierung#

CLIPTextEncode (#6) konvertiert den ausgewählten Prompt in die positive Konditionierung, die das Modell antreibt. Ein zweiter CLIPTextEncode (#7) bietet standardmäßig eine neutrale negative Konditionierung. Diese Paarung liefert Stable Audio 3 klare Anweisungen und vermeidet unbeabsichtigte Artefakte.

Audioerzeugung: Stable Audio#

EmptyLatentAudio (#11) erstellt ein Audio-Latent, dessen Länge duration entspricht. KSampler (#3) führt den Entrauschungsprozess mit dem Stable Audio 3 Medium Base MODEL aus dem Checkpoint durch. VAEDecodeAudio (#12) verwandelt das endgültige Latent in eine hörbare Stereo-Wellenform. Da dieselbe duration auch das Reprompt informiert, bleiben die gerenderte Cliplänge und der umgeschriebene Text synchron.

Speichern und Exportieren#

Außerhalb des Untergraphs schreibt SaveAudioMP3 (#19) das Ergebnis in eine MP3-Datei mit einem hilfreichen Präfix zur Organisation. Verwenden Sie dies beim Batch-Generieren von Takes mit unterschiedlichen seed-Werten oder Kategorien, dann hören Sie sich Ihre Favoriten an und behalten Sie sie.

Wichtige Knoten im Comfyui Stable Audio 3.0 Medium Base Workflow#

ComfySwitchNode (#34). Schaltet zwischen dem ursprünglichen user_input und dem von Qwen generierten Text um. Schalten Sie es ein für strukturierte, längenangepasste Umschreibungen oder aus für direkte Kontrolle.
TextGenerate (#28). Führt Qwen3.5 mit einem kategoriespezifischen System-Prompt aus, um Ideen zu erweitern. Um den Umschreibungsstil anzupassen, bearbeiten Sie die Kategorievorlagen in JsonExtractString (#49) und die Klebeprompts in den angrenzenden Text Replace-Knoten.
EmptyLatentAudio (#11). Legt die Clip-Länge fest. Halten Sie dies im Einklang mit dem eingefügten AUDIO_LENGTH-Token, damit die Synthesezeit der textlichen Absicht entspricht.
KSampler (#3). Bestimmt die Entrauschungsbahn für Stable Audio 3. Passen Sie seed für Variationen an, während Sie andere Einstellungen stabil halten, um Takes fair zu vergleichen.
SaveAudioMP3 (#19). Steuert das Dateinamen-Präfix und das Format für den schnellen Bibliotheksaufbau aus mehreren Durchläufen.

Optionale Extras#

Beginnen Sie mit einer ein- oder zweisätzigen Idee, die Genre oder Quelle, Hauptinstrumente oder Texturen und Stimmung benennt. Das Reprompt kann Details wie BPM und Arrangement ergänzen.
Wählen Sie die Kategorie, die Ihrem Ziel entspricht: Musik für vollständige Tracks, Instrument für Loops oder Stems, SFX für Umgebungen und Aktionen, One-Shot für isolierte Treffer.
Halten Sie die Dauer realistisch für Ihren Zielinhalt. Sehr lange Clips sind schwerer zu berechnen und können von einem stabilen seed profitieren, während Sie iterieren.
Wenn die Ergebnisse überladen wirken, deaktivieren Sie das Reprompt und versuchen Sie einen einfacheren Satz, dann aktivieren Sie es erneut, sobald Ihnen die Richtung gefällt.
Für schnelle alternative Takes, halten Sie alles konstant und ändern Sie nur den seed.

Danksagungen#

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Comfy-Org für den ComfyUI Stable Audio 3 Day-0 Support-Artikel, Comfy-Org für die offizielle Stable Audio 3.0 Medium Base Workflow-Vorlage, Comfy-Org für die Stable Audio 3 Modelldateien und Comfy-Org für die Qwen3.5 Encoder Modelldateien für ihre Beiträge und Wartung. Für autoritative Details verweisen wir auf die ursprüngliche Dokumentation und die unten verlinkten Repositories.

Ressourcen#

Comfy-Org/ComfyUI Stable Audio 3 Day-0 Support-Artikel
- Docs / Release Notes: Stable Audio 3 Day-0 Support
Comfy-Org/Offizielle Stable Audio 3.0 Medium Base Workflow-Vorlage
- GitHub: Comfy-Org/workflow_templates
Comfy-Org/Stable Audio 3 Modelldateien
- Hugging Face: Comfy-Org/stable-audio-3
Comfy-Org/Qwen3.5 Encoder Modelldateien
- Hugging Face: Comfy-Org/Qwen3.5

Hinweis: Die Nutzung der genannten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen der Autoren und Betreiber.

Want More ComfyUI Workflows?

Stable Audio Open 1.0 | Text-zu-Musik-Werkzeug

Verwandelt Textvorgaben nahtlos und schnell in filmische Musik.

ACE-Step Musikgenerierung | KI-Audioerstellung

Erzeugen Sie Studioqualität-Musik 15× schneller mit bahnbrechender Diffusionstechnologie.

Ace Step 1.5 | Kommerzieller KI-Musikgenerator

Verwandelt Text in vollständige Songs mit intelligenter Planung und Diffusionskraft.

ACE-Step 1.5XL Base Text zu Musik | KI-Sound-Generator

Verwandelt Ihren Text sofort in reine, von KI erstellte Musik.

ACE-Step 1.5XL Turbo comfyui Arbeitsablauf | Text-zu-Musik-Generator

Verwandelt Ihren Text schnell und klar in erstaunliche Musik.

HiDream O1 Bild ComfyUI Bildbearbeitungs-Workflow | Smart Refine Tool

Bearbeiten Sie Fotos intelligent, während der ursprüngliche Stil erhalten bleibt.

Krea 2 Turbo I2I ComfyUI | Intelligenter Bildstil-Wechsler

Foto-Stile schnell umdrehen. Realismus in Sekunden in Anime verwandeln.

Hallo2 | Lip-Sync-Porträtanimation

Audiogesteuerte Lip-Synchronisation für Porträtanimationen in 4K.

Support

Ressourcen

Rechtliches

RunComfy

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI Models, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.

Stable Audio 3.0 Medium Base | Text-zu-Musik Generator