Stable Audio Open 1.0 in ComfyUI | Text-zu-Musik-Workflow

Stable Audio Open 1.0 Text-zu-Musik-Workflow

Dieser Workflow verwandelt einfachen Text in Originalmusik und Klanglandschaften mit Stable Audio Open 1.0. Er ist für Komponisten, Sounddesigner und Kreative konzipiert, die schnelle, kontrollierbare Audiogenerierung wünschen, ohne ComfyUI zu verlassen. Sie schreiben eine Vorgabe, setzen eine Zieldauer, und der Graph rendert eine MP3, die Ihren Stil, Ihre Stimmung, Ihr Tempo und Ihre Instrumentierung widerspiegelt.

Unter der Haube kodiert der Workflow Ihren Text mit einem T5-basierten Text-Encoder, führt Stable Audio’s Diffusionsprozess im latenten Audiobereich durch, dekodiert dann zu einer Wellenform und speichert das Ergebnis. Mit klaren Vorgabenanleitungen und einer einfachen Längensteuerung wird die Stable Audio-Generierung vorhersehbar und wiederholbar für filmische, ambientale oder experimentelle Tracks.

Schlüsselmodelle im ComfyUI Stable Audio-Workflow

Stable Audio Open 1.0. Open-weights latentes Diffusionsmodell für Text-zu-Musik und Sounddesign von Stability AI. Es ordnet Textabsichten Audiolatenten zu und unterstützt verschiedene musikalische Stile und Strukturen. Repository • Weights
T5-Base Text Encoder. Allgemein verwendetes Textmodell, das hier verwendet wird, um Vorgaben für die Konditionierung der Stable Audio-Generierung einzubetten. Klare, beschreibende Eingaben führen zu konsistenterer Musik. Model card

So verwenden Sie den ComfyUI Stable Audio-Workflow

Der Graph fließt vom Modellladen zur Vorgabenkonditionierung, dann zum Sampling, Dekodieren und Speichern. Gruppen sind organisiert, sodass Sie Modelle einmal festlegen, die Länge anpassen, Ihre Vorgabe schreiben und rendern können.

Modelle laden

Diese Gruppe initialisiert die Kernassets. CheckpointLoaderSimple (#4) lädt den Stable Audio Open 1.0 Checkpoint, der das Diffusionsmodell und sein Audio VAE enthält. CLIPLoader (#10) lädt den T5-basierten Text-Encoder, der für die Konditionierung verwendet wird. Sobald geladen, bieten diese Modelle das Rückgrat für die Stable Audio-Generierung und bleiben für nachfolgende Durchläufe im Speicher.

Länge

Diese Gruppe definiert, wie lange Ihr Audio sein wird. EmptyLatentAudio (#11) erstellt eine leere latente Spur mit Ihrer gewählten Dauer, sodass der Sampler weiß, wie viele Frames er generieren muss. Längere Clips verbrauchen mehr Zeit und Speicher, daher beginnen Sie bescheiden und skalieren dann. Sie können auch mehrere Variationen erzeugen, indem Sie die Batch-Dimension erhöhen, wenn Sie Ideen erkunden.

Vorgabe

Diese Gruppe verwandelt Text in die Leitsignale für den Diffusionsprozess. Verwenden Sie CLIPTextEncode (#6), um eine positive Vorgabe mit Instrumenten, Genre, Stimmung, Tempo und Produktionshinweisen zu schreiben, zum Beispiel: "üppiges filmisches Orchester, schwingende Streicher und Blechbläser, tiefe Percussion, ambient Pads, 90 BPM, erhebend." Verwenden Sie CLIPTextEncode (#7) für eine negative Vorgabe, um Artefakte wie "raues Rauschen, Clipping, Verzerrung" zu unterdrücken. Gemeinsam lenken sie Stable Audio in die gewünschten Texturen und Strukturen.

Generieren und exportieren

KSampler (#3) führt die Diffusionsschritte aus, die das leere Latente in ein musikalisches Latente verwandeln, das von Ihren Textkodierungen geleitet wird. VAEDecodeAudio (#12) wandelt das latente Audio zurück in eine Wellenform um. Schließlich schreibt SaveAudioMP3 (#19) eine MP3-Datei, sodass Sie sie überprüfen oder direkt in Ihre Timeline einfügen können. Für iterative Arbeiten passen Sie das Dateinamenpräfix an, um Takes organisiert zu halten.

Schlüssel-Knoten im ComfyUI Stable Audio-Workflow

CLIPTextEncode (#6) Dieser Knoten kodiert Ihre positive Vorgabe in eine Konditionierung, der Stable Audio folgt. Priorisieren Sie klare Instrumentenlisten, Genre, Stimmung, Tempo oder BPM und Produktionsbegriffe wie "warm," "lo-fi," "cinematic," oder "ambient." Subtile Wortänderungen können die Komposition bedeutend verschieben. Siehe ComfyUI-Kernknoten für allgemeines Verhalten. ComfyUI
CLIPTextEncode (#7) Die negative Vorgabe hilft, unerwünschte Klangfarben oder Mixprobleme zu vermeiden. Fügen Sie Begriffe hinzu, die beschreiben, was entfernt werden soll, zum Beispiel "kreischend, metallisches Klingeln, Glitch-Pops, Radio-Rauschen." Diese prägnant zu halten, führt oft zu saubereren Stable Audio-Renderings. ComfyUI
EmptyLatentAudio (#11) Steuert die Clip-Dauer in Sekunden und optional die Batch-Anzahl für mehrere Variationen. Erhöhen Sie die Sekunden für längere Stücke, beachten Sie, dass die Berechnung mit der Länge skaliert. Verwenden Sie die Batch-Generierung, um mehrere Stable Audio-Takes aus einer einzigen Vorgabe zu hören. ComfyUI
KSampler (#3) Treibt den Diffusionsprozess für Audio-Latente an. Die einflussreichsten Steuerungen sind steps, sampler, cfg und seed. Erhöhen Sie steps für mehr verfeinerte Details, passen Sie cfg an, um die Vorgabentreue mit Kreativität auszubalancieren, und setzen Sie einen festen seed, um einen Take zu reproduzieren oder ihn für neue Ideen zu variieren. Siehe ComfyUI’s Sampler-Hinweise für allgemeine Anleitung. ComfyUI
SaveAudioMP3 (#19) Exportiert die finale Wellenform in eine MP3. Verwenden Sie das filename_prefix, um Versionen zu kennzeichnen und Iterationen ordentlich zu halten. Beim Vergleich von Vorgaben oder Seeds beschleunigt das Speichern mehrerer Takes nebeneinander die Auswahl von Stable Audio. ComfyUI

Optionale Extras

Schreiben Sie Vorgaben wie ein Session-Briefing: Instrumente, Genre, Stimmung, Tempo oder BPM und Mix-Adjektive.
Verwenden Sie kurze, fokussierte negative Vorgaben, um Rauschen, Härte oder unerwünschte Instrumente zu reduzieren.
Sperren Sie seed, während Sie Text iterieren, und ändern Sie seed, um neue Stable Audio-Variationen zu erkunden.
Beginnen Sie mit kürzeren Dauern, um den Stil einzustellen, und verlängern Sie dann, wenn der Klang stimmt.
Halten Sie ein konsistentes Dateinamenpräfix pro Konzept, damit Sie später Stable Audio-Takes A/B testen können.

Ressourcen für tiefere Lektüre: Stable Audio-Modell-Details und Beispiele hier, ComfyUI-Kern und Knotenverhalten hier, und die T5-Base Modellkarte hier.

Danksagungen

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Stability AI für Stable Audio Open, comfyanonymous (ComfyUI) für die ComfyUI-Knoten und Workflow-Referenzen, und Comfy-Org und ComfyUI-Wiki für den Stable Audio Open 1.0 Checkpoint und den T5-Base Text-Encoder für ihre Beiträge und Wartung. Für autoritative Details verweisen Sie bitte auf die unten verlinkte Originaldokumentation und Repositories.

Ressourcen

Comfy-Org/Stable Audio Open 1.0 Workflow
- GitHub: Stability-AI/stable-audio-open

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.

Want More ComfyUI Workflows?

MMAudio | Video-to-Audio

MMAudio: Fortgeschrittenes Video-zu-Audio-Modell für hochwertige Audiogenerierung.

ACE-Step Musikgenerierung | KI-Audioerstellung

Erzeugen Sie Studioqualität-Musik 15× schneller mit bahnbrechender Diffusionstechnologie.

EchoMimic | Audiogesteuerte Portraitanimationen

Erzeugen Sie realistische sprechende Köpfe und Körpergesten, die mit dem bereitgestellten Audio synchronisiert sind.

ACE++ Charakterkonsistenz

Erzeugen Sie konsistente Bilder Ihres Charakters über Posen, Winkel und Stile hinweg aus einem einzigen Foto.

ComfyUI + TouchDesigner | Audioreagierende Visuals

Visuals in ComfyUI rendern und Audio in TouchDesigner für dynamische audioreagierende Videos synchronisieren.

LTX Video | Bild+Text zu Video

Erzeugt Videos aus Bild+Text-Eingaben.

BAGEL AI | T2I + I2T + I2I

Multimodales Verständnis und Generierung mit Open-Source AI.

Wan2.1 Stand In | Konsistenter Charakter-Video-Ersteller

Hält Charaktere über das Video hinweg konsistent, basierend auf nur einem Referenzbild.

Support

Ressourcen

Rechtliches

RunComfy

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI Models, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.

Stable Audio Open 1.0 | Text-zu-Musik-Werkzeug

Stable Audio Open 1.0 Text-zu-Musik-Workflow

Schlüsselmodelle im ComfyUI Stable Audio-Workflow

So verwenden Sie den ComfyUI Stable Audio-Workflow

Modelle laden

Länge

Vorgabe

Generieren und exportieren

Schlüssel-Knoten im ComfyUI Stable Audio-Workflow

Optionale Extras

Danksagungen

Ressourcen

Want More ComfyUI Workflows?

MMAudio | Video-to-Audio

ACE-Step Musikgenerierung | KI-Audioerstellung

EchoMimic | Audiogesteuerte Portraitanimationen

ACE++ Charakterkonsistenz

ComfyUI + TouchDesigner | Audioreagierende Visuals

LTX Video | Bild+Text zu Video

BAGEL AI | T2I + I2T + I2I

Wan2.1 Stand In | Konsistenter Charakter-Video-Ersteller