Dieser Workflow verwandelt einfachen Text in Originalmusik und Klanglandschaften mit Stable Audio Open 1.0. Er ist für Komponisten, Sounddesigner und Kreative konzipiert, die schnelle, kontrollierbare Audiogenerierung wünschen, ohne ComfyUI zu verlassen. Sie schreiben eine Vorgabe, setzen eine Zieldauer, und der Graph rendert eine MP3, die Ihren Stil, Ihre Stimmung, Ihr Tempo und Ihre Instrumentierung widerspiegelt.
Unter der Haube kodiert der Workflow Ihren Text mit einem T5-basierten Text-Encoder, führt Stable Audio’s Diffusionsprozess im latenten Audiobereich durch, dekodiert dann zu einer Wellenform und speichert das Ergebnis. Mit klaren Vorgabenanleitungen und einer einfachen Längensteuerung wird die Stable Audio-Generierung vorhersehbar und wiederholbar für filmische, ambientale oder experimentelle Tracks.
Der Graph fließt vom Modellladen zur Vorgabenkonditionierung, dann zum Sampling, Dekodieren und Speichern. Gruppen sind organisiert, sodass Sie Modelle einmal festlegen, die Länge anpassen, Ihre Vorgabe schreiben und rendern können.
Diese Gruppe initialisiert die Kernassets. CheckpointLoaderSimple (#4) lädt den Stable Audio Open 1.0 Checkpoint, der das Diffusionsmodell und sein Audio VAE enthält. CLIPLoader (#10) lädt den T5-basierten Text-Encoder, der für die Konditionierung verwendet wird. Sobald geladen, bieten diese Modelle das Rückgrat für die Stable Audio-Generierung und bleiben für nachfolgende Durchläufe im Speicher.
Diese Gruppe definiert, wie lange Ihr Audio sein wird. EmptyLatentAudio (#11) erstellt eine leere latente Spur mit Ihrer gewählten Dauer, sodass der Sampler weiß, wie viele Frames er generieren muss. Längere Clips verbrauchen mehr Zeit und Speicher, daher beginnen Sie bescheiden und skalieren dann. Sie können auch mehrere Variationen erzeugen, indem Sie die Batch-Dimension erhöhen, wenn Sie Ideen erkunden.
Diese Gruppe verwandelt Text in die Leitsignale für den Diffusionsprozess. Verwenden Sie CLIPTextEncode (#6), um eine positive Vorgabe mit Instrumenten, Genre, Stimmung, Tempo und Produktionshinweisen zu schreiben, zum Beispiel: "üppiges filmisches Orchester, schwingende Streicher und Blechbläser, tiefe Percussion, ambient Pads, 90 BPM, erhebend." Verwenden Sie CLIPTextEncode (#7) für eine negative Vorgabe, um Artefakte wie "raues Rauschen, Clipping, Verzerrung" zu unterdrücken. Gemeinsam lenken sie Stable Audio in die gewünschten Texturen und Strukturen.
KSampler (#3) führt die Diffusionsschritte aus, die das leere Latente in ein musikalisches Latente verwandeln, das von Ihren Textkodierungen geleitet wird. VAEDecodeAudio (#12) wandelt das latente Audio zurück in eine Wellenform um. Schließlich schreibt SaveAudioMP3 (#19) eine MP3-Datei, sodass Sie sie überprüfen oder direkt in Ihre Timeline einfügen können. Für iterative Arbeiten passen Sie das Dateinamenpräfix an, um Takes organisiert zu halten.
CLIPTextEncode (#6)
Dieser Knoten kodiert Ihre positive Vorgabe in eine Konditionierung, der Stable Audio folgt. Priorisieren Sie klare Instrumentenlisten, Genre, Stimmung, Tempo oder BPM und Produktionsbegriffe wie "warm," "lo-fi," "cinematic," oder "ambient." Subtile Wortänderungen können die Komposition bedeutend verschieben. Siehe ComfyUI-Kernknoten für allgemeines Verhalten. ComfyUI
CLIPTextEncode (#7)
Die negative Vorgabe hilft, unerwünschte Klangfarben oder Mixprobleme zu vermeiden. Fügen Sie Begriffe hinzu, die beschreiben, was entfernt werden soll, zum Beispiel "kreischend, metallisches Klingeln, Glitch-Pops, Radio-Rauschen." Diese prägnant zu halten, führt oft zu saubereren Stable Audio-Renderings. ComfyUI
EmptyLatentAudio (#11)
Steuert die Clip-Dauer in Sekunden und optional die Batch-Anzahl für mehrere Variationen. Erhöhen Sie die Sekunden für längere Stücke, beachten Sie, dass die Berechnung mit der Länge skaliert. Verwenden Sie die Batch-Generierung, um mehrere Stable Audio-Takes aus einer einzigen Vorgabe zu hören. ComfyUI
KSampler (#3)
Treibt den Diffusionsprozess für Audio-Latente an. Die einflussreichsten Steuerungen sind steps, sampler, cfg und seed. Erhöhen Sie steps für mehr verfeinerte Details, passen Sie cfg an, um die Vorgabentreue mit Kreativität auszubalancieren, und setzen Sie einen festen seed, um einen Take zu reproduzieren oder ihn für neue Ideen zu variieren. Siehe ComfyUI’s Sampler-Hinweise für allgemeine Anleitung. ComfyUI
SaveAudioMP3 (#19)
Exportiert die finale Wellenform in eine MP3. Verwenden Sie das filename_prefix, um Versionen zu kennzeichnen und Iterationen ordentlich zu halten. Beim Vergleich von Vorgaben oder Seeds beschleunigt das Speichern mehrerer Takes nebeneinander die Auswahl von Stable Audio. ComfyUI
seed, während Sie Text iterieren, und ändern Sie seed, um neue Stable Audio-Variationen zu erkunden.Ressourcen für tiefere Lektüre: Stable Audio-Modell-Details und Beispiele hier, ComfyUI-Kern und Knotenverhalten hier, und die T5-Base Modellkarte hier.
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Stability AI für Stable Audio Open, comfyanonymous (ComfyUI) für die ComfyUI-Knoten und Workflow-Referenzen, und Comfy-Org und ComfyUI-Wiki für den Stable Audio Open 1.0 Checkpoint und den T5-Base Text-Encoder für ihre Beiträge und Wartung. Für autoritative Details verweisen Sie bitte auf die unten verlinkte Originaldokumentation und Repositories.
Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.
RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI-Spielplatz, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.