logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Workflows>Stable Audio Open 1.0 | Text-zu-Musik-Werkzeug

Stable Audio Open 1.0 | Text-zu-Musik-Werkzeug

Workflow Name: RunComfy/Stable-Audio
Workflow ID: 0000...1308
Erzeugen Sie ausdrucksstarke Klanglandschaften und musikalische Kompositionen aus schriftlichen Vorgaben mit diesem Text-zu-Musik-Workflow. Auf dem fortschrittlichen Audio-Diffusionsmodell aufgebaut, bietet es volle Kontrolle über Dauer, Ton und Emotion. Perfekt für Designer und Kreative, die filmische oder ambientale Klangoutputs suchen. Es kodiert Text präzise und verarbeitet ihn in realistischen, hörbaren Audio. Erhalten Sie konsistente Qualität und Flexibilität für jedes kreative Thema oder jede Stimmung.

Stable Audio Open 1.0 Text-zu-Musik-Workflow

Dieser Workflow verwandelt einfachen Text in Originalmusik und Klanglandschaften mit Stable Audio Open 1.0. Er ist für Komponisten, Sounddesigner und Kreative konzipiert, die schnelle, kontrollierbare Audiogenerierung wünschen, ohne ComfyUI zu verlassen. Sie schreiben eine Vorgabe, setzen eine Zieldauer, und der Graph rendert eine MP3, die Ihren Stil, Ihre Stimmung, Ihr Tempo und Ihre Instrumentierung widerspiegelt.

Unter der Haube kodiert der Workflow Ihren Text mit einem T5-basierten Text-Encoder, führt Stable Audio’s Diffusionsprozess im latenten Audiobereich durch, dekodiert dann zu einer Wellenform und speichert das Ergebnis. Mit klaren Vorgabenanleitungen und einer einfachen Längensteuerung wird die Stable Audio-Generierung vorhersehbar und wiederholbar für filmische, ambientale oder experimentelle Tracks.

Schlüsselmodelle im ComfyUI Stable Audio-Workflow

  • Stable Audio Open 1.0. Open-weights latentes Diffusionsmodell für Text-zu-Musik und Sounddesign von Stability AI. Es ordnet Textabsichten Audiolatenten zu und unterstützt verschiedene musikalische Stile und Strukturen. Repository • Weights
  • T5-Base Text Encoder. Allgemein verwendetes Textmodell, das hier verwendet wird, um Vorgaben für die Konditionierung der Stable Audio-Generierung einzubetten. Klare, beschreibende Eingaben führen zu konsistenterer Musik. Model card

So verwenden Sie den ComfyUI Stable Audio-Workflow

Der Graph fließt vom Modellladen zur Vorgabenkonditionierung, dann zum Sampling, Dekodieren und Speichern. Gruppen sind organisiert, sodass Sie Modelle einmal festlegen, die Länge anpassen, Ihre Vorgabe schreiben und rendern können.

Modelle laden

Diese Gruppe initialisiert die Kernassets. CheckpointLoaderSimple (#4) lädt den Stable Audio Open 1.0 Checkpoint, der das Diffusionsmodell und sein Audio VAE enthält. CLIPLoader (#10) lädt den T5-basierten Text-Encoder, der für die Konditionierung verwendet wird. Sobald geladen, bieten diese Modelle das Rückgrat für die Stable Audio-Generierung und bleiben für nachfolgende Durchläufe im Speicher.

Länge

Diese Gruppe definiert, wie lange Ihr Audio sein wird. EmptyLatentAudio (#11) erstellt eine leere latente Spur mit Ihrer gewählten Dauer, sodass der Sampler weiß, wie viele Frames er generieren muss. Längere Clips verbrauchen mehr Zeit und Speicher, daher beginnen Sie bescheiden und skalieren dann. Sie können auch mehrere Variationen erzeugen, indem Sie die Batch-Dimension erhöhen, wenn Sie Ideen erkunden.

Vorgabe

Diese Gruppe verwandelt Text in die Leitsignale für den Diffusionsprozess. Verwenden Sie CLIPTextEncode (#6), um eine positive Vorgabe mit Instrumenten, Genre, Stimmung, Tempo und Produktionshinweisen zu schreiben, zum Beispiel: "üppiges filmisches Orchester, schwingende Streicher und Blechbläser, tiefe Percussion, ambient Pads, 90 BPM, erhebend." Verwenden Sie CLIPTextEncode (#7) für eine negative Vorgabe, um Artefakte wie "raues Rauschen, Clipping, Verzerrung" zu unterdrücken. Gemeinsam lenken sie Stable Audio in die gewünschten Texturen und Strukturen.

Generieren und exportieren

KSampler (#3) führt die Diffusionsschritte aus, die das leere Latente in ein musikalisches Latente verwandeln, das von Ihren Textkodierungen geleitet wird. VAEDecodeAudio (#12) wandelt das latente Audio zurück in eine Wellenform um. Schließlich schreibt SaveAudioMP3 (#19) eine MP3-Datei, sodass Sie sie überprüfen oder direkt in Ihre Timeline einfügen können. Für iterative Arbeiten passen Sie das Dateinamenpräfix an, um Takes organisiert zu halten.

Schlüssel-Knoten im ComfyUI Stable Audio-Workflow

  • CLIPTextEncode (#6) Dieser Knoten kodiert Ihre positive Vorgabe in eine Konditionierung, der Stable Audio folgt. Priorisieren Sie klare Instrumentenlisten, Genre, Stimmung, Tempo oder BPM und Produktionsbegriffe wie "warm," "lo-fi," "cinematic," oder "ambient." Subtile Wortänderungen können die Komposition bedeutend verschieben. Siehe ComfyUI-Kernknoten für allgemeines Verhalten. ComfyUI

  • CLIPTextEncode (#7) Die negative Vorgabe hilft, unerwünschte Klangfarben oder Mixprobleme zu vermeiden. Fügen Sie Begriffe hinzu, die beschreiben, was entfernt werden soll, zum Beispiel "kreischend, metallisches Klingeln, Glitch-Pops, Radio-Rauschen." Diese prägnant zu halten, führt oft zu saubereren Stable Audio-Renderings. ComfyUI

  • EmptyLatentAudio (#11) Steuert die Clip-Dauer in Sekunden und optional die Batch-Anzahl für mehrere Variationen. Erhöhen Sie die Sekunden für längere Stücke, beachten Sie, dass die Berechnung mit der Länge skaliert. Verwenden Sie die Batch-Generierung, um mehrere Stable Audio-Takes aus einer einzigen Vorgabe zu hören. ComfyUI

  • KSampler (#3) Treibt den Diffusionsprozess für Audio-Latente an. Die einflussreichsten Steuerungen sind steps, sampler, cfg und seed. Erhöhen Sie steps für mehr verfeinerte Details, passen Sie cfg an, um die Vorgabentreue mit Kreativität auszubalancieren, und setzen Sie einen festen seed, um einen Take zu reproduzieren oder ihn für neue Ideen zu variieren. Siehe ComfyUI’s Sampler-Hinweise für allgemeine Anleitung. ComfyUI

  • SaveAudioMP3 (#19) Exportiert die finale Wellenform in eine MP3. Verwenden Sie das filename_prefix, um Versionen zu kennzeichnen und Iterationen ordentlich zu halten. Beim Vergleich von Vorgaben oder Seeds beschleunigt das Speichern mehrerer Takes nebeneinander die Auswahl von Stable Audio. ComfyUI

Optionale Extras

  • Schreiben Sie Vorgaben wie ein Session-Briefing: Instrumente, Genre, Stimmung, Tempo oder BPM und Mix-Adjektive.
  • Verwenden Sie kurze, fokussierte negative Vorgaben, um Rauschen, Härte oder unerwünschte Instrumente zu reduzieren.
  • Sperren Sie seed, während Sie Text iterieren, und ändern Sie seed, um neue Stable Audio-Variationen zu erkunden.
  • Beginnen Sie mit kürzeren Dauern, um den Stil einzustellen, und verlängern Sie dann, wenn der Klang stimmt.
  • Halten Sie ein konsistentes Dateinamenpräfix pro Konzept, damit Sie später Stable Audio-Takes A/B testen können.

Ressourcen für tiefere Lektüre: Stable Audio-Modell-Details und Beispiele hier, ComfyUI-Kern und Knotenverhalten hier, und die T5-Base Modellkarte hier.

Danksagungen

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Stability AI für Stable Audio Open, comfyanonymous (ComfyUI) für die ComfyUI-Knoten und Workflow-Referenzen, und Comfy-Org und ComfyUI-Wiki für den Stable Audio Open 1.0 Checkpoint und den T5-Base Text-Encoder für ihre Beiträge und Wartung. Für autoritative Details verweisen Sie bitte auf die unten verlinkte Originaldokumentation und Repositories.

Ressourcen

  • Comfy-Org/Stable Audio Open 1.0 Workflow
    • GitHub: Stability-AI/stable-audio-open

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.

Want More ComfyUI Workflows?

MMAudio | Video-to-Audio

MMAudio: Fortgeschrittenes Video-zu-Audio-Modell für hochwertige Audiogenerierung.

ACE-Step Musikgenerierung | KI-Audioerstellung

Erzeugen Sie Studioqualität-Musik 15× schneller mit bahnbrechender Diffusionstechnologie.

EchoMimic | Audiogesteuerte Portraitanimationen

Erzeugen Sie realistische sprechende Köpfe und Körpergesten, die mit dem bereitgestellten Audio synchronisiert sind.

ACE++ Charakterkonsistenz

Erzeugen Sie konsistente Bilder Ihres Charakters über Posen, Winkel und Stile hinweg aus einem einzigen Foto.

Reallusion AI Render | 3D zu ComfyUI Workflows Sammlung

ComfyUI + Reallusion = Geschwindigkeit, Zugänglichkeit und Einfachheit für 3D-Visualisierungen

IPAdapter Plus (V2) + ControlNet | Bild zu Video

Konvertieren Sie Bilder in Animationen mit ComfyUI IPAdapter Plus und ControlNet QRCode.

Stable Cascade | Text to Image

Stable Cascade | Text to Image

Stable Cascade, ein Text-to-Image-Modell, das in Prompt-Ausrichtung und Ästhetik hervorragend ist.

Reallusion AI Render | 3D zu ComfyUI Workflows Sammlung

ComfyUI + Reallusion = Geschwindigkeit, Zugänglichkeit und Einfachheit für 3D-Visualisierungen

Folge uns
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Support
  • Discord
  • E-Mail
  • Systemstatus
  • Partner
Ressourcen
  • Kostenloses ComfyUI Online
  • ComfyUI Anleitungen
  • RunComfy API
  • ComfyUI Tutorials
  • ComfyUI Nodes
  • Erfahre mehr
Rechtliches
  • Nutzungsbedingungen
  • Datenschutzrichtlinie
  • Cookie-Richtlinie
RunComfy
Urheberrecht 2025 RunComfy. Alle Rechte vorbehalten.

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI-Spielplatz, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.