ACE-Step 1.5XL Turbo Text-zu-Musik ComfyUI Arbeitsablauf
Verwandeln Sie kompakte Eingaben in polierte MP3-Musik mit diesem comfyui Arbeitsablauf, der auf Geschwindigkeit und Wiederholbarkeit fokussiert ist. Er kombiniert den ACE-Step 1.5XL Turbo Generator mit seinem offiziellen VAE und doppelten Qwen-Textcodierern und exportiert dann direkt nach MP3 für einfache Vorschau und Wiederverwendung. Produzenten, Sounddesigner und Eingabekünstler können schnell iterieren und dabei die Konsistenz der Ergebnisse über verschiedene Durchläufe hinweg bewahren.
Wichtige Modelle in diesem comfyui Arbeitsablauf
- ACE-Step 1.5XL Turbo (bf16). Das Kerndiffusionsmodell, das Musik aus Textkonditionierung synthetisiert, optimiert für schnelles Entrauschen und hochwertige Audiolatente. Modelldatei
- ACE-Step 1.5 VAE. Der Decoder, der Audiolatente in eine endgültige Wellenform umwandelt und dabei Timbre und Dynamik bewahrt, die von der ACE-Step-Familie erwartet werden. Modelldatei
- Qwen 0.6B ACE 1.5 Textcodierer. Leichter Codierer, der Ihre beschreibende Eingabe in Konditionierungsvektoren umwandelt, die vom Generator verwendet werden. Modelldatei
- Qwen 4B ACE 1.5 Textcodierer. Größerer Begleitcodierer, der Semantik, Stilhinweise, Instrumente und Gesangshinweise für treuere Wiedergaben bereichert. Modelldatei
So verwenden Sie diesen comfyui Arbeitsablauf
Der Graph ist in zwei Hauptgruppen plus globale Steuerungen organisiert. Sie laden den ACE-Step Modellstapel, beschreiben die gewünschte Musik, legen Songdauer und Seed fest, dann probieren, decodieren und exportieren Sie nach MP3.
Modellgruppe
Dieser Abschnitt initialisiert den Modellstapel, den der Generator erwartet. UNETLoader (#104) lädt ACE-Step 1.5XL Turbo, und VAELoader (#106) bringt den passenden ACE-Step 1.5 VAE ein, sodass das Decodieren treu bleibt. DualCLIPLoader (#105) kombiniert die Qwen 0.6B und 4B Textcodierer, um Eingabekodierungen vorzubereiten. Der UNet wird durch ModelSamplingAuraFlow (#78) geleitet, was die Sampler-Konfiguration anwendet, die das Modell vor dem Entrauschen benötigt.
Eingabegruppe
Schreiben Sie eine prägnante Beschreibung des Genres, der Stimmung, der Instrumente, des Gesangs, des Tempos und des Produktionsstils in TextEncodeAceStepAudio1.5 (#94). Wenn Sie Texte oder strukturelle Notizen verwenden, geben Sie diese im sekundären Textfeld an, damit die Codierer Phrasierung und Dynamik konditionieren können. Negative Konditionierung ist absichtlich über ConditioningZeroOut (#47) deaktiviert, um die Ausgaben fokussiert zu halten und frühe Iterationen zu vereinfachen. Der Knoten akzeptiert auch die globalen duration und seed, wodurch sichergestellt wird, dass die Konditionierung mit der Tracklänge und Ihren Wiederholbarkeitseinstellungen übereinstimmt.
Dauer und Seed
Legen Sie die Tracklänge in Sekunden mit Float (Duration) (#99) fest. Wählen Sie einen seed in Int (Seed) (#109), um Durchläufe reproduzierbar über sowohl den Codierer als auch den Sampler zu machen. Dieselbe Seed beizubehalten, während nur die Eingabe geändert wird, ist eine zuverlässige Möglichkeit, kreative Richtungen zu testen. Für eine breite Erkundung variieren Sie die Seed, nachdem Sie mit der Eingabe zufrieden sind.
Latentes Audio-Setup
EmptyAceStep1.5LatentAudio (#98) erstellt ein leeres Audiolatent, das Ihrer gewählten Dauer entspricht. Dies dient als Leinwand, die der Sampler während des Entrauschens füllen wird. Längere Dauern erfordern mehr Rechenleistung, daher sollten Sie kürzer beginnen, um eine Eingabe zu validieren, bevor Sie die Länge erhöhen. Der Arbeitsablauf verdrahtet die Dauer global, sodass Ihr Latent und die Konditionierung immer synchron bleiben.
Entrauschen und Sampling
KSampler (#3) führt den Diffusionsprozess mit dem ACE-Step 1.5XL Turbo Modell und Ihrer Eingabekonditionierung durch. Der Samplerpfad läuft durch ModelSamplingAuraFlow (#78), um die vom Modell erwarteten Scheduler-Einstellungen für eine stabile, schnelle Konvergenz zu erfüllen. Verwenden Sie dieselbe Seed, um Änderungen an Formulierungen oder Stil zu vergleichen, und passen Sie die Samplereinstellungen nur an, wenn Ihre Eingabe eingestellt ist. Wenn der Sampler fertig ist, haben Sie ein Audiolatent, das zum Decodieren bereit ist.
Decodieren und Exportieren
VAEDecodeAudio (#18) wandelt das Latent in eine Wellenform mit dem ACE-Step 1.5 VAE um, um das beabsichtigte Timbre zu bewahren. SaveAudioMP3 (#107) schreibt ein MP3 mit einem Basisdateinamen und optionalem Versionstag, sodass Sie Aufnahmen organisiert halten können. MP3 ist ideal für schnelle Überprüfung und Teilen, und Sie können jederzeit neu rendern oder in ein anderes Format exportieren. Das Ergebnis erscheint an Ihrem Standard-ComfyUI-Ausgabeort.
Wichtige Knoten in diesem comfyui Arbeitsablauf
TextEncodeAceStepAudio1.5 (#94)
Dieser Knoten übersetzt Ihre musikalische Beschreibung und optionalen Texte in eine Konditionierung für den Generator unter Verwendung der gepaarten Qwen-Codierer. Halten Sie Eingaben spezifisch in Bezug auf Genre, Instrumentierung, Gesangspräsenz, Tempo, Stimmung und Mix-Charakter. Stellen Sie sicher, dass die duration des Knotens mit der globalen Songlänge übereinstimmt, sodass Struktur und Phrasierung ausgerichtet sind. Verwenden Sie eine feste seed, während Sie an der Formulierung arbeiten, um zu verstehen, wie Begriffe Arrangement und Timbre beeinflussen.
EmptyAceStep1.5LatentAudio (#98)
Steuert die Zeit-Leinwand, die das Modell füllen wird. Die Erhöhung der Dauer erhöht den Speicher- und Renderzeitbedarf, daher sollten Sie kürzere Entwürfe iterieren, bevor Sie sich auf längere Stücke festlegen. Halten Sie Daueränderungen bewusst, da sie das wahrgenommene Tempo und die Abschnittseinteilung auch bei derselben Eingabe und Seed verändern können.
KSampler (#3)
Steuert Qualität, Geschwindigkeit und Gesamttextur, indem er kontrolliert, wie Rauschen aus dem Latent entfernt wird. Beginnen Sie mit dem bereitgestellten Schedulerpfad und passen Sie die Samplereinstellungen nur an, nachdem die Eingabe stimmt. Für schnelle Entwürfe reduzieren Sie den Samplingaufwand; für höhere Wiedergabetreue erhöhen Sie ihn schrittweise, während Sie die Seed konstant halten, um Unterschiede leicht hörbar zu machen. Siehe das grundlegende Samplerverhalten im ComfyUI Repository für allgemeine Anleitungen. ComfyUI auf GitHub
SaveAudioMP3 (#107)
Verwaltet den Export und die Dateibenennung, sodass Sie Aufnahmen katalogisieren können. Legen Sie einen klaren Basisnamen und einen Versionstag fest, um Iterationen zu verfolgen. Wenn Sie planen zu mastern oder weiter zu bearbeiten, halten Sie das Projekt-Seed und die Eingabe in Ihren Notizen, sodass Sie mit alternativen Exporteinstellungen neu rendern können, wenn nötig.
Optionale Extras
- Schreiben Sie Eingaben als kurze, geordnete Phrasen: Genre, Stimmung, Schlüsselgefühl, Tempo, Instrumente, Gesangstyp, Produktionsstil.
- Halten Sie Texte prägnant und an die gewählte Dauer angepasst, um gehetzte Phrasierung gegen Ende zu vermeiden.
- Sperren Sie die Seed, während Sie die Eingabe verfeinern, und variieren Sie dann die Seed, um alternative Arrangements mit derselben Vorgabe zu erkunden.
- Beginnen Sie mit kürzeren Dauern, um die Richtung zu validieren, und vergrößern Sie dann, sobald der Kernsound funktioniert.
- Negative Konditionierung ist absichtlich deaktiviert; aktivieren und optimieren Sie eine echte negative Eingabe nur, wenn Sie nach der anfänglichen Erkundung strikte Ausschlüsse benötigen.
Danksagungen
Dieser Arbeitsablauf implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Comfy.org für den Audio ACE Step 1.5 XL Turbo Arbeitsablauf und Comfy-Org für das ACE-Step 1.5XL Turbo Diffusionsmodell, ACE-Step 1.5 VAE, ACE-Step 1.5 Textcodierer 0.6B und ACE-Step 1.5 Textcodierer 4B für ihre Beiträge und Wartung. Für autoritative Details verweisen Sie bitte auf die originale Dokumentation und die unten verlinkten Repositories.
Ressourcen
- Comfy.org/Audio ACE Step 1.5 XL Turbo Arbeitsablauf
- Docs / Release Notes: Workflow page
- Comfy-Org/ACE-Step 1.5XL Turbo Diffusionsmodell
- Hugging Face: acestep_v1.5_xl_turbo_bf16.safetensors
- Comfy-Org/ACE-Step 1.5 VAE
- Hugging Face: ace_1.5_vae.safetensors
- Comfy-Org/ACE-Step 1.5 Textcodierer 0.6B
- Hugging Face: qwen_0.6b_ace15.safetensors
- Comfy-Org/ACE-Step 1.5 Textcodierer 4B
- Hugging Face: qwen_4b_ace15.safetensors
Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Wartenden bereitgestellt werden.
