ACE-Step 1.5XL Turbo comfyui Arbeitsablauf | Schneller AI Text-zu-Musik

ComfyUI ACE-Step 1.5XL Turbo Arbeitsablauf

ACE-Step 1.5XL Turbo comfyui workflow | Fast AI Text-to-Music

Möchtest du diesen Workflow ausführen?

Voll funktionsfähige Workflows
Keine fehlenden Nodes oder Modelle
Keine manuelle Einrichtung erforderlich
Beeindruckende Visualisierungen

ComfyUI ACE-Step 1.5XL Turbo Beispiele

ACE-Step 1.5XL Turbo Text-zu-Musik ComfyUI Arbeitsablauf#

Verwandeln Sie kompakte Eingaben in polierte MP3-Musik mit diesem comfyui Arbeitsablauf, der auf Geschwindigkeit und Wiederholbarkeit fokussiert ist. Er kombiniert den ACE-Step 1.5XL Turbo Generator mit seinem offiziellen VAE und doppelten Qwen-Textcodierern und exportiert dann direkt nach MP3 für einfache Vorschau und Wiederverwendung. Produzenten, Sounddesigner und Eingabekünstler können schnell iterieren und dabei die Konsistenz der Ergebnisse über verschiedene Durchläufe hinweg bewahren.

Wichtige Modelle in diesem comfyui Arbeitsablauf#

ACE-Step 1.5XL Turbo (bf16). Das Kerndiffusionsmodell, das Musik aus Textkonditionierung synthetisiert, optimiert für schnelles Entrauschen und hochwertige Audiolatente. Modelldatei
ACE-Step 1.5 VAE. Der Decoder, der Audiolatente in eine endgültige Wellenform umwandelt und dabei Timbre und Dynamik bewahrt, die von der ACE-Step-Familie erwartet werden. Modelldatei
Qwen 0.6B ACE 1.5 Textcodierer. Leichter Codierer, der Ihre beschreibende Eingabe in Konditionierungsvektoren umwandelt, die vom Generator verwendet werden. Modelldatei
Qwen 4B ACE 1.5 Textcodierer. Größerer Begleitcodierer, der Semantik, Stilhinweise, Instrumente und Gesangshinweise für treuere Wiedergaben bereichert. Modelldatei

So verwenden Sie diesen comfyui Arbeitsablauf#

Der Graph ist in zwei Hauptgruppen plus globale Steuerungen organisiert. Sie laden den ACE-Step Modellstapel, beschreiben die gewünschte Musik, legen Songdauer und Seed fest, dann probieren, decodieren und exportieren Sie nach MP3.

Modellgruppe#

Dieser Abschnitt initialisiert den Modellstapel, den der Generator erwartet. UNETLoader (#104) lädt ACE-Step 1.5XL Turbo, und VAELoader (#106) bringt den passenden ACE-Step 1.5 VAE ein, sodass das Decodieren treu bleibt. DualCLIPLoader (#105) kombiniert die Qwen 0.6B und 4B Textcodierer, um Eingabekodierungen vorzubereiten. Der UNet wird durch ModelSamplingAuraFlow (#78) geleitet, was die Sampler-Konfiguration anwendet, die das Modell vor dem Entrauschen benötigt.

Eingabegruppe#

Schreiben Sie eine prägnante Beschreibung des Genres, der Stimmung, der Instrumente, des Gesangs, des Tempos und des Produktionsstils in TextEncodeAceStepAudio1.5 (#94). Wenn Sie Texte oder strukturelle Notizen verwenden, geben Sie diese im sekundären Textfeld an, damit die Codierer Phrasierung und Dynamik konditionieren können. Negative Konditionierung ist absichtlich über ConditioningZeroOut (#47) deaktiviert, um die Ausgaben fokussiert zu halten und frühe Iterationen zu vereinfachen. Der Knoten akzeptiert auch die globalen duration und seed, wodurch sichergestellt wird, dass die Konditionierung mit der Tracklänge und Ihren Wiederholbarkeitseinstellungen übereinstimmt.

Dauer und Seed#

Legen Sie die Tracklänge in Sekunden mit Float (Duration) (#99) fest. Wählen Sie einen seed in Int (Seed) (#109), um Durchläufe reproduzierbar über sowohl den Codierer als auch den Sampler zu machen. Dieselbe Seed beizubehalten, während nur die Eingabe geändert wird, ist eine zuverlässige Möglichkeit, kreative Richtungen zu testen. Für eine breite Erkundung variieren Sie die Seed, nachdem Sie mit der Eingabe zufrieden sind.

Latentes Audio-Setup#

EmptyAceStep1.5LatentAudio (#98) erstellt ein leeres Audiolatent, das Ihrer gewählten Dauer entspricht. Dies dient als Leinwand, die der Sampler während des Entrauschens füllen wird. Längere Dauern erfordern mehr Rechenleistung, daher sollten Sie kürzer beginnen, um eine Eingabe zu validieren, bevor Sie die Länge erhöhen. Der Arbeitsablauf verdrahtet die Dauer global, sodass Ihr Latent und die Konditionierung immer synchron bleiben.

Entrauschen und Sampling#

KSampler (#3) führt den Diffusionsprozess mit dem ACE-Step 1.5XL Turbo Modell und Ihrer Eingabekonditionierung durch. Der Samplerpfad läuft durch ModelSamplingAuraFlow (#78), um die vom Modell erwarteten Scheduler-Einstellungen für eine stabile, schnelle Konvergenz zu erfüllen. Verwenden Sie dieselbe Seed, um Änderungen an Formulierungen oder Stil zu vergleichen, und passen Sie die Samplereinstellungen nur an, wenn Ihre Eingabe eingestellt ist. Wenn der Sampler fertig ist, haben Sie ein Audiolatent, das zum Decodieren bereit ist.

Decodieren und Exportieren#

VAEDecodeAudio (#18) wandelt das Latent in eine Wellenform mit dem ACE-Step 1.5 VAE um, um das beabsichtigte Timbre zu bewahren. SaveAudioMP3 (#107) schreibt ein MP3 mit einem Basisdateinamen und optionalem Versionstag, sodass Sie Aufnahmen organisiert halten können. MP3 ist ideal für schnelle Überprüfung und Teilen, und Sie können jederzeit neu rendern oder in ein anderes Format exportieren. Das Ergebnis erscheint an Ihrem Standard-ComfyUI-Ausgabeort.

Wichtige Knoten in diesem comfyui Arbeitsablauf#

`TextEncodeAceStepAudio1.5` (#94)#

Dieser Knoten übersetzt Ihre musikalische Beschreibung und optionalen Texte in eine Konditionierung für den Generator unter Verwendung der gepaarten Qwen-Codierer. Halten Sie Eingaben spezifisch in Bezug auf Genre, Instrumentierung, Gesangspräsenz, Tempo, Stimmung und Mix-Charakter. Stellen Sie sicher, dass die duration des Knotens mit der globalen Songlänge übereinstimmt, sodass Struktur und Phrasierung ausgerichtet sind. Verwenden Sie eine feste seed, während Sie an der Formulierung arbeiten, um zu verstehen, wie Begriffe Arrangement und Timbre beeinflussen.

`EmptyAceStep1.5LatentAudio` (#98)#

Steuert die Zeit-Leinwand, die das Modell füllen wird. Die Erhöhung der Dauer erhöht den Speicher- und Renderzeitbedarf, daher sollten Sie kürzere Entwürfe iterieren, bevor Sie sich auf längere Stücke festlegen. Halten Sie Daueränderungen bewusst, da sie das wahrgenommene Tempo und die Abschnittseinteilung auch bei derselben Eingabe und Seed verändern können.

`KSampler` (#3)#

Steuert Qualität, Geschwindigkeit und Gesamttextur, indem er kontrolliert, wie Rauschen aus dem Latent entfernt wird. Beginnen Sie mit dem bereitgestellten Schedulerpfad und passen Sie die Samplereinstellungen nur an, nachdem die Eingabe stimmt. Für schnelle Entwürfe reduzieren Sie den Samplingaufwand; für höhere Wiedergabetreue erhöhen Sie ihn schrittweise, während Sie die Seed konstant halten, um Unterschiede leicht hörbar zu machen. Siehe das grundlegende Samplerverhalten im ComfyUI Repository für allgemeine Anleitungen. ComfyUI auf GitHub

`SaveAudioMP3` (#107)#

Verwaltet den Export und die Dateibenennung, sodass Sie Aufnahmen katalogisieren können. Legen Sie einen klaren Basisnamen und einen Versionstag fest, um Iterationen zu verfolgen. Wenn Sie planen zu mastern oder weiter zu bearbeiten, halten Sie das Projekt-Seed und die Eingabe in Ihren Notizen, sodass Sie mit alternativen Exporteinstellungen neu rendern können, wenn nötig.

Optionale Extras#

Schreiben Sie Eingaben als kurze, geordnete Phrasen: Genre, Stimmung, Schlüsselgefühl, Tempo, Instrumente, Gesangstyp, Produktionsstil.
Halten Sie Texte prägnant und an die gewählte Dauer angepasst, um gehetzte Phrasierung gegen Ende zu vermeiden.
Sperren Sie die Seed, während Sie die Eingabe verfeinern, und variieren Sie dann die Seed, um alternative Arrangements mit derselben Vorgabe zu erkunden.
Beginnen Sie mit kürzeren Dauern, um die Richtung zu validieren, und vergrößern Sie dann, sobald der Kernsound funktioniert.
Negative Konditionierung ist absichtlich deaktiviert; aktivieren und optimieren Sie eine echte negative Eingabe nur, wenn Sie nach der anfänglichen Erkundung strikte Ausschlüsse benötigen.

Danksagungen#

Dieser Arbeitsablauf implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Comfy.org für den Audio ACE Step 1.5 XL Turbo Arbeitsablauf und Comfy-Org für das ACE-Step 1.5XL Turbo Diffusionsmodell, ACE-Step 1.5 VAE, ACE-Step 1.5 Textcodierer 0.6B und ACE-Step 1.5 Textcodierer 4B für ihre Beiträge und Wartung. Für autoritative Details verweisen Sie bitte auf die originale Dokumentation und die unten verlinkten Repositories.

Ressourcen#

Comfy.org/Audio ACE Step 1.5 XL Turbo Arbeitsablauf
- Docs / Release Notes: Workflow page
Comfy-Org/ACE-Step 1.5XL Turbo Diffusionsmodell
- Hugging Face: acestep_v1.5_xl_turbo_bf16.safetensors
Comfy-Org/ACE-Step 1.5 VAE
- Hugging Face: ace_1.5_vae.safetensors
Comfy-Org/ACE-Step 1.5 Textcodierer 0.6B
- Hugging Face: qwen_0.6b_ace15.safetensors
Comfy-Org/ACE-Step 1.5 Textcodierer 4B
- Hugging Face: qwen_4b_ace15.safetensors

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Wartenden bereitgestellt werden.

Want More ComfyUI Workflows?

ACE-Step Musikgenerierung | KI-Audioerstellung

Erzeugen Sie Studioqualität-Musik 15× schneller mit bahnbrechender Diffusionstechnologie.

Ace Step 1.5 | Kommerzieller KI-Musikgenerator

Verwandelt Text in vollständige Songs mit intelligenter Planung und Diffusionskraft.

Stable Audio Open 1.0 | Text-zu-Musik-Werkzeug

Verwandelt Textvorgaben nahtlos und schnell in filmische Musik.

MMAudio | Video-to-Audio

MMAudio: Fortgeschrittenes Video-zu-Audio-Modell für hochwertige Audiogenerierung.

Woosh Sound Effect Generation | Text2Audio + VideoSync

Verwandelt Eingabeaufforderungen und Videos in scharfe, synchronisierte Audioeffekte.

Qwen Image 2512 | Präzisions-AI-Bilderzeuger

Ultra-detaillierte Kunstproduktion mit überlegener visueller Genauigkeit und Kontrolle.

IPAdapter Plus (V2) | Bilder zusammenführen

Verwenden Sie verschiedene Zusammenführungsmethoden mit IPAdapter Plus für präzise und effiziente Kontrolle über die Bildverschmelzung.

Krea 2 Stiltransfer ComfyUI-Workflow | Bildstil-Rekonstrukteur

Verwandle jeden Referenzstil in neue atemberaubende visuelle Szenen.

Support

Ressourcen

Rechtliches

RunComfy

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI Models, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.

ACE-Step 1.5XL Turbo comfyui Arbeitsablauf | Text-zu-Musik-Generator