logo
RunComfy
  • ComfyUI
  • TrainerNeu
  • Modelle
  • API
  • Preise
discord logo
ComfyUI>Workflows>ACE-Step 1.5XL Turbo comfyui Arbeitsablauf | Text-zu-Musik-Generator

ACE-Step 1.5XL Turbo comfyui Arbeitsablauf | Text-zu-Musik-Generator

Workflow Name: RunComfy/ACE-Step-1.5XL-Turbo
Workflow ID: 0000...1395
Erstellen Sie sofort Musik aus beliebigen Texteingaben mit dem ACE-Step 1.5XL Turbo AI Arbeitsablauf. Dieses Setup integriert den optimierten ACE-Modellstapel mit Qwen-Textcodierern, um klare und detaillierte MP3-Ausgaben zu erzeugen. Es ermöglicht Designern und Audioerstellern, kreative Eingaben schnell zu testen, musikalische Töne zu verfeinern und Ergebnisse zur Wiederverwendung zu speichern. Mit seiner optimierten Pipeline reduziert es die Generierungszeit drastisch bei gleichzeitiger Beibehaltung der Wiedergabetreue. Ideal für schnelle Konzeptversuche und AI-Musik-Prototyping.

ACE-Step 1.5XL Turbo Text-zu-Musik ComfyUI Arbeitsablauf

Verwandeln Sie kompakte Eingaben in polierte MP3-Musik mit diesem comfyui Arbeitsablauf, der auf Geschwindigkeit und Wiederholbarkeit fokussiert ist. Er kombiniert den ACE-Step 1.5XL Turbo Generator mit seinem offiziellen VAE und doppelten Qwen-Textcodierern und exportiert dann direkt nach MP3 für einfache Vorschau und Wiederverwendung. Produzenten, Sounddesigner und Eingabekünstler können schnell iterieren und dabei die Konsistenz der Ergebnisse über verschiedene Durchläufe hinweg bewahren.

Wichtige Modelle in diesem comfyui Arbeitsablauf

  • ACE-Step 1.5XL Turbo (bf16). Das Kerndiffusionsmodell, das Musik aus Textkonditionierung synthetisiert, optimiert für schnelles Entrauschen und hochwertige Audiolatente. Modelldatei
  • ACE-Step 1.5 VAE. Der Decoder, der Audiolatente in eine endgültige Wellenform umwandelt und dabei Timbre und Dynamik bewahrt, die von der ACE-Step-Familie erwartet werden. Modelldatei
  • Qwen 0.6B ACE 1.5 Textcodierer. Leichter Codierer, der Ihre beschreibende Eingabe in Konditionierungsvektoren umwandelt, die vom Generator verwendet werden. Modelldatei
  • Qwen 4B ACE 1.5 Textcodierer. Größerer Begleitcodierer, der Semantik, Stilhinweise, Instrumente und Gesangshinweise für treuere Wiedergaben bereichert. Modelldatei

So verwenden Sie diesen comfyui Arbeitsablauf

Der Graph ist in zwei Hauptgruppen plus globale Steuerungen organisiert. Sie laden den ACE-Step Modellstapel, beschreiben die gewünschte Musik, legen Songdauer und Seed fest, dann probieren, decodieren und exportieren Sie nach MP3.

Modellgruppe

Dieser Abschnitt initialisiert den Modellstapel, den der Generator erwartet. UNETLoader (#104) lädt ACE-Step 1.5XL Turbo, und VAELoader (#106) bringt den passenden ACE-Step 1.5 VAE ein, sodass das Decodieren treu bleibt. DualCLIPLoader (#105) kombiniert die Qwen 0.6B und 4B Textcodierer, um Eingabekodierungen vorzubereiten. Der UNet wird durch ModelSamplingAuraFlow (#78) geleitet, was die Sampler-Konfiguration anwendet, die das Modell vor dem Entrauschen benötigt.

Eingabegruppe

Schreiben Sie eine prägnante Beschreibung des Genres, der Stimmung, der Instrumente, des Gesangs, des Tempos und des Produktionsstils in TextEncodeAceStepAudio1.5 (#94). Wenn Sie Texte oder strukturelle Notizen verwenden, geben Sie diese im sekundären Textfeld an, damit die Codierer Phrasierung und Dynamik konditionieren können. Negative Konditionierung ist absichtlich über ConditioningZeroOut (#47) deaktiviert, um die Ausgaben fokussiert zu halten und frühe Iterationen zu vereinfachen. Der Knoten akzeptiert auch die globalen duration und seed, wodurch sichergestellt wird, dass die Konditionierung mit der Tracklänge und Ihren Wiederholbarkeitseinstellungen übereinstimmt.

Dauer und Seed

Legen Sie die Tracklänge in Sekunden mit Float (Duration) (#99) fest. Wählen Sie einen seed in Int (Seed) (#109), um Durchläufe reproduzierbar über sowohl den Codierer als auch den Sampler zu machen. Dieselbe Seed beizubehalten, während nur die Eingabe geändert wird, ist eine zuverlässige Möglichkeit, kreative Richtungen zu testen. Für eine breite Erkundung variieren Sie die Seed, nachdem Sie mit der Eingabe zufrieden sind.

Latentes Audio-Setup

EmptyAceStep1.5LatentAudio (#98) erstellt ein leeres Audiolatent, das Ihrer gewählten Dauer entspricht. Dies dient als Leinwand, die der Sampler während des Entrauschens füllen wird. Längere Dauern erfordern mehr Rechenleistung, daher sollten Sie kürzer beginnen, um eine Eingabe zu validieren, bevor Sie die Länge erhöhen. Der Arbeitsablauf verdrahtet die Dauer global, sodass Ihr Latent und die Konditionierung immer synchron bleiben.

Entrauschen und Sampling

KSampler (#3) führt den Diffusionsprozess mit dem ACE-Step 1.5XL Turbo Modell und Ihrer Eingabekonditionierung durch. Der Samplerpfad läuft durch ModelSamplingAuraFlow (#78), um die vom Modell erwarteten Scheduler-Einstellungen für eine stabile, schnelle Konvergenz zu erfüllen. Verwenden Sie dieselbe Seed, um Änderungen an Formulierungen oder Stil zu vergleichen, und passen Sie die Samplereinstellungen nur an, wenn Ihre Eingabe eingestellt ist. Wenn der Sampler fertig ist, haben Sie ein Audiolatent, das zum Decodieren bereit ist.

Decodieren und Exportieren

VAEDecodeAudio (#18) wandelt das Latent in eine Wellenform mit dem ACE-Step 1.5 VAE um, um das beabsichtigte Timbre zu bewahren. SaveAudioMP3 (#107) schreibt ein MP3 mit einem Basisdateinamen und optionalem Versionstag, sodass Sie Aufnahmen organisiert halten können. MP3 ist ideal für schnelle Überprüfung und Teilen, und Sie können jederzeit neu rendern oder in ein anderes Format exportieren. Das Ergebnis erscheint an Ihrem Standard-ComfyUI-Ausgabeort.

Wichtige Knoten in diesem comfyui Arbeitsablauf

TextEncodeAceStepAudio1.5 (#94)

Dieser Knoten übersetzt Ihre musikalische Beschreibung und optionalen Texte in eine Konditionierung für den Generator unter Verwendung der gepaarten Qwen-Codierer. Halten Sie Eingaben spezifisch in Bezug auf Genre, Instrumentierung, Gesangspräsenz, Tempo, Stimmung und Mix-Charakter. Stellen Sie sicher, dass die duration des Knotens mit der globalen Songlänge übereinstimmt, sodass Struktur und Phrasierung ausgerichtet sind. Verwenden Sie eine feste seed, während Sie an der Formulierung arbeiten, um zu verstehen, wie Begriffe Arrangement und Timbre beeinflussen.

EmptyAceStep1.5LatentAudio (#98)

Steuert die Zeit-Leinwand, die das Modell füllen wird. Die Erhöhung der Dauer erhöht den Speicher- und Renderzeitbedarf, daher sollten Sie kürzere Entwürfe iterieren, bevor Sie sich auf längere Stücke festlegen. Halten Sie Daueränderungen bewusst, da sie das wahrgenommene Tempo und die Abschnittseinteilung auch bei derselben Eingabe und Seed verändern können.

KSampler (#3)

Steuert Qualität, Geschwindigkeit und Gesamttextur, indem er kontrolliert, wie Rauschen aus dem Latent entfernt wird. Beginnen Sie mit dem bereitgestellten Schedulerpfad und passen Sie die Samplereinstellungen nur an, nachdem die Eingabe stimmt. Für schnelle Entwürfe reduzieren Sie den Samplingaufwand; für höhere Wiedergabetreue erhöhen Sie ihn schrittweise, während Sie die Seed konstant halten, um Unterschiede leicht hörbar zu machen. Siehe das grundlegende Samplerverhalten im ComfyUI Repository für allgemeine Anleitungen. ComfyUI auf GitHub

SaveAudioMP3 (#107)

Verwaltet den Export und die Dateibenennung, sodass Sie Aufnahmen katalogisieren können. Legen Sie einen klaren Basisnamen und einen Versionstag fest, um Iterationen zu verfolgen. Wenn Sie planen zu mastern oder weiter zu bearbeiten, halten Sie das Projekt-Seed und die Eingabe in Ihren Notizen, sodass Sie mit alternativen Exporteinstellungen neu rendern können, wenn nötig.

Optionale Extras

  • Schreiben Sie Eingaben als kurze, geordnete Phrasen: Genre, Stimmung, Schlüsselgefühl, Tempo, Instrumente, Gesangstyp, Produktionsstil.
  • Halten Sie Texte prägnant und an die gewählte Dauer angepasst, um gehetzte Phrasierung gegen Ende zu vermeiden.
  • Sperren Sie die Seed, während Sie die Eingabe verfeinern, und variieren Sie dann die Seed, um alternative Arrangements mit derselben Vorgabe zu erkunden.
  • Beginnen Sie mit kürzeren Dauern, um die Richtung zu validieren, und vergrößern Sie dann, sobald der Kernsound funktioniert.
  • Negative Konditionierung ist absichtlich deaktiviert; aktivieren und optimieren Sie eine echte negative Eingabe nur, wenn Sie nach der anfänglichen Erkundung strikte Ausschlüsse benötigen.

Danksagungen

Dieser Arbeitsablauf implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Comfy.org für den Audio ACE Step 1.5 XL Turbo Arbeitsablauf und Comfy-Org für das ACE-Step 1.5XL Turbo Diffusionsmodell, ACE-Step 1.5 VAE, ACE-Step 1.5 Textcodierer 0.6B und ACE-Step 1.5 Textcodierer 4B für ihre Beiträge und Wartung. Für autoritative Details verweisen Sie bitte auf die originale Dokumentation und die unten verlinkten Repositories.

Ressourcen

  • Comfy.org/Audio ACE Step 1.5 XL Turbo Arbeitsablauf
    • Docs / Release Notes: Workflow page
  • Comfy-Org/ACE-Step 1.5XL Turbo Diffusionsmodell
    • Hugging Face: acestep_v1.5_xl_turbo_bf16.safetensors
  • Comfy-Org/ACE-Step 1.5 VAE
    • Hugging Face: ace_1.5_vae.safetensors
  • Comfy-Org/ACE-Step 1.5 Textcodierer 0.6B
    • Hugging Face: qwen_0.6b_ace15.safetensors
  • Comfy-Org/ACE-Step 1.5 Textcodierer 4B
    • Hugging Face: qwen_4b_ace15.safetensors

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Wartenden bereitgestellt werden.

Want More ComfyUI Workflows?

ACE-Step Musikgenerierung | KI-Audioerstellung

Erzeugen Sie Studioqualität-Musik 15× schneller mit bahnbrechender Diffusionstechnologie.

Ace Step 1.5 | Kommerzieller KI-Musikgenerator

Verwandelt Text in vollständige Songs mit intelligenter Planung und Diffusionskraft.

Stable Audio Open 1.0 | Text-zu-Musik-Werkzeug

Verwandelt Textvorgaben nahtlos und schnell in filmische Musik.

MMAudio | Video-to-Audio

MMAudio: Fortgeschrittenes Video-zu-Audio-Modell für hochwertige Audiogenerierung.

Woosh Sound Effect Generation | Text2Audio + VideoSync

Verwandelt Eingabeaufforderungen und Videos in scharfe, synchronisierte Audioeffekte.

Qwen Image 2512 | Präzisions-AI-Bilderzeuger

Ultra-detaillierte Kunstproduktion mit überlegener visueller Genauigkeit und Kontrolle.

Trellis | Bild zu 3D

Trellis ist ein fortschrittliches Bild-zu-3D-Modell für die Erstellung hochwertiger 3D-Assets.

DynamiCrafter | Bilder zu Video

Getestet für Looping-Videos und Frame-Interpolation. In bestimmten Szenarien besser als geschlossene Videogenerierung

Folge uns
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Support
  • Discord
  • E-Mail
  • Systemstatus
  • Partner
Ressourcen
  • Kostenloses ComfyUI Online
  • ComfyUI Anleitungen
  • RunComfy API
  • ComfyUI Tutorials
  • ComfyUI Nodes
  • Erfahre mehr
Rechtliches
  • Nutzungsbedingungen
  • Datenschutzrichtlinie
  • Cookie-Richtlinie
RunComfy
Urheberrecht 2026 RunComfy. Alle Rechte vorbehalten.

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI Models, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.