Ace Step 1.5 im ComfyUI-Workflow | Text-to-Music Diffusion

ComfyUI Ace Step 1.5 Workflow

Ace Step 1.5 in ComfyUI Workflow | Text-to-Music Diffusion

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Ace Step 1.5 Examples

Ace Step 1.5 Text-to-Music-Workflow für ComfyUI#

Diese Vorlage verwandelt ein kurzes kreatives Briefing und optionale Texte in eine fertige MP3-Datei mit Ace Step 1.5. Sie ist für Musiker, Produzenten und Kreative gedacht, die schnelle, hochwertige Songerstellung mit kohärenter Struktur, Gesang und stilistischer Kontrolle aus Text wünschen. Der Workflow konzentriert sich auf einen direkten Text-zu-Musik-Pfad, sodass Sie von der Idee zum Audio in einem Durchgang gelangen können.

Ace Step 1.5 kombiniert ein Planungsmodul mit einem Diffusionstransformator, um eine kommerzielle musikalische Kontinuität zu liefern, während es leicht genug für alltägliche Hardware bleibt. In diesem ComfyUI-Diagramm akzeptiert Ace Step 1.5 ein Stil-Plus-Text-Prompt, plant das Arrangement, synthetisiert eine latente Audiorepräsentation, dann dekodiert und speichert es als fertig zu teilende Datei.

Schlüsselmodelle im ComfyUI Ace Step 1.5 Workflow#

Ace Step 1.5 Turbo AIO Checkpoint. Das Basismodell, das Text und Texte in Musik umwandelt und die Diffusionsbasierte Synthese im Audiodomän behandelt. Verfügbar von Comfy-Org auf Hugging Face als Teil des ComfyUI-Dateisets: Comfy-Org/ace_step_1.5_ComfyUI_files.
Ace Step 1.5 Textencoder. Verpackt mit dem Checkpoint und verwendet, um Ihr Prosa-Prompt und optionale Texte in Konditionierung für den Generator umzuwandeln. Im Diagramm durch den TextEncodeAceStepAudio1.5-Knoten exponiert.
Ace Step 1.5 Audio VAE. Ebenfalls im Checkpoint verpackt und verwendet, um das synthetisierte Latente in eine Zeitbereichswellenform für den Export zu dekodieren.

So verwenden Sie den ComfyUI Ace Step 1.5 Workflow#

Auf hoher Ebene laden Sie das Ace Step 1.5 Modell, wählen die Songdauer, beschreiben die Musik und fügen die Texte ein, dann führen Sie das Sampling aus, um zu synthetisieren und in MP3 zu dekodieren.

Schritt 1 - Modell laden#

Diese Gruppe initialisiert die Kernressourcen durch CheckpointLoaderSimple (#97). Die Auswahl der Ace Step 1.5 Turbo AIO-Datei lädt das Modell, seinen Textencoder und das Audio VAE in einem Schritt. Der ModelSamplingAuraFlow (#78)-Knoten fügt eine Ace Step 1.5-kompatible Sampler-Konfiguration hinzu, damit der nachgelagerte KSampler mit dem beabsichtigten Algorithmus arbeiten kann. Sobald dies eingestellt ist, kann der Rest des Workflows rein durch Ihr Prompt und die Dauer gesteuert werden.

Schritt 2 - Dauer#

Hier speist die Song Duration (#99)-Kontrolle Sekunden in EmptyAceStep1.5LatentAudio (#98) ein, das die Ziel-Latenz-Länge für den Track vorab zuweist. Eine kürzere Länge ist großartig für schnelle Ideenfindung und Stilchecks, während längere Werte Ace Step 1.5 ermöglichen, vollständigere Abschnitte zu planen. Die Dauer fließt weiter, sodass der Encoder und der Sampler sich darauf einigen, wie viel Struktur erzeugt werden soll. Wenn Sie später den Song verlängern, behalten Sie den gleichen Seed bei, um Vibe und Motive zu bewahren.

Schritt 3 - Prompt#

Verwenden Sie TextEncodeAceStepAudio1.5 (#94), um den Stil, die Stimmung, die Instrumentierung und Produktionsnotizen zu beschreiben und optional Texte einzufügen. Ace Step 1.5 liest dies, um Melodie, Harmonie, Rhythmus und Gesangsphrasierung mit kohärenten Abschnitten zu planen. Die seed (#102)-Linie macht Ergebnisse wiederholbar oder zufällig, je nach Vorliebe. Ein ConditioningZeroOut (#47) sendet eine neutrale negative Konditionierung, um Konflikte zu reduzieren, was oft eine gute Standardeinstellung für musikalische Ausgaben ist. Wenn Sie ein strengeres negatives Prompt wünschen, ersetzen Sie diesen Knoten durch Ihren eigenen negativen Textpfad.

`KSampler` (#3)#

Dieser Knoten führt den tatsächlichen Diffusionsprozess mit der Ace Step 1.5-Modellverbindung von ModelSamplingAuraFlow (#78), der positiven Konditionierung aus Ihrem Prompt, der neutralen negativen Konditionierung und der vorab zugewiesenen latenten Länge aus. Es verwandelt Rauschen in eine strukturierte Latenz, die Ihre Textanweisungen und Texte widerspiegelt. Für schnelle Ideenfindung können Sie die Laufzeit konservativ halten und dann die Qualität steigern, wenn Sie ein Konzept festlegen. Der gleiche Seed liefert konsistente Struktur über Takes hinweg, sodass Sie Sampler-Wahlen vergleichen können.

`VAEDecodeAudio` (#18)#

Nach dem Sampling konvertiert dieser Knoten die latente Audiorepräsentation zurück in eine Zeitbereichswellenform mit dem Ace Step 1.5 VAE. Es bewahrt die während der Kodierung geplante musikalische Form, während es feine Details glättet, die während der Diffusion eingeführt wurden. Das Ergebnis ist ein Vollband-Audiosignal, das bereit für den Export ist.

`SaveAudioMP3` (#104)#

Schließlich wird die Wellenform in eine MP3-Datei in Ihren Standard-ComfyUI-Ausgaben geschrieben. Wählen Sie eine Bitrate, die für Ihr Ziel geeignet ist, und rendern Sie. Dies gibt Ihnen eine kompakte, teilbare Datei, während das ursprüngliche Latente für erneute Durchläufe verfügbar bleibt, falls Sie Prompts oder Seeds anpassen.

Schlüsselknoten im ComfyUI Ace Step 1.5 Workflow#

`TextEncodeAceStepAudio1.5` (#94)#

Verwandelt Ihr kreatives Briefing und Texte in eine Konditionierung, die Ace Step 1.5 versteht. Für die Kontrolle passen Sie Sprache, musikalischen Schlüssel und Tempo an, um Phrasierung und Harmonie zu lenken, und setzen Sie die Struktur des Abschnitts, wenn Sie mehr oder weniger Formänderungen wünschen. Verwenden Sie beschreibende Produktionsnotizen wie Genre, Stimmung und Mix-Hinweise, um den Stil zu verankern. Halten Sie die Texte knapp und metrisch für sauberere Gesangsphrasierung.

`KSampler` (#3)#

Treibender Diffusionsprozess, der Planung in Audio-Latenten umwandelt. Erhöhen Sie die Schritte für mehr Detail und Stabilität oder reduzieren Sie sie für sehr schnelle Vorschauen. Versuchen Sie alternative Samplermethoden, wenn Sie unterschiedliches Transientenverhalten wünschen, und halten Sie den Seed fixiert, um faire Vergleiche zu ermöglichen. Erhöhen Sie die Führungskraft für eine engere Einhaltung Ihres Ace Step 1.5-Prompts, verringern Sie sie für freiere Improvisation.

`EmptyAceStep1.5LatentAudio` (#98)#

Weist die Zielsonglänge als latentes Tensor zu, sodass jede nachgelagerte Stufe mit der gleichen Dauer arbeitet. Setzen Sie dies auf die Anzahl der Sekunden, die Sie im Endrendering haben möchten. Längere Latenten erfordern mehr Rechenleistung und können von etwas höheren Qualitätseinstellungen im Sampler profitieren.

`ModelSamplingAuraFlow` (#78)#

Fügt eine Ace Step 1.5-kompatible Sampling-Strategie hinzu, die Geschwindigkeit und musikalische Kohärenz ausbalanciert. Verwenden Sie es, wenn Sie reaktionsschnelle Iterationen wünschen, die dennoch die globale Struktur intakt halten. Wenn Sie mit verschiedenen Sampler-Familien experimentieren, verwenden Sie denselben Seed, um zu bewerten, wie sich Timing und Transienten ändern.

`SaveAudioMP3` (#104)#

Exportiert die dekodierte Wellenform in eine komprimierte Datei. Wählen Sie die Bitrate, um Größe und Treue für Ihr Veröffentlichungs- oder Freigabeziel abzuwägen. Für Archivierung oder Mixen können Sie dies gegen einen WAV-Speicherknoten in derselben Position austauschen.

`ConditioningZeroOut` (#47)#

Bietet eine neutrale negative Konditionierung, die eine sichere Standardeinstellung für textgesteuerte Musikgeneration ist. Ersetzen Sie es durch ein benutzerdefiniertes negatives Prompt, wenn Sie explizite Ausschlüsse wie keinen Gesang oder weniger Hochfrequenzartefakte benötigen. Halten Sie positive und negative Anweisungen konzeptionell getrennt, um Konflikte zu vermeiden.

Optionale Extras#

Beginnen Sie mit 30–60 Sekunden, um den Stil zu validieren, und verlängern Sie dann die Dauer, um den Track abzuschließen, während Sie den Seed fixiert halten.
Für Instrumentals mit Ace Step 1.5 geben Sie dies explizit im Prompt an oder setzen Sie "keine Vocals" in einen negativen Prompt-Pfad.
Behandeln Sie Texte wie singbare Linien mit natürlicher Phrasierung und konsistenten Silbenzahlen, um bessere Gesangsergebnisse zu erzielen.
Speichern Sie vielversprechende Seeds zusammen mit Prompts, sodass Sie später ohne Verlust der Identität des Songs erneut besuchen und skalieren können.

Hilfreiche Referenzen: das ComfyUI-Projekt auf GitHub für allgemeine Nutzungsinformationen ComfyUI und die Ace Step 1.5 ComfyUI-Dateien auf Hugging Face für den Checkpoint und die Ressourcen Comfy-Org/ace_step_1.5_ComfyUI_files.

Danksagungen#

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Comfy.org für den Ace Step 1.5-Workflow für ihre Beiträge und Wartung. Für autoritative Details verweisen Sie bitte auf die Originaldokumentation und -repositories, die unten verlinkt sind.

Ressourcen#

Comfy.org/Ace Step 1.5 Workflow Source
- Docs / Release Notes: Ace Step 1.5 is now available in ComfyUI

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Wartenden bereitgestellt werden.

Want More ComfyUI Workflows?

ACE-Step Musikgenerierung | KI-Audioerstellung

Erzeugen Sie Studioqualität-Musik 15× schneller mit bahnbrechender Diffusionstechnologie.

MMAudio | Video-to-Audio

MMAudio: Fortgeschrittenes Video-zu-Audio-Modell für hochwertige Audiogenerierung.

Wan 2.1 | Revolutionäre Videogenerierung

Erstellen Sie unglaubliche Videos aus Text oder Bildern mit bahnbrechender KI, die auf alltäglichen CPUs läuft.

Wan 2.1 LoRA

Verbessern Sie die Wan 2.1 Videoerstellung mit LoRA-Modellen für verbesserten Stil und Anpassung.

MatAnyone Video Matting | Einfache Maskenentfernung

Entfernen Sie Videohintergründe mit einem einzigen Maskenrahmen für perfekte Subjektisolierung.

LTX Video | Bild+Text zu Video

Erzeugt Videos aus Bild+Text-Eingaben.

SVD + IPAdapter V1 | Bild zu Video

Verwenden Sie IPAdapters für die statische Bilderzeugung und Stable Video Diffusion für die dynamische Videoerzeugung.

AnimateDiff + IPAdapter V1 | Bild zu Video

Mit IPAdapter können Sie die Generierung von Animationen mithilfe von Referenzbildern effizient steuern.

Support

Ressourcen

Rechtliches

RunComfy

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI Models, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.

Ace Step 1.5 | Kommerzieller KI-Musikgenerator

ComfyUI Ace Step 1.5 Workflow

ComfyUI Ace Step 1.5 Examples

Ace Step 1.5 Text-to-Music-Workflow für ComfyUI#

Schlüsselmodelle im ComfyUI Ace Step 1.5 Workflow#

So verwenden Sie den ComfyUI Ace Step 1.5 Workflow#

Schritt 1 - Modell laden#

Schritt 2 - Dauer#

Schritt 3 - Prompt#

KSampler (#3)#

VAEDecodeAudio (#18)#

SaveAudioMP3 (#104)#

Schlüsselknoten im ComfyUI Ace Step 1.5 Workflow#

TextEncodeAceStepAudio1.5 (#94)#

KSampler (#3)#

EmptyAceStep1.5LatentAudio (#98)#

ModelSamplingAuraFlow (#78)#

SaveAudioMP3 (#104)#

ConditioningZeroOut (#47)#

Optionale Extras#

Danksagungen#

Ressourcen#

Want More ComfyUI Workflows?

ACE-Step Musikgenerierung | KI-Audioerstellung

MMAudio | Video-to-Audio

Wan 2.1 | Revolutionäre Videogenerierung

Wan 2.1 LoRA

MatAnyone Video Matting | Einfache Maskenentfernung

LTX Video | Bild+Text zu Video

SVD + IPAdapter V1 | Bild zu Video

AnimateDiff + IPAdapter V1 | Bild zu Video

`KSampler` (#3)#

`VAEDecodeAudio` (#18)#

`SaveAudioMP3` (#104)#

`TextEncodeAceStepAudio1.5` (#94)#

`KSampler` (#3)#

`EmptyAceStep1.5LatentAudio` (#98)#

`ModelSamplingAuraFlow` (#78)#

`SaveAudioMP3` (#104)#

`ConditioningZeroOut` (#47)#