ACE-Step 1.5XL Turbo comfyui workflow

ComfyUI ACE-Step 1.5XL Turbo Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI ACE-Step 1.5XL Turbo Examples

ACE-Step 1.5XL Turbo Text-to-Music ComfyUI Workflow#

Trasforma prompt compatti in musica MP3 raffinata con questo workflow comfyui incentrato su velocità e ripetibilità. Abbina il generatore ACE-Step 1.5XL Turbo al suo VAE ufficiale e ai doppi encoder di testo Qwen, quindi esporta direttamente in MP3 per una facile anteprima e riutilizzo. Produttori, sound designer e artisti di prompt possono iterare rapidamente mantenendo i risultati coerenti tra le esecuzioni.

Modelli chiave in questo workflow comfyui#

ACE-Step 1.5XL Turbo (bf16). Il modello di diffusione principale che sintetizza musica dal condizionamento del testo, ottimizzato per una rapida denoising e latenti audio di alta qualità. Model file
ACE-Step 1.5 VAE. Il decodificatore che trasforma i latenti audio in un'onda finale mantenendo il timbro e le dinamiche attese dalla famiglia ACE-Step. Model file
Qwen 0.6B ACE 1.5 text encoder. Encoder leggero che converte il tuo prompt descrittivo in vettori di condizionamento utilizzati dal generatore. Model file
Qwen 4B ACE 1.5 text encoder. Encoder compagno più grande che arricchisce la semantica, i suggerimenti di stile, gli strumenti e gli accenni vocali per rendering più fedeli. Model file

Come utilizzare questo workflow comfyui#

Il grafico è organizzato in due gruppi principali più controlli globali. Carichi lo stack del modello ACE-Step, descrivi la musica che desideri, imposti la durata del brano e il seed, quindi campioni, decodifichi ed esporti in MP3.

Gruppo modello#

Questa sezione inizializza lo stack del modello che il generatore si aspetta. UNETLoader (#104) carica ACE-Step 1.5XL Turbo, e VAELoader (#106) porta il corrispondente ACE-Step 1.5 VAE per mantenere la decodifica fedele. DualCLIPLoader (#105) abbina gli encoder di testo Qwen 0.6B e 4B per preparare gli embedding dei prompt. Il UNet è instradato attraverso ModelSamplingAuraFlow (#78), che applica la configurazione del campionatore richiesta dal modello prima che inizi il denoising.

Gruppo prompt#

Scrivi una descrizione concisa di genere, umore, strumenti, voci, tempo e stile di produzione in TextEncodeAceStepAudio1.5 (#94). Se usi testi o note strutturali, fornisci questi nel secondo riquadro di testo in modo che gli encoder possano condizionare la frase e le dinamiche. Il condizionamento negativo è intenzionalmente disabilitato tramite ConditioningZeroOut (#47) per mantenere i risultati focalizzati e semplificare le prime iterazioni. Il nodo accetta anche la duration e il seed globali, assicurando che il condizionamento rimanga allineato con la lunghezza del brano e le impostazioni di riproducibilità.

Durata e seed#

Imposta la lunghezza del brano in secondi usando Float (Duration) (#99). Scegli un seed in Int (Seed) (#109) per rendere le esecuzioni riproducibili sia con l'encoder che con il campionatore. Mantenere lo stesso seed mentre si cambia solo il prompt è un modo affidabile per testare direzioni creative A/B. Per un'esplorazione ampia, varia il seed dopo che sei soddisfatto del prompt.

Configurazione audio latente#

EmptyAceStep1.5LatentAudio (#98) costruisce un audio latente vuoto che corrisponde alla durata scelta. Questo funge da tela che il campionatore riempirà durante il denoising. Durate più lunghe richiedono più calcolo, quindi considera di iniziare con durate più brevi per convalidare un prompt prima di espandere. Il workflow collega la durata a livello globale in modo che il tuo latente e il condizionamento rimangano sempre sincronizzati.

Denoising e campionamento#

KSampler (#3) esegue il processo di diffusione utilizzando il modello ACE-Step 1.5XL Turbo e il condizionamento del tuo prompt. Il percorso del campionatore passa attraverso ModelSamplingAuraFlow (#78) per abbinare le impostazioni dello scheduler attese dal modello per una convergenza stabile e veloce. Usa lo stesso seed per confrontare i cambiamenti nel testo o nello stile, e regola le impostazioni del campionatore solo quando il tuo prompt è a punto. Quando il campionatore termina, avrai un audio latente pronto per la decodifica.

Decodifica ed esportazione#

VAEDecodeAudio (#18) converte il latente in un'onda sonora con l'ACE-Step 1.5 VAE per preservare il timbro previsto. SaveAudioMP3 (#107) scrive un MP3 con un nome di file base e un tag di versione opzionale per mantenere le riprese organizzate. L'MP3 è ideale per una rapida revisione e condivisione, e puoi sempre ri-renderizzare o ri-esportare in un formato diverso in seguito. Il risultato appare nella tua posizione di output standard di ComfyUI.

Nodi chiave in questo workflow comfyui#

`TextEncodeAceStepAudio1.5` (#94)#

Questo nodo traduce la tua descrizione musicale e i testi opzionali in condizionamenti per il generatore utilizzando gli encoder Qwen abbinati. Mantieni i prompt specifici riguardo a genere, strumentazione, presenza vocale, tempo, umore e carattere del mix. Assicurati che la duration del nodo corrisponda alla lunghezza globale del brano in modo che struttura e fraseggio siano allineati. Usa un seed fisso mentre iteri sul testo per capire come i termini influenzano l'arrangiamento e il timbro.

`EmptyAceStep1.5LatentAudio` (#98)#

Controlla la tela temporale che il modello riempirà. Aumentare la durata aumenta la memoria e il tempo di rendering, quindi itera su bozze più brevi prima di impegnarti in pezzi più lunghi. Mantieni deliberati i cambiamenti di durata perché possono alterare il tempo percepito e il ritmo della sezione anche con lo stesso prompt e seed.

`KSampler` (#3)#

Guida qualità, velocità e texture complessiva controllando come il rumore viene rimosso dal latente. Inizia con il percorso dello scheduler fornito e regola le impostazioni del campionatore solo dopo che il prompt sembra giusto. Per bozze rapide, riduci lo sforzo di campionamento; per una maggiore fedeltà, aumentalo gradualmente mantenendo costante il seed per rendere le differenze facili da ascoltare. Vedi il comportamento del campionatore principale nel repository ComfyUI per una guida generale. ComfyUI on GitHub

`SaveAudioMP3` (#107)#

Gestisce l'esportazione e la denominazione dei file in modo da poter catalogare le riprese. Imposta un nome base chiaro e un tag di versione per tracciare le iterazioni. Se intendi masterizzare o modificare ulteriormente, mantieni il seed del progetto e il prompt nelle tue note in modo da poter ri-renderizzare con impostazioni di esportazione alternative quando necessario.

Extra opzionali#

Scrivi i prompt come frasi brevi e ordinate: genere, umore, sensazione principale, tempo, strumenti, tipo di voce, stile di produzione.
Mantieni i testi concisi e allineati alla durata scelta per evitare frasi affrettate verso la fine.
Blocca il seed mentre affini il prompt, quindi varia il seed per esplorare arrangiamenti alternativi con lo stesso brief.
Inizia con durate più brevi per convalidare la direzione, quindi espandi una volta che il suono principale funziona.
Il condizionamento negativo è disabilitato per design; abilita e regola un vero prompt negativo solo se hai bisogno di escludere strettamente dopo l'esplorazione iniziale.

Riconoscimenti#

Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo calorosamente Comfy.org per il workflow Audio ACE Step 1.5 XL Turbo, e Comfy-Org per il modello di diffusione ACE-Step 1.5XL Turbo, ACE-Step 1.5 VAE, encoder di testo ACE-Step 1.5 0.6B e encoder di testo ACE-Step 1.5 4B per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse#

Comfy.org/Audio ACE Step 1.5 XL Turbo workflow
- Docs / Note di Rilascio: Workflow page
Comfy-Org/ACE-Step 1.5XL Turbo diffusion model
- Hugging Face: acestep_v1.5_xl_turbo_bf16.safetensors
Comfy-Org/ACE-Step 1.5 VAE
- Hugging Face: ace_1.5_vae.safetensors
Comfy-Org/ACE-Step 1.5 text encoder 0.6B
- Hugging Face: qwen_0.6b_ace15.safetensors
Comfy-Org/ACE-Step 1.5 text encoder 4B
- Hugging Face: qwen_4b_ace15.safetensors

Nota: L'uso dei modelli, dei dataset e del codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

Generazione Musicale ACE-Step | Creazione Audio AI

Genera musica di qualità da studio 15× più velocemente con la tecnologia di diffusione rivoluzionaria.

Ace Step 1.5 | Generatore di Musica AI di Grado Commerciale

Trasforma il testo in canzoni complete con pianificazione intelligente e potenza di diffusione.

Stable Audio Open 1.0 | Strumento Text-to-Music

Trasforma i prompt testuali in musica cinematografica in modo fluido e veloce.

MMAudio | Da Video a Audio

MMAudio: Modello avanzato da video a audio per la generazione di audio di alta qualità.

Generazione Effetto Sonoro Woosh | Text2Audio + VideoSync

Trasforma suggerimenti e video in effetti audio sincronizzati e nitidi.

Segment Anything V2 (SAM2) | Segmentazione Video

Segmentazione degli oggetti nei video con un'accuratezza senza pari.

ComfyUI Grounding | Workflow di Tracciamento Oggetti

Traccia qualsiasi soggetto con precisione pixel-perfetta per risultati VFX straordinari.

Wan 2.2 Generazione Immagini | Pacchetto Workflow 2-in-1

MoE Mix + Low-Only con upscaling. Scegli uno.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.

ACE-Step 1.5XL Turbo comfyui workflow | Generatore di Musica da Testo