Wan2.2 VACE Fun è un flusso di lavoro creativo, guidato da prompt, da riferimento a video per ComfyUI. Fornisci un'unica immagine di riferimento e una descrizione testuale, e il grafico anima il tuo soggetto in un video coerente preservando identità e stile. Basato sul modulo Wan 2.2 VACE con un campionatore a tappe, bilancia movimento, fedeltà e tempo di esecuzione, rendendolo ideale per reel di concetti, test di personaggi e brevi clip di narrazione.
Questo flusso di lavoro ComfyUI Wan2.2 VACE Fun si concentra su tre cose: forte aderenza al soggetto dall'immagine di riferimento, movimento espressivo guidato dal tuo prompt e esportazione affidabile in un video MP4. Usalo quando hai bisogno di iterazioni rapide che sembrano ancora cinematografiche, o quando vuoi trasformare un'immagine statica in una scena dinamica senza complessi keyframing.
Il flusso di lavoro si esegue in fasi: imposti i controlli globali, prepari l'immagine di riferimento, scrivi i prompt, generi un video latente condizionato da VACE, lo affini attraverso il campionamento a tappe, quindi decodi ed esporti. I gruppi sono organizzati in modo da poter lavorare dall'alto verso il basso con il minimo attrito.
Questo gruppo centralizza i controlli che il resto del grafico legge: width
, height
, length
(frames), fps
, steps
, sampling_shift
, e seed
. Cambiali una volta e ogni nodo a valle raccoglierà i valori tramite coppie SetNode
/GetNode
. La risoluzione e la lunghezza influenzano sia la qualità che il VRAM, mentre fps
controlla il movimento percepito nel MP4 finale. Mantieni width
e height
allineati all'aspetto della tua immagine di riferimento per evitare stiramenti. Il seed è esposto per la riproducibilità tra le esecuzioni.
Carica il tuo soggetto con LoadImage
(#118), quindi l'immagine viene ridimensionata in ImageResizeKJv2
(#112) per adattarsi alla tua risoluzione di destinazione. RMBG
(#73) rimuove lo sfondo in modo che VACE possa agganciarsi al soggetto in primo piano in modo più affidabile, aiutando la coerenza dell'identità tra i fotogrammi. Un nodo di anteprima ti consente di ispezionare rapidamente il ritaglio prima della generazione. L'immagine elaborata viene memorizzata come riferimento e alimentata a valle.
I prompt sono codificati con CLIP Text Encode (Positive Prompt)
(#56) e CLIP Text Encode (Negative Prompt)
(#54) utilizzando l'encoder UMT5-XXL. Scrivi verbi di azione chiari, linguaggio della fotocamera e contesto della scena nel prompt positivo per dirigere il movimento e la composizione. Usa il prompt negativo per sopprimere artefatti indesiderati, stili o ingombri; la fraseologia multilingue funziona bene. Gli output forniscono un ricco condizionamento per il passaggio VACE e i campionatori che seguono.
Il grafico carica i pesi Wan 2.2 T2V A14B e applica il modulo Wan2.2 VACE Fun, quindi aumenta l'attenzione e la pianificazione per la stabilità. Il ramo HIGH passa attraverso PathchSageAttentionKJ
(#8) e ModelSamplingSD3
(#57), mentre il ramo LOW utilizza LoraLoaderModelOnly
(#61), PathchSageAttentionKJ
(#66), e ModelSamplingSD3
(#20). Questa divisione ti offre un primo passaggio incentrato sui dettagli e un affinamento incentrato sul movimento. Tutte le scelte di modello sono preconfigurate; esegui semplicemente il grafico una volta che le tue impostazioni e i tuoi prompt sono pronti.
WanVaceToVideo
(#43) inietta la tua reference_image
, il condizionamento positivo/negativo e il VAE, quindi genera una sequenza video latente iniziale dimensionata da width
, height
, e length
. Pensa a questo come al momento in cui l'immagine statica "impara" a muoversi secondo il tuo prompt. Il nodo restituisce entrambi i flussi di condizionamento per il riutilizzo e un intero per il trimming latente per mantenere il flusso di lavoro coerente con i fotogrammi. Non è richiesta alcuna maschera manuale o video di controllo a meno che tu non voglia sperimentare.
Una pila di campionatori a tre stadi modella il risultato. Primo passaggio KSamplerAdvanced
(#108) semina la sequenza latente per la composizione generale e i segnali di movimento. Secondo passaggio KSamplerAdvanced
(#107) approfondisce il dettaglio e la stabilità temporale utilizzando lo stesso condizionamento preservando il layout della scena. Passaggio finale KSamplerAdvanced
(#109) si esegue sulla variante LOW per affinare il movimento e ridurre gli artefatti, trovando un equilibrio pratico tra velocità e qualità. TrimVideoLatent
(#65) allinea i fotogrammi alla lunghezza target prima della decodifica.
VAEDecode
(#19) trasforma i latenti raffinati in fotogrammi RGB. VHS_VideoCombine
(#69) quindi assembla quei fotogrammi in un MP4 al tuo fps
scelto, salvando con un modello di nome file sensato. Questo gruppo è ottimizzato per cicli di revisione rapidi, in modo da poter iterare sui prompt, sulla lunghezza o sulla risoluzione senza toccare il resto del grafico. Quando sei soddisfatto, mantieni lo stesso seed per la ripetibilità o cambialo per esplorare variazioni.
WanVaceToVideo
(#43)
Il cuore di Wan2.2 VACE Fun: lega la semantica del prompt alla tua immagine di riferimento e produce i latenti video iniziali. Regola width
, height
, e length
qui tramite le impostazioni condivise per adattarsi al tuo obiettivo creativo e al budget VRAM. Mantieni il soggetto di riferimento centrato e ben illuminato per una migliore conservazione dell'identità. Se il movimento sembra errato, rivedi il prompt positivo per enfatizzare le azioni, i movimenti della fotocamera e le parole di temporizzazione.
KSamplerAdvanced
(#108, #107, #109)
Una catena di campionatori a tappe che migliora progressivamente la composizione, il dettaglio e la fluidità del movimento. Aumenta steps
quando hai bisogno di più dettagli o stabilità temporale e riutilizza lo stesso seed
per confrontare equamente i cambiamenti. Il passaggio finale sulla variante LOW spesso pulisce artefatti sottili; se i risultati sembrano troppo morbidi, sposta alcuni passaggi ai passaggi precedenti. sampling_shift
è esposto per spostare il programma verso l'enfasi del movimento o una texture più fine.
RMBG
(#73)
La rimozione automatica dello sfondo migliora l'aderenza al soggetto per Wan2.2 VACE Fun, specialmente con scene affollate o a basso contrasto. Usa riferimenti di alta qualità, non sfocati per minimizzare gli errori di ritaglio. Se desideri sfondi naturali, sostituiscili in seguito in post-produzione o componi una piastra dietro i fotogrammi decodificati.
TrimVideoLatent
(#65)
Mantiene la sequenza latente allineata alla lunghezza richiesta. Se estendi o accorci un clip, lascia che questo nodo gestisca la contabilità; previene la deriva sottile dei fotogrammi attraverso le fasi del campionatore.
VHS_VideoCombine
(#69)
Codifica i fotogrammi finali in MP4. Regola frame_rate
per controllare la durata del clip rispetto alla length
(durata uguale a fotogrammi divisi per fps). Aumenta la qualità per la consegna finale o riducila per anteprime rapide; una qualità più elevata aumenta la dimensione del file e il tempo di codifica.
width
e height
target per evitare stiramenti e ritagli indesiderati.length
e fps
in sincronia con il tuo obiettivo: fps più alti sembrano più fluidi ma accorciano la durata totale per lo stesso conteggio dei fotogrammi.RMBG
e aggiungi una breve clausola di identità nel prompt (abbigliamento, colore o attrezzatura).Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo @BenjisAIPlayground per il flusso di lavoro “Wan2.2 VACE Fun Demo” e per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.
Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.
RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Playground, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.