Wan2.2 VACE Fun: Immagine di Riferimento a Video Animato in ComfyUI
Wan2.2 VACE Fun è un flusso di lavoro creativo, guidato da prompt, da riferimento a video per ComfyUI. Fornisci un'unica immagine di riferimento e una descrizione testuale, e il grafico anima il tuo soggetto in un video coerente preservando identità e stile. Basato sul modulo Wan 2.2 VACE con un campionatore a tappe, bilancia movimento, fedeltà e tempo di esecuzione, rendendolo ideale per reel di concetti, test di personaggi e brevi clip di narrazione.
Questo flusso di lavoro ComfyUI Wan2.2 VACE Fun si concentra su tre cose: forte aderenza al soggetto dall'immagine di riferimento, movimento espressivo guidato dal tuo prompt e esportazione affidabile in un video MP4. Usalo quando hai bisogno di iterazioni rapide che sembrano ancora cinematografiche, o quando vuoi trasformare un'immagine statica in una scena dinamica senza complessi keyframing.
Modelli chiave nel flusso di lavoro Comfyui Wan2.2 VACE Fun
- Alibaba PAI Wan 2.2 VACE Fun A14B. Il modulo VACE è il cuore che trasforma un'immagine di riferimento più i prompt in una sequenza latente pronta per il video. È progettato per l'animazione guidata dal soggetto e la conservazione dell'identità. Model card
- Wan 2.2 Text-to-Video A14B (HIGH/LOW). Il flusso di lavoro utilizza le varianti HIGH e LOW in una pipeline di denoising a tappe per scambiare velocità e dettaglio dove ciascuna è più efficace. I pesi confezionati compatibili con ComfyUI sono disponibili qui: Comfy-Org/Wan_2.2_ComfyUI_Repackaged
- UMT5-XXL text encoder. Un grande encoder di testo multilingue utilizzato da Wan 2.x per la comprensione dei prompt; supporta ricchi prompt in inglese e cinese. Vedi gli encoder di testo riconfezionati in Comfy-Org/Wan_2.2_ComfyUI_Repackaged
- Wan 2.1 VAE. Usato per decodificare i latenti finali del video in fotogrammi RGB prima della codifica. Disponibile nello stesso pacchetto: Comfy-Org/Wan_2.2_ComfyUI_Repackaged
Come utilizzare il flusso di lavoro Comfyui Wan2.2 VACE Fun
Il flusso di lavoro si esegue in fasi: imposti i controlli globali, prepari l'immagine di riferimento, scrivi i prompt, generi un video latente condizionato da VACE, lo affini attraverso il campionamento a tappe, quindi decodi ed esporti. I gruppi sono organizzati in modo da poter lavorare dall'alto verso il basso con il minimo attrito.
Impostazione
Questo gruppo centralizza i controlli che il resto del grafico legge: width, height, length (frames), fps, steps, sampling_shift, e seed. Cambiali una volta e ogni nodo a valle raccoglierà i valori tramite coppie SetNode/GetNode. La risoluzione e la lunghezza influenzano sia la qualità che il VRAM, mentre fps controlla il movimento percepito nel MP4 finale. Mantieni width e height allineati all'aspetto della tua immagine di riferimento per evitare stiramenti. Il seed è esposto per la riproducibilità tra le esecuzioni.
Ref Img
Carica il tuo soggetto con LoadImage (#118), quindi l'immagine viene ridimensionata in ImageResizeKJv2 (#112) per adattarsi alla tua risoluzione di destinazione. RMBG (#73) rimuove lo sfondo in modo che VACE possa agganciarsi al soggetto in primo piano in modo più affidabile, aiutando la coerenza dell'identità tra i fotogrammi. Un nodo di anteprima ti consente di ispezionare rapidamente il ritaglio prima della generazione. L'immagine elaborata viene memorizzata come riferimento e alimentata a valle.
Prompt
I prompt sono codificati con CLIP Text Encode (Positive Prompt) (#56) e CLIP Text Encode (Negative Prompt) (#54) utilizzando l'encoder UMT5-XXL. Scrivi verbi di azione chiari, linguaggio della fotocamera e contesto della scena nel prompt positivo per dirigere il movimento e la composizione. Usa il prompt negativo per sopprimere artefatti indesiderati, stili o ingombri; la fraseologia multilingue funziona bene. Gli output forniscono un ricco condizionamento per il passaggio VACE e i campionatori che seguono.
Models
Il grafico carica i pesi Wan 2.2 T2V A14B e applica il modulo Wan2.2 VACE Fun, quindi aumenta l'attenzione e la pianificazione per la stabilità. Il ramo HIGH passa attraverso PathchSageAttentionKJ (#8) e ModelSamplingSD3 (#57), mentre il ramo LOW utilizza LoraLoaderModelOnly (#61), PathchSageAttentionKJ (#66), e ModelSamplingSD3 (#20). Questa divisione ti offre un primo passaggio incentrato sui dettagli e un affinamento incentrato sul movimento. Tutte le scelte di modello sono preconfigurate; esegui semplicemente il grafico una volta che le tue impostazioni e i tuoi prompt sono pronti.
VACE Condition
WanVaceToVideo (#43) inietta la tua reference_image, il condizionamento positivo/negativo e il VAE, quindi genera una sequenza video latente iniziale dimensionata da width, height, e length. Pensa a questo come al momento in cui l'immagine statica "impara" a muoversi secondo il tuo prompt. Il nodo restituisce entrambi i flussi di condizionamento per il riutilizzo e un intero per il trimming latente per mantenere il flusso di lavoro coerente con i fotogrammi. Non è richiesta alcuna maschera manuale o video di controllo a meno che tu non voglia sperimentare.
Sampling
Una pila di campionatori a tre stadi modella il risultato. Primo passaggio KSamplerAdvanced (#108) semina la sequenza latente per la composizione generale e i segnali di movimento. Secondo passaggio KSamplerAdvanced (#107) approfondisce il dettaglio e la stabilità temporale utilizzando lo stesso condizionamento preservando il layout della scena. Passaggio finale KSamplerAdvanced (#109) si esegue sulla variante LOW per affinare il movimento e ridurre gli artefatti, trovando un equilibrio pratico tra velocità e qualità. TrimVideoLatent (#65) allinea i fotogrammi alla lunghezza target prima della decodifica.
Output
VAEDecode (#19) trasforma i latenti raffinati in fotogrammi RGB. VHS_VideoCombine (#69) quindi assembla quei fotogrammi in un MP4 al tuo fps scelto, salvando con un modello di nome file sensato. Questo gruppo è ottimizzato per cicli di revisione rapidi, in modo da poter iterare sui prompt, sulla lunghezza o sulla risoluzione senza toccare il resto del grafico. Quando sei soddisfatto, mantieni lo stesso seed per la ripetibilità o cambialo per esplorare variazioni.
Nodi chiave nel flusso di lavoro Comfyui Wan2.2 VACE Fun
WanVaceToVideo (#43) Il cuore di Wan2.2 VACE Fun: lega la semantica del prompt alla tua immagine di riferimento e produce i latenti video iniziali. Regola width, height, e length qui tramite le impostazioni condivise per adattarsi al tuo obiettivo creativo e al budget VRAM. Mantieni il soggetto di riferimento centrato e ben illuminato per una migliore conservazione dell'identità. Se il movimento sembra errato, rivedi il prompt positivo per enfatizzare le azioni, i movimenti della fotocamera e le parole di temporizzazione.
KSamplerAdvanced (#108, #107, #109) Una catena di campionatori a tappe che migliora progressivamente la composizione, il dettaglio e la fluidità del movimento. Aumenta steps quando hai bisogno di più dettagli o stabilità temporale e riutilizza lo stesso seed per confrontare equamente i cambiamenti. Il passaggio finale sulla variante LOW spesso pulisce artefatti sottili; se i risultati sembrano troppo morbidi, sposta alcuni passaggi ai passaggi precedenti. sampling_shift è esposto per spostare il programma verso l'enfasi del movimento o una texture più fine.
RMBG (#73) La rimozione automatica dello sfondo migliora l'aderenza al soggetto per Wan2.2 VACE Fun, specialmente con scene affollate o a basso contrasto. Usa riferimenti di alta qualità, non sfocati per minimizzare gli errori di ritaglio. Se desideri sfondi naturali, sostituiscili in seguito in post-produzione o componi una piastra dietro i fotogrammi decodificati.
TrimVideoLatent (#65) Mantiene la sequenza latente allineata alla lunghezza richiesta. Se estendi o accorci un clip, lascia che questo nodo gestisca la contabilità; previene la deriva sottile dei fotogrammi attraverso le fasi del campionatore.
VHS_VideoCombine (#69) Codifica i fotogrammi finali in MP4. Regola frame_rate per controllare la durata del clip rispetto alla length (durata uguale a fotogrammi divisi per fps). Aumenta la qualità per la consegna finale o riducila per anteprime rapide; una qualità più elevata aumenta la dimensione del file e il tempo di codifica.
Extra opzionali
- Inizia con un'immagine di riferimento il cui aspetto corrisponda alla tua
widtheheighttarget per evitare stiramenti e ritagli indesiderati. - Scrivi prompt che descrivano azione e movimento della fotocamera, non solo aspetto; Wan2.2 VACE Fun risponde bene a verbi come "cammina", "panning", "carrellata" e "tilt rapido".
- Mantieni
lengthefpsin sincronia con il tuo obiettivo: fps più alti sembrano più fluidi ma accorciano la durata totale per lo stesso conteggio dei fotogrammi. - Se l'identità vacilla, semplifica lo sfondo tramite
RMBGe aggiungi una breve clausola di identità nel prompt (abbigliamento, colore o attrezzatura). - Per bozze più veloci, riduci la risoluzione o i passaggi, quindi ripristinali per i finali; mantieni lo stesso seed per confrontare le versioni in modo affidabile.
Riconoscimenti
Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo @BenjisAIPlayground per il flusso di lavoro “Wan2.2 VACE Fun Demo” e per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.
Risorse
- PWan2.2 VACE Fun Demo
- Docs / Note di rilascio @BenjisAIPlayground: YouTube
Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

