Wan2.2 VACE Fun in ComfyUI | Flusso di lavoro per l'animazione delle immagini

Wan2.2 VACE Fun: Immagine di Riferimento a Video Animato in ComfyUI

Wan2.2 VACE Fun è un flusso di lavoro creativo, guidato da prompt, da riferimento a video per ComfyUI. Fornisci un'unica immagine di riferimento e una descrizione testuale, e il grafico anima il tuo soggetto in un video coerente preservando identità e stile. Basato sul modulo Wan 2.2 VACE con un campionatore a tappe, bilancia movimento, fedeltà e tempo di esecuzione, rendendolo ideale per reel di concetti, test di personaggi e brevi clip di narrazione.

Questo flusso di lavoro ComfyUI Wan2.2 VACE Fun si concentra su tre cose: forte aderenza al soggetto dall'immagine di riferimento, movimento espressivo guidato dal tuo prompt e esportazione affidabile in un video MP4. Usalo quando hai bisogno di iterazioni rapide che sembrano ancora cinematografiche, o quando vuoi trasformare un'immagine statica in una scena dinamica senza complessi keyframing.

Modelli chiave nel flusso di lavoro Comfyui Wan2.2 VACE Fun

Alibaba PAI Wan 2.2 VACE Fun A14B. Il modulo VACE è il cuore che trasforma un'immagine di riferimento più i prompt in una sequenza latente pronta per il video. È progettato per l'animazione guidata dal soggetto e la conservazione dell'identità. Model card
Wan 2.2 Text-to-Video A14B (HIGH/LOW). Il flusso di lavoro utilizza le varianti HIGH e LOW in una pipeline di denoising a tappe per scambiare velocità e dettaglio dove ciascuna è più efficace. I pesi confezionati compatibili con ComfyUI sono disponibili qui: Comfy-Org/Wan_2.2_ComfyUI_Repackaged
UMT5-XXL text encoder. Un grande encoder di testo multilingue utilizzato da Wan 2.x per la comprensione dei prompt; supporta ricchi prompt in inglese e cinese. Vedi gli encoder di testo riconfezionati in Comfy-Org/Wan_2.2_ComfyUI_Repackaged
Wan 2.1 VAE. Usato per decodificare i latenti finali del video in fotogrammi RGB prima della codifica. Disponibile nello stesso pacchetto: Comfy-Org/Wan_2.2_ComfyUI_Repackaged

Come utilizzare il flusso di lavoro Comfyui Wan2.2 VACE Fun

Il flusso di lavoro si esegue in fasi: imposti i controlli globali, prepari l'immagine di riferimento, scrivi i prompt, generi un video latente condizionato da VACE, lo affini attraverso il campionamento a tappe, quindi decodi ed esporti. I gruppi sono organizzati in modo da poter lavorare dall'alto verso il basso con il minimo attrito.

Impostazione

Questo gruppo centralizza i controlli che il resto del grafico legge: width, height, length (frames), fps, steps, sampling_shift, e seed. Cambiali una volta e ogni nodo a valle raccoglierà i valori tramite coppie SetNode/GetNode. La risoluzione e la lunghezza influenzano sia la qualità che il VRAM, mentre fps controlla il movimento percepito nel MP4 finale. Mantieni width e height allineati all'aspetto della tua immagine di riferimento per evitare stiramenti. Il seed è esposto per la riproducibilità tra le esecuzioni.

Ref Img

Carica il tuo soggetto con LoadImage (#118), quindi l'immagine viene ridimensionata in ImageResizeKJv2 (#112) per adattarsi alla tua risoluzione di destinazione. RMBG (#73) rimuove lo sfondo in modo che VACE possa agganciarsi al soggetto in primo piano in modo più affidabile, aiutando la coerenza dell'identità tra i fotogrammi. Un nodo di anteprima ti consente di ispezionare rapidamente il ritaglio prima della generazione. L'immagine elaborata viene memorizzata come riferimento e alimentata a valle.

Prompt

I prompt sono codificati con CLIP Text Encode (Positive Prompt) (#56) e CLIP Text Encode (Negative Prompt) (#54) utilizzando l'encoder UMT5-XXL. Scrivi verbi di azione chiari, linguaggio della fotocamera e contesto della scena nel prompt positivo per dirigere il movimento e la composizione. Usa il prompt negativo per sopprimere artefatti indesiderati, stili o ingombri; la fraseologia multilingue funziona bene. Gli output forniscono un ricco condizionamento per il passaggio VACE e i campionatori che seguono.

Models

Il grafico carica i pesi Wan 2.2 T2V A14B e applica il modulo Wan2.2 VACE Fun, quindi aumenta l'attenzione e la pianificazione per la stabilità. Il ramo HIGH passa attraverso PathchSageAttentionKJ (#8) e ModelSamplingSD3 (#57), mentre il ramo LOW utilizza LoraLoaderModelOnly (#61), PathchSageAttentionKJ (#66), e ModelSamplingSD3 (#20). Questa divisione ti offre un primo passaggio incentrato sui dettagli e un affinamento incentrato sul movimento. Tutte le scelte di modello sono preconfigurate; esegui semplicemente il grafico una volta che le tue impostazioni e i tuoi prompt sono pronti.

VACE Condition

WanVaceToVideo (#43) inietta la tua reference_image, il condizionamento positivo/negativo e il VAE, quindi genera una sequenza video latente iniziale dimensionata da width, height, e length. Pensa a questo come al momento in cui l'immagine statica "impara" a muoversi secondo il tuo prompt. Il nodo restituisce entrambi i flussi di condizionamento per il riutilizzo e un intero per il trimming latente per mantenere il flusso di lavoro coerente con i fotogrammi. Non è richiesta alcuna maschera manuale o video di controllo a meno che tu non voglia sperimentare.

Sampling

Una pila di campionatori a tre stadi modella il risultato. Primo passaggio KSamplerAdvanced (#108) semina la sequenza latente per la composizione generale e i segnali di movimento. Secondo passaggio KSamplerAdvanced (#107) approfondisce il dettaglio e la stabilità temporale utilizzando lo stesso condizionamento preservando il layout della scena. Passaggio finale KSamplerAdvanced (#109) si esegue sulla variante LOW per affinare il movimento e ridurre gli artefatti, trovando un equilibrio pratico tra velocità e qualità. TrimVideoLatent (#65) allinea i fotogrammi alla lunghezza target prima della decodifica.

Output

VAEDecode (#19) trasforma i latenti raffinati in fotogrammi RGB. VHS_VideoCombine (#69) quindi assembla quei fotogrammi in un MP4 al tuo fps scelto, salvando con un modello di nome file sensato. Questo gruppo è ottimizzato per cicli di revisione rapidi, in modo da poter iterare sui prompt, sulla lunghezza o sulla risoluzione senza toccare il resto del grafico. Quando sei soddisfatto, mantieni lo stesso seed per la ripetibilità o cambialo per esplorare variazioni.

Nodi chiave nel flusso di lavoro Comfyui Wan2.2 VACE Fun

WanVaceToVideo (#43) Il cuore di Wan2.2 VACE Fun: lega la semantica del prompt alla tua immagine di riferimento e produce i latenti video iniziali. Regola width, height, e length qui tramite le impostazioni condivise per adattarsi al tuo obiettivo creativo e al budget VRAM. Mantieni il soggetto di riferimento centrato e ben illuminato per una migliore conservazione dell'identità. Se il movimento sembra errato, rivedi il prompt positivo per enfatizzare le azioni, i movimenti della fotocamera e le parole di temporizzazione.

KSamplerAdvanced (#108, #107, #109) Una catena di campionatori a tappe che migliora progressivamente la composizione, il dettaglio e la fluidità del movimento. Aumenta steps quando hai bisogno di più dettagli o stabilità temporale e riutilizza lo stesso seed per confrontare equamente i cambiamenti. Il passaggio finale sulla variante LOW spesso pulisce artefatti sottili; se i risultati sembrano troppo morbidi, sposta alcuni passaggi ai passaggi precedenti. sampling_shift è esposto per spostare il programma verso l'enfasi del movimento o una texture più fine.

RMBG (#73) La rimozione automatica dello sfondo migliora l'aderenza al soggetto per Wan2.2 VACE Fun, specialmente con scene affollate o a basso contrasto. Usa riferimenti di alta qualità, non sfocati per minimizzare gli errori di ritaglio. Se desideri sfondi naturali, sostituiscili in seguito in post-produzione o componi una piastra dietro i fotogrammi decodificati.

TrimVideoLatent (#65) Mantiene la sequenza latente allineata alla lunghezza richiesta. Se estendi o accorci un clip, lascia che questo nodo gestisca la contabilità; previene la deriva sottile dei fotogrammi attraverso le fasi del campionatore.

VHS_VideoCombine (#69) Codifica i fotogrammi finali in MP4. Regola frame_rate per controllare la durata del clip rispetto alla length (durata uguale a fotogrammi divisi per fps). Aumenta la qualità per la consegna finale o riducila per anteprime rapide; una qualità più elevata aumenta la dimensione del file e il tempo di codifica.

Extra opzionali

Inizia con un'immagine di riferimento il cui aspetto corrisponda alla tua width e height target per evitare stiramenti e ritagli indesiderati.
Scrivi prompt che descrivano azione e movimento della fotocamera, non solo aspetto; Wan2.2 VACE Fun risponde bene a verbi come "cammina", "panning", "carrellata" e "tilt rapido".
Mantieni length e fps in sincronia con il tuo obiettivo: fps più alti sembrano più fluidi ma accorciano la durata totale per lo stesso conteggio dei fotogrammi.
Se l'identità vacilla, semplifica lo sfondo tramite RMBG e aggiungi una breve clausola di identità nel prompt (abbigliamento, colore o attrezzatura).
Per bozze più veloci, riduci la risoluzione o i passaggi, quindi ripristinali per i finali; mantieni lo stesso seed per confrontare le versioni in modo affidabile.

Riconoscimenti

Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo @BenjisAIPlayground per il flusso di lavoro “Wan2.2 VACE Fun Demo” e per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse

PWan2.2 VACE Fun Demo
- Docs / Note di rilascio @BenjisAIPlayground: YouTube

Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

Wan 2.2 FLF2V | Generazione Video da Primo a Ultimo Fotogramma

Genera video fluidi da un fotogramma iniziale e finale utilizzando Wan 2.2 FLF2V.

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Veloce

Configurazione Dual Light LoRA, 4X più veloce.

Wan FusionX | T2V+I2V+VACE Completo

La soluzione di generazione video più potente di sempre! Dettagli di qualità cinematografica, il tuo studio cinematografico personale.

Flux Consistent Characters | Input Image

Crea personaggi coerenti e assicurati che abbiano un aspetto uniforme utilizzando le tue immagini.

Audioreactive Dancers Evolved

Trasforma il tuo soggetto con uno sfondo audioreattivo fatto di geometrie intricate.

Qwen Edit 2509 Light Restoration | Strumento di Riluminazione Foto

Correggi rapidamente la cattiva illuminazione per foto perfette, pulite e bilanciate ogni volta.

LivePortrait | Anima Ritratti | Img2Vid

Anima i ritratti con espressioni facciali e movimento utilizzando una singola immagine e un video di riferimento.

DreamO | Framework Unificato per la Personalizzazione delle Immagini Multi-Task

Esegui generazione di immagini per identità, stile, try-on e multi-condizione da 1–3 riferimenti

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.

Wan2.2 VACE Fun | Immagine a Video Animato

Wan2.2 VACE Fun: Immagine di Riferimento a Video Animato in ComfyUI

Modelli chiave nel flusso di lavoro Comfyui Wan2.2 VACE Fun

Come utilizzare il flusso di lavoro Comfyui Wan2.2 VACE Fun

Impostazione

Ref Img

Prompt

Models

VACE Condition

Sampling

Output

Nodi chiave nel flusso di lavoro Comfyui Wan2.2 VACE Fun

Extra opzionali

Riconoscimenti

Risorse

Want More ComfyUI Workflows?

Wan 2.2 FLF2V | Generazione Video da Primo a Ultimo Fotogramma

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Veloce

Wan FusionX | T2V+I2V+VACE Completo

Flux Consistent Characters | Input Image

Audioreactive Dancers Evolved

Qwen Edit 2509 Light Restoration | Strumento di Riluminazione Foto

LivePortrait | Anima Ritratti | Img2Vid

DreamO | Framework Unificato per la Personalizzazione delle Immagini Multi-Task