Wan 2.2 VACE in ComfyUI | Flusso di Lavoro per Video a Movimento Guidato dalla Posizione

Generazione di video guidata dalla posa Wan 2.2 VACE per ComfyUI

Questo flusso di lavoro ComfyUI Wan 2.2 VACE trasforma una singola immagine di riferimento in un video che segue la posa, il ritmo e il movimento della fotocamera di una clip sorgente. Utilizza Wan 2.2 VACE per preservare l'identità mentre traduce movimenti corporei complessi in un'animazione fluida e realistica.

Progettato per la generazione di danza, il trasferimento di movimento e l'animazione creativa di personaggi, il flusso di lavoro automatizza la creazione di stile dall'immagine di riferimento, estrae segnali di movimento dal video sorgente e esegue un campionatore Wan 2.2 a due stadi che bilancia coerenza del movimento e dettaglio fine.

Modelli chiave nel flusso di lavoro Comfyui Wan 2.2 VACE

Modelli Text-to-Video Wan 2.2 14B (varianti ad alto e basso rumore). I due stadi utilizzano un backbone ad alto rumore per una modellazione robusta del movimento seguito da un backbone a basso rumore per il raffinamento dei dettagli.
Wan 2.1 VAE (bf16). Decodifica e codifica i frame video latenti per Wan 2.2 VACE.
Google UMT5-XXL Encoder. Fornisce caratteristiche testuali ad alta capacità utilizzate da Wan 2.2 per il condizionamento. Model card
Microsoft Florence-2 (Flux Large). Genera una ricca didascalia dall'immagine di riferimento per avviare e stilizzare il prompt. Repo
Depth Anything v2 (ViT-L). Produce mappe di profondità per frame dal video sorgente di movimento per guidare struttura e movimento. Repo

Come utilizzare il flusso di lavoro Comfyui Wan 2.2 VACE

Il flusso di lavoro ha cinque fasi raggruppate: Input, PROMPT, Modelli, CAMPIONAMENTO e Output. Fornisci un'immagine di riferimento e un breve video di movimento. Il grafico quindi calcola la guida al movimento, codifica le caratteristiche di identità VACE, esegue un campionatore Wan 2.2 a due passaggi, e salva sia l'animazione finale che un'anteprima opzionale fianco a fianco.

Inputs

Carica una clip sorgente di movimento in VHS_LoadVideo (#141). Puoi tagliare con controlli semplici e limitare i frame per la memoria. I frame vengono ridimensionati per la coerenza, quindi DepthAnythingV2Preprocessor (#135) calcola una sequenza di profondità densa che cattura posa, layout e movimento della fotocamera. Carica la tua immagine di identità con LoadImage (#113); viene ridimensionata automaticamente e visualizzata in anteprima così puoi verificare l'inquadratura prima del campionamento.

PROMPT

Florence2Run (#137) analizza l'immagine di riferimento e restituisce una didascalia dettagliata. Style Prompt (#138) concatena quella didascalia con una breve frase di stile, quindi WanVideoTextEncode (#16) codifica i prompt positivi e negativi finali usando UMT5-XXL. Puoi liberamente modificare la frase di stile o sostituire completamente il prompt positivo se desideri una direzione creativa più forte. Questo embedding del prompt condiziona entrambi gli stadi del campionatore così il video generato rimane fedele al tuo riferimento.

Models

WanVideoVAELoader (#38) carica il Wan VAE usato per codificare/decodificare. Due nodi WanVideoModelLoader preparano i modelli Wan 2.2 14B: uno ad alto rumore e uno a basso rumore, ciascuno aumentato con un modulo VACE selezionato in WanVideoExtraModelSelect (#99, #107). Il raffinamento opzionale LoRA è attaccato tramite WanVideoLoraSelect (#56, #97), permettendoti di regolare nitidezza o stile senza cambiare i modelli di base. La configurazione è progettata in modo che tu possa scambiare pesi VACE, LoRA o la variante di rumore senza toccare il resto del grafico.

SAMPLING

WanVideoVACEEncode (#100) fonde tre segnali in embedding VACE: la sequenza di movimento (frame di profondità), la tua immagine di riferimento e la geometria del video target. Il primo WanVideoSampler (#27) esegue il modello ad alto rumore fino a uno step di divisione per stabilire movimento, prospettiva e stile globale. Il secondo WanVideoSampler (#90) riprende da quel latente e termina con il modello a basso rumore per recuperare texture, bordi e piccoli dettagli mantenendo il movimento bloccato alla sorgente. Un breve programma CFG e split step controllano quanto ciascuno stadio influenza il risultato.

Output

WanVideoDecode (#28) converte il latente finale in frame. Ottieni due video salvati: un rendering pulito e una concatenazione fianco a fianco che posiziona i frame generati accanto al riferimento per un rapido QA. Una "Anteprima Mappa di Profondità" separata mostra la sequenza di profondità dedotta così puoi diagnosticare la guida al movimento a colpo d'occhio. Le impostazioni di frame rate e nome file sono disponibili negli output VHS_VideoCombine (#139, #60, #144).

Nodi chiave nel flusso di lavoro Comfyui Wan 2.2 VACE

`WanVideoVACEEncode` (#100)

Crea gli embedding di identità e geometria VACE usati da entrambi i campionatori. Fornisci i tuoi frame di movimento e l'immagine di riferimento; il nodo gestisce larghezza, altezza e conteggio dei frame. Se cambi durata o aspetto, mantieni questo nodo sincronizzato così gli embedding corrispondono al layout del video target.

`WanVideoSampler` (#27)

Campionatore del primo stadio usando il modello ad alto rumore Wan 2.2. Regola steps, un breve programma cfg, e lo end_step split per decidere quanto della traiettoria è allocato alla modellazione del movimento. Cambiamenti di movimento o di fotocamera maggiori beneficiano di uno split leggermente successivo.

`WanVideoSampler` (#90)

Campionatore del secondo stadio usando il modello a basso rumore Wan 2.2. Imposta start_step sullo stesso valore di split così continua senza problemi dal primo stadio. Se vedi una sovrasaturazione delle texture o una deriva, riduci i valori cfg successivi o abbassa la forza di LoRA.

`DepthAnythingV2Preprocessor` (#135)

Estrae una sequenza di profondità stabile dal video sorgente. Usare la profondità come guida al movimento aiuta Wan 2.2 VACE a mantenere layout della scena, posa delle mani e occlusione. Per iterazioni rapide, puoi ridimensionare i frame di input più piccoli; per rendering finali, fornisci frame ad alta risoluzione per una migliore fedeltà strutturale.

`WanVideoTextEncode` (#16)

Codifica i prompt positivi e negativi con UMT5-XXL. Il prompt è auto-costruito da Florence2Run, ma puoi sovrascriverlo per la direzione artistica. Mantieni i prompt concisi; con la guida di identità VACE, meno parole chiave spesso producono un trasferimento di movimento più pulito e meno vincolato.

Extra opzionali

Scegli clip di movimento con chiara separazione del soggetto e illuminazione coerente per i trasferimenti più stabili di Wan 2.2 VACE.
Usa l'output fianco a fianco per verificare l'allineamento del viso e la continuità dell'outfit prima di eseguire un passaggio finale.
Se il movimento sembra troppo rigido, sposta lo split un po' prima così lo stadio a basso rumore ha più spazio per raffinarsi.
Se l'identità sta scivolando, aumenta leggermente l'influenza di LoRA o semplifica il prompt.
L'anteprima della profondità è tua amica: se la profondità è rumorosa, prova una clip sorgente diversa o regola il ridimensionamento dell'input per ridurre gli artefatti.

Riconoscimenti

Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Riconosciamo con gratitudine i creatori della comunità ComfyUI di Wan 2.2 VACE Source per il flusso di lavoro, per i loro contributi e la manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse

Wan 2.2 VACE Source/Wan 2.2 VACE Source
- Documenti / Note di Rilascio: Wan 2.2 VACE @ComfyUI

Nota: L'uso dei modelli, dei dataset e del codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Veloce

Configurazione Dual Light LoRA, 4X più veloce.

Wan 2.2 FLF2V | Generazione Video da Primo a Ultimo Fotogramma

Genera video fluidi da un fotogramma iniziale e finale utilizzando Wan 2.2 FLF2V.

Wan 2.2 Lightning T2V I2V | 4-Fasi Ultra Veloce

Wan 2.2 ora 20x più veloce! T2V + I2V in 4 fasi.

VACE 14B: Creazione & Editing Video Completo

Crea, modifica e trasforma video con il potente VACE Wan2.1 14B.

Wan2.2 Animare | Foto a video realistico in movimento

Trasforma le immagini in personaggi realistici e in movimento con movimento naturale del corpo e del viso.

Stable Fast 3D | ComfyUI 3D Pack

Crea contenuti 3D straordinari con Stable Fast 3D e ComfyUI 3D Pack.

Qwen Image Edit | Modifica Foto AI Precisa

Modifica le foto rapidamente con stile, riluminazione e precisione nel controllo degli oggetti.

Hunyuan3D | ComfyUI 3D Pack

Crea prima immagini RGB da più viste, quindi trasformale in asset 3D.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.

Wan 2.2 VACE | Generatore di Video Controllato dalla Posizione

Generazione di video guidata dalla posa Wan 2.2 VACE per ComfyUI

Modelli chiave nel flusso di lavoro Comfyui Wan 2.2 VACE

Come utilizzare il flusso di lavoro Comfyui Wan 2.2 VACE

Inputs

PROMPT

Models

SAMPLING

Output

Nodi chiave nel flusso di lavoro Comfyui Wan 2.2 VACE

WanVideoVACEEncode (#100)

WanVideoSampler (#27)

WanVideoSampler (#90)

DepthAnythingV2Preprocessor (#135)

WanVideoTextEncode (#16)

Extra opzionali

Riconoscimenti

Risorse

Want More ComfyUI Workflows?

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Veloce

Wan 2.2 FLF2V | Generazione Video da Primo a Ultimo Fotogramma

Wan 2.2 Lightning T2V I2V | 4-Fasi Ultra Veloce

VACE 14B: Creazione & Editing Video Completo

Wan2.2 Animare | Foto a video realistico in movimento

Stable Fast 3D | ComfyUI 3D Pack

Qwen Image Edit | Modifica Foto AI Precisa

Hunyuan3D | ComfyUI 3D Pack

`WanVideoVACEEncode` (#100)

`WanVideoSampler` (#27)

`WanVideoSampler` (#90)

`DepthAnythingV2Preprocessor` (#135)

`WanVideoTextEncode` (#16)