Questo flusso di lavoro ComfyUI Wan 2.2 VACE trasforma una singola immagine di riferimento in un video che segue la posa, il ritmo e il movimento della fotocamera di una clip sorgente. Utilizza Wan 2.2 VACE per preservare l'identità mentre traduce movimenti corporei complessi in un'animazione fluida e realistica.
Progettato per la generazione di danza, il trasferimento di movimento e l'animazione creativa di personaggi, il flusso di lavoro automatizza la creazione di stile dall'immagine di riferimento, estrae segnali di movimento dal video sorgente e esegue un campionatore Wan 2.2 a due stadi che bilancia coerenza del movimento e dettaglio fine.
Il flusso di lavoro ha cinque fasi raggruppate: Input, PROMPT, Modelli, CAMPIONAMENTO e Output. Fornisci un'immagine di riferimento e un breve video di movimento. Il grafico quindi calcola la guida al movimento, codifica le caratteristiche di identità VACE, esegue un campionatore Wan 2.2 a due passaggi, e salva sia l'animazione finale che un'anteprima opzionale fianco a fianco.
Carica una clip sorgente di movimento in VHS_LoadVideo
(#141). Puoi tagliare con controlli semplici e limitare i frame per la memoria. I frame vengono ridimensionati per la coerenza, quindi DepthAnythingV2Preprocessor
(#135) calcola una sequenza di profondità densa che cattura posa, layout e movimento della fotocamera. Carica la tua immagine di identità con LoadImage
(#113); viene ridimensionata automaticamente e visualizzata in anteprima così puoi verificare l'inquadratura prima del campionamento.
Florence2Run
(#137) analizza l'immagine di riferimento e restituisce una didascalia dettagliata. Style Prompt
(#138) concatena quella didascalia con una breve frase di stile, quindi WanVideoTextEncode
(#16) codifica i prompt positivi e negativi finali usando UMT5-XXL. Puoi liberamente modificare la frase di stile o sostituire completamente il prompt positivo se desideri una direzione creativa più forte. Questo embedding del prompt condiziona entrambi gli stadi del campionatore così il video generato rimane fedele al tuo riferimento.
WanVideoVAELoader
(#38) carica il Wan VAE usato per codificare/decodificare. Due nodi WanVideoModelLoader
preparano i modelli Wan 2.2 14B: uno ad alto rumore e uno a basso rumore, ciascuno aumentato con un modulo VACE selezionato in WanVideoExtraModelSelect
(#99, #107). Il raffinamento opzionale LoRA è attaccato tramite WanVideoLoraSelect
(#56, #97), permettendoti di regolare nitidezza o stile senza cambiare i modelli di base. La configurazione è progettata in modo che tu possa scambiare pesi VACE, LoRA o la variante di rumore senza toccare il resto del grafico.
WanVideoVACEEncode
(#100) fonde tre segnali in embedding VACE: la sequenza di movimento (frame di profondità), la tua immagine di riferimento e la geometria del video target. Il primo WanVideoSampler
(#27) esegue il modello ad alto rumore fino a uno step di divisione per stabilire movimento, prospettiva e stile globale. Il secondo WanVideoSampler
(#90) riprende da quel latente e termina con il modello a basso rumore per recuperare texture, bordi e piccoli dettagli mantenendo il movimento bloccato alla sorgente. Un breve programma CFG e split step controllano quanto ciascuno stadio influenza il risultato.
WanVideoDecode
(#28) converte il latente finale in frame. Ottieni due video salvati: un rendering pulito e una concatenazione fianco a fianco che posiziona i frame generati accanto al riferimento per un rapido QA. Una "Anteprima Mappa di Profondità" separata mostra la sequenza di profondità dedotta così puoi diagnosticare la guida al movimento a colpo d'occhio. Le impostazioni di frame rate e nome file sono disponibili negli output VHS_VideoCombine
(#139, #60, #144).
WanVideoVACEEncode
(#100)Crea gli embedding di identità e geometria VACE usati da entrambi i campionatori. Fornisci i tuoi frame di movimento e l'immagine di riferimento; il nodo gestisce larghezza, altezza e conteggio dei frame. Se cambi durata o aspetto, mantieni questo nodo sincronizzato così gli embedding corrispondono al layout del video target.
WanVideoSampler
(#27)Campionatore del primo stadio usando il modello ad alto rumore Wan 2.2. Regola steps
, un breve programma cfg
, e lo end_step
split per decidere quanto della traiettoria è allocato alla modellazione del movimento. Cambiamenti di movimento o di fotocamera maggiori beneficiano di uno split leggermente successivo.
WanVideoSampler
(#90)Campionatore del secondo stadio usando il modello a basso rumore Wan 2.2. Imposta start_step
sullo stesso valore di split così continua senza problemi dal primo stadio. Se vedi una sovrasaturazione delle texture o una deriva, riduci i valori cfg
successivi o abbassa la forza di LoRA.
DepthAnythingV2Preprocessor
(#135)Estrae una sequenza di profondità stabile dal video sorgente. Usare la profondità come guida al movimento aiuta Wan 2.2 VACE a mantenere layout della scena, posa delle mani e occlusione. Per iterazioni rapide, puoi ridimensionare i frame di input più piccoli; per rendering finali, fornisci frame ad alta risoluzione per una migliore fedeltà strutturale.
WanVideoTextEncode
(#16)Codifica i prompt positivi e negativi con UMT5-XXL. Il prompt è auto-costruito da Florence2Run
, ma puoi sovrascriverlo per la direzione artistica. Mantieni i prompt concisi; con la guida di identità VACE, meno parole chiave spesso producono un trasferimento di movimento più pulito e meno vincolato.
Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Riconosciamo con gratitudine i creatori della comunità ComfyUI di Wan 2.2 VACE Source per il flusso di lavoro, per i loro contributi e la manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.
Nota: L'uso dei modelli, dei dataset e del codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.
RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Playground, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.