Wan 2.2 VBVR in ComfyUI | Workflow di Ragionamento Video Contestuale

This workflow runs on Medium, Large, and X Large machines. 2X Large and larger machines are not supported and may crash ComfyUI due to OOM.

Wan 2.2 VBVR in ComfyUI Workflow

Wan 2.2 VBVR in ComfyUI | Context-Aware Video Reasoning Workflow

Vuoi eseguire questo workflow?

Workflow completamente operativi
Nessun nodo o modello mancante
Nessuna configurazione manuale richiesta
Presenta visuali mozzafiato

Wan 2.2 VBVR in ComfyUI Examples

Wan 2.2 VBVR in ComfyUI: generazione di immagini in video consapevole del ragionamento#

Wan 2.2 VBVR in ComfyUI è un workflow pronto per la produzione che porta il Ragionamento Visivo Basato su Video a Wan 2.2 da immagine a video. Arricchisce il pipeline standard di Wan 2.2 Mixture-of-Experts con un percorso di modello ottimizzato per il ragionamento e un percorso opzionale VBVR LoRA, così i tuoi video possono seguire oggetti, azioni ed eventi causali con una logica temporale più forte e coerenza di scena.

Costruito per la direzione creativa, la simulazione e i momenti narrativi che necessitano di più di semplici belle immagini, questo workflow ComfyUI allinea prompt complessi con movimento strutturato e interazioni multi-oggetto. Puoi scegliere tra il percorso del modello VBVR puro o stratificare VBVR e motion LoRAs su Wan 2.2 per velocità, quindi esportare MP4 pronti per l'editing.

Modelli chiave nel workflow Comfyui Wan 2.2 VBVR#

Wan2.2-I2V-A14B (MoE backbone). Due esperti si specializzano in fasi ad alto rumore e basso rumore e si alternano in base al SNR durante il denoising, offrendo maggiore capacità senza costi extra per passaggio. Questo è il generatore principale che il workflow estende e miscela. Model card • Dettagli tecnici
VBVR-Wan2.2. Una fine-tuning di Wan2.2-I2V-A14B su un'ampia suite di ragionamento video per migliorare il ragionamento temporale, causale e multi-oggetto mantenendo invariata l'architettura. Usalo quando desideri il massimo allineamento del ragionamento. Model card • Paper
Wan 2.x VAE. Video autoencoder ad alta compressione che ricostruisce i frame in modo efficiente per workflow da 480p a 720p; Wan 2.2 descrive un design di compressione che consente una generazione rapida a 720p. Panoramica
uMT5-XXL text encoder. Un encoder robusto multilingue della famiglia T5 usato per derivare gli embedding dei prompt per i pipeline di testo e immagine a video di Wan 2.2. Model card
Motion e reasoning LoRAs per Wan 2.2. Il workflow può caricare VBVR LoRA per un bias di ragionamento e LightX2V LoRAs distillati in passaggi per un'ampiezza di movimento e movimenti di camera più forti. Esempio di VBVR LoRA • Collezione LightX2V

Come utilizzare il workflow Comfyui Wan 2.2 VBVR#

Questo workflow offre tre percorsi complementari. Ogni percorso è autonomo dai prompt e dall'immagine iniziale opzionale all'output video, così puoi testarli tutti e tenere il miglior risultato.

Percorso Modello VBVR
- Scopo. Usalo quando desideri il massimo ragionamento video. Esegue una coppia di modelli Wan 2.2 calibrati VBVR ad alto SNR e basso SNR, dividendo il programma di denoising tra una fase di "layout" e una fase di "dettaglio".
- Come funziona. La fase ad alto rumore viene eseguita per prima in WanVideoSampler (#173), quindi i suoi latenti fluiscono nella fase a basso rumore WanVideoSampler (#172) che affina la logica del movimento e i dettagli. Il passaggio è controllato dai start_step e end_step dei campionatori, rispecchiando il passaggio di esperti SNR-gated di Wan 2.2.
- Cosa impostare. Fornisci un'immagine iniziale se desiderato tramite LoadImage (#67), e scrivi il tuo prompt nel nodo Text vicino all'encoder che alimenta WanVideoTextEncode (#170). Modifica il conteggio dei frame con il piccolo nodo intero accanto ai campionatori (Int (#168)).
- Output. I frame sono decodificati da WanVideoDecode (#164) e assemblati come MP4 con VHS_VideoCombine (#176).
Percorso Wan 2.2 + PainterI2V
- Scopo. Un percorso veloce e generale per il movimento cinematografico. Mantiene i modelli I2V di Wan 2.2 standard ma aggiorna il conditioning dell'immagine con PainterI2VforKJ per correggere gli artefatti di slow-motion comuni nei LoRAs a 4 passaggi.
- Come funziona. La tua immagine iniziale viene ridimensionata per il modello, incorporata con PainterI2VforKJ (#181), quindi campionata da WanVideoSampler (#129, #130). Il percorso utilizza un passaggio di alto rumore e poi basso rumore simile a VBVR ma si attiene ai pesi standard di Wan 2.2.
- Cosa impostare. Fornisci il tuo prompt nel nodo Text che alimenta WanVideoTextEncode (#152). Se concatenato a un LightX2V LoRA, il conditioning di questo percorso aiuta il movimento a sembrare più intenzionale. Vedi il readme del nodo per il suo obiettivo progettuale. PainterI2VforKJ
- Output. I frame sono decodificati da WanVideoDecode (#142) e salvati con VHS_VideoCombine (#154).
Percorso Wan 2.2 + VBVR LoRA
- Scopo. Un ibrido per iterazioni rapide. Sovrappone un VBVR LoRA sul modello Wan 2.2 ad alto rumore e un motion LoRA sul modello a basso rumore, dandoti una spinta di ragionamento all'inizio e una lucidatura del movimento pulita alla fine.
- Come funziona. Il flusso ad alto rumore passa attraverso WanVideoSampler (#27) e il flusso a basso rumore attraverso WanVideoSampler (#90); entrambi ricevono embedding di testo da WanVideoTextEncode (#16) e un conditioning opzionale dell'immagine da PainterI2VforKJ (#179). I LoRAs sono applicati per fase per corrispondere al ruolo dell'esperto.
- Cosa impostare. Inserisci il tuo prompt nel nodo Text vicino a WanVideoTextEncode (#16) e, se necessario, regola la divisione delle fasi con i widget interi vicini etichettati “Split_step.” I VBVR e LightX2V LoRAs sono selezionabili dai nodi LoRA in questo gruppo. VBVR LoRA
- Output. I frame vengono decodificati tramite WanVideoDecode (#28) e esportati attraverso VHS_VideoCombine (#60).

Nodi chiave nel workflow Comfyui Wan 2.2 VBVR#

WanVideoModelLoader (#165, #162)
- Carica i modelli Wan 2.2 calibrati VBVR ad alto SNR e basso SNR che si mappano agli esperti di denoising iniziali e finali. Mantieni la coppia coerente affinché il passaggio basato su SNR rimanga stabile. Vedi il design del MoE e del passaggio SNR di Wan 2.2 per contesto. Dettagli
WanVideoSampler (#173, #172, #129, #130, #27, #90)
- Guida la generazione e controlla la divisione degli esperti. Regola i steps per bilanciare dettagli e velocità, e modula start_step o end_step per spostare il lavoro tra l'esperto di layout iniziale e l'esperto di dettaglio finale. Usa cfg per scambiare aderenza per libertà di movimento. L'implementazione di riferimento è nei nodi del sampler del wrapper. Wrapper repo
PainterI2VforKJ (#178, #181, #179)
- Sostituisce il conditioning immagine a video vanilla con una variante amplificata dal movimento progettata per risolvere il slow-motion quando si usano LoRAs LightX2V a 4 passaggi. Rafforza i prompt della camera e i momenti di azione mantenendo l'identità del soggetto. Node readme
WanVideoTextEncode (#170, #152, #16)
- Codifica i prompt positivi e negativi tramite un encoder uMT5-XXL in modo che i campionatori ricevano una semantica ricca e multilingue. Mantieni la struttura del prompt chiara; separare scena, soggetto, azione e intento della camera tipicamente migliora l'allineamento. uMT5
VHS_VideoCombine (#176, #154, #60)
- Assembla i frame decodificati in un MP4 con metadati per la riproducibilità. Se passi audio, il nodo lo muxa con il video. Questo proviene dai nodi di utilità di VideoHelperSuite. VideoHelperSuite

Extra opzionali#

Quando scegliere ogni percorso
- Modello VBVR: interazioni complesse, scene causa-effetto, o coreografia multi-oggetto.
- Wan 2.2 + PainterI2V: movimento dinamico o narrazione orientata alla camera con LoRAs LightX2V.
- Wan 2.2 + VBVR LoRA: anteprime rapide che beneficiano comunque di un bias di ragionamento precoce nel denoising.
Suggerimenti per i prompt per Wan 2.2 VBVR in ComfyUI
- Usa sezioni brevi come [SCENA], [SOGGETTO], [AZIONE], [CAMERA], [ILLUMINAZIONE]. Questo aiuta l'encoder di testo a separare l'intento.
- Per le interazioni tra oggetti, specifica chi fa cosa a chi e in quale ordine.
Stacking di LoRA
- Mantieni il LoRA orientato al ragionamento sull'esperto iniziale e il LoRA di movimento sull'esperto finale per evitare di regolarizzare eccessivamente il dettaglio. Set compatibili VBVR e LightX2V con Wan 2.2 sono disponibili qui: VBVR LoRA • LightX2V
Dimensione e aspetto dei frame
- I nodi ImageResizeKJv2 vicino agli ingressi assicurano una divisibilità pulita per il VAE e riducono gli artefatti. Abbina l'aspetto della tua immagine iniziale al video target per una propagazione del movimento più fluida.

Riconoscimenti#

Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo con gratitudine @Ai Verse, l'autore di Wan 2.2 VBVR in ComfyUI Source per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse#

YouTube/Wan 2.2 VBVR in ComfyUI Source
- Docs / Note di rilascio: Wan 2.2 VBVR in ComfyUI Source @Ai Verse

Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

Wan 2.2 | Leader Open-Source nella Generazione Video

Disponibile ora! Maggiore precisione + movimento più fluido.

Wan 2.2 FLF2V | Generazione Video da Primo a Ultimo Fotogramma

Genera video fluidi da un fotogramma iniziale e finale utilizzando Wan 2.2 FLF2V.

Wan 2.2 Lightning T2V I2V | 4-Fasi Ultra Veloce

Wan 2.2 ora 20x più veloce! T2V + I2V in 4 fasi.

Wan 2.1 Control LoRA | Profondità e Tile

Avanza la generazione video Wan 2.1 con LoRA di profondità e tile leggeri per una struttura e dettagli migliorati.

SCAIL-2 Motion Transfer | Creatore di Video Lunghi

Trasforma lo stile fotografico in video di movimento lunghi e senza soluzione di continuità rapidamente.

LongCat Video Avatar 1.5 ComfyUI | Generatore Sincronizzato con le Labbra

Trasforma l'immagine del personaggio e l'audio in un video avatar perfettamente sincronizzato con le labbra.

Sonic | Animazione Lip-Sync per Ritratti

Sonic offre un lip-sync avanzato guidato dall'audio per ritratti con animazioni di alta qualità.

SDXL Turbo | Da Testo a Immagine Rapidamente

Sperimenta la rapida sintesi da testo a immagine con SDXL Turbo.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.

Wan 2.2 VBVR in ComfyUI | Ragionamento Video Basato su Video