Questo flusso di lavoro applica Wan 2.1 Ditto per ristilizzare qualsiasi video di input preservando la struttura della scena e il movimento. È progettato per editor e creatori che desiderano look cinematografici, artistici o sperimentali con forte coerenza temporale. Carichi un clip, descrivi l'aspetto desiderato e Wan 2.1 Ditto produce un render stilizzato pulito più un confronto affiancato opzionale per una rapida revisione.
Il grafico abbina la struttura text‑to‑video Wan 2.1 con il trasferimento di stile di Ditto a livello di modello, quindi i cambiamenti avvengono coerentemente tra i fotogrammi piuttosto che come filtri fotogramma per fotogramma. Gli usi comuni includono conversioni anime, pixel art, claymation, acquerello, steampunk o modifiche sim‑to‑real. Se già generi contenuti con Wan, questo flusso di lavoro Wan 2.1 Ditto si integra direttamente nella tua pipeline per uno stile video affidabile e privo di sfarfallio.
Il flusso di lavoro si esegue in quattro fasi: caricare i modelli, preparare il video di input, codificare testo e immagini, quindi campionare ed esportare. I gruppi operano in sequenza per produrre sia un render stilizzato sia un confronto affiancato opzionale.
Questo gruppo prepara tutto ciò di cui Wan 2.1 Ditto ha bisogno. La struttura base è caricata con WanVideoModelLoader
(#130) e abbinata a WanVideoVAELoader
(#60) e LoadWanVideoT5TextEncoder
(#80). Il componente Ditto è selezionato con WanVideoVACEModelSelect
(#128), che indirizza la struttura ai pesi di stilizzazione dedicati di Ditto. Se hai bisogno di una trasformazione più forte, puoi collegare un LoRA con WanVideoLoraSelect
(#122). WanVideoBlockSwap
(#68) è disponibile per la gestione della memoria in modo che i modelli più grandi possano essere eseguiti senza problemi su VRAM limitata.
Carica il tuo clip sorgente con VHS_LoadVideo
(#101). I fotogrammi vengono quindi ridimensionati per una geometria coerente utilizzando LayerUtility: ImageScaleByAspectRatio V2
(#76), che preserva l'aspetto mentre si punta a una risoluzione lato lungo controllata da un semplice input intero JWInteger
(#89). GetImageSizeAndCount
(#65) legge i fotogrammi preparati e inoltra larghezza, altezza e conteggio fotogrammi ai nodi a valle in modo che Wan 2.1 Ditto campioni la dimensione spaziale e la durata corrette. Un piccolo aiutante di prompt CR Text
(#104) è incluso se preferisci scrivere il prompt nel suo campo. Il gruppo intitolato “Limite massimo di variazione” ti ricorda di mantenere il target pixel lato lungo in un intervallo pratico per risultati coerenti e uso stabile della memoria.
Il condizionamento avviene in due corsie parallele. WanVideoTextEncode
(#111) trasforma il tuo prompt in rappresentazioni testuali che definiscono l'intento e lo stile. WanVideoVACEEncode
(#126) codifica il video preparato in rappresentazioni visive che preservano struttura e movimento per l'editing. Un modulo di guida opzionale WanVideoSLG
(#129) controlla come il modello bilancia stile e contenuto attraverso la traiettoria di denoising. WanVideoSampler
(#119) quindi fonde la struttura Wan 2.1 con Ditto, le rappresentazioni testuali e le rappresentazioni visive per generare latenze stilizzate. Infine, WanVideoDecode
(#87) ricostruisce i fotogrammi dalle latenze per produrre la sequenza stilizzata con la coerenza temporale per cui Wan 2.1 Ditto è noto.
L'esportazione principale utilizza VHS_VideoCombine
(#95) per salvare il render Wan 2.1 Ditto alla frequenza dei fotogrammi selezionata. Per una rapida revisione, il grafico unisce fotogrammi originali e stilizzati usando ImageConcatMulti
(#94), ridimensiona il confronto con ImageScaleToTotalPixels
(#133) e scrive un filmato affiancato tramite VHS_VideoCombine
(#100). Otterrai tipicamente due video nella cartella di output: un render stilizzato pulito e un clip di confronto che aiuta le parti interessate ad approvare o iterare più velocemente.
Puoi iniziare con prompt brevi e chiari e iterare. Esempi che funzionano bene con Wan 2.1 Ditto:
WanVideoVACEModelSelect
(#128)
Scegli quali pesi Ditto utilizzare per la stilizzazione. Il modello Ditto globale predefinito è una scelta equilibrata per la maggior parte delle riprese. Se il tuo obiettivo è una conversione anime‑to‑real, seleziona la variante Ditto sim‑to‑real indicata nella nota del nodo. Cambiare le varianti Ditto cambia il carattere della ristilizzazione senza toccare altre impostazioni.
WanVideoVACEEncode
(#126)
Costruisce il condizionamento visivo dai tuoi fotogrammi di input. I controlli chiave sono width
, height
e num_frames
, che dovrebbero corrispondere al video preparato per i migliori risultati. Usa strength
per regolare quanto assertivamente lo stile Ditto influenza l'editing, e vace_start_percent
e vace_end_percent
per limitare quando il condizionamento si applica attraverso la traiettoria di diffusione. Abilita tiled_vae
su risoluzioni molto grandi per ridurre la pressione sulla memoria.
WanVideoTextEncode
(#111)
Codifica prompt positivi e negativi tramite il codificatore mT5‑XXL per guidare stile e contenuto. Mantieni i prompt positivi concisi e descrittivi, e usa i negativi per sopprimere artefatti come sfarfallio o sovra-saturazione. Le opzioni force_offload
e device
ti consentono di scambiare velocità con memoria se stai eseguendo modelli grandi.
WanVideoSampler
(#119)
Esegue la struttura Wan 2.1 con stilizzazione Ditto per generare le latenze finali. Le impostazioni più influenti sono steps
, cfg
, scheduler
e seed
. Usa denoise_strength
quando vuoi preservare di più la struttura originale, e mantieni slg_args
collegato per bilanciare la fedeltà del contenuto contro la forza dello stile. Aumentare i passi o la guida può migliorare il dettaglio a scapito del tempo.
ImageScaleByAspectRatio V2
(#76)
Imposta una dimensione target stabile per tutti i fotogrammi prima del condizionamento. Guida il target del lato lungo con l'intero standalone in modo da poter testare piccole anteprime veloci e poi aumentare la risoluzione per i render finali. Mantieni la scala coerente tra le iterazioni per rendere significativi i confronti A/B.
VHS_LoadVideo
(#101) e VHS_VideoCombine
(#95, #100)
Questi nodi gestiscono la decodifica e la codifica. Abbina le frequenze dei fotogrammi alla sorgente quando ti interessa il timing. Lo scrittore di confronto è utile durante l'esplorazione e può essere disabilitato per le esportazioni finali se desideri solo il risultato stilizzato.
WanVideoVACEModelSelect
prima del campionamento.Questo flusso di lavoro Wan 2.1 Ditto rende la ristilizzazione video di alta qualità prevedibile e veloce, con prompt puliti, movimento coerente e output pronti per revisione o consegna immediata.
Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo EzioBy per Wan 2.1 Ditto Source per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.
Nota: L'uso dei modelli, dei dataset e del codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.
RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Playground, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.