Wan 2.1 Ditto in ComfyUI | Video Stylization e Consistenza del Movimento

ComfyUI Wan 2.1 Ditto Workflow

Wan 2.1 Ditto in ComfyUI | Video Stylization and Motion Consistency

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Wan 2.1 Ditto Examples

Flusso di lavoro di ristilizzazione video Wan 2.1 Ditto per ComfyUI#

Questo flusso di lavoro applica Wan 2.1 Ditto per ristilizzare qualsiasi video di input preservando la struttura della scena e il movimento. È progettato per editor e creatori che desiderano look cinematografici, artistici o sperimentali con forte coerenza temporale. Carichi un clip, descrivi l'aspetto desiderato e Wan 2.1 Ditto produce un render stilizzato pulito più un confronto affiancato opzionale per una rapida revisione.

Il grafico abbina la struttura text‑to‑video Wan 2.1 con il trasferimento di stile di Ditto a livello di modello, quindi i cambiamenti avvengono coerentemente tra i fotogrammi piuttosto che come filtri fotogramma per fotogramma. Gli usi comuni includono conversioni anime, pixel art, claymation, acquerello, steampunk o modifiche sim‑to‑real. Se già generi contenuti con Wan, questo flusso di lavoro Wan 2.1 Ditto si integra direttamente nella tua pipeline per uno stile video affidabile e privo di sfarfallio.

Modelli chiave nel flusso di lavoro Comfyui Wan 2.1 Ditto#

Modello text‑to‑video Wan2.1‑T2V‑14B. Funziona come struttura generativa che sintetizza movimento coerente temporalmente dato testo e condizionamento visivo.
Wan 2.1 VAE. Codifica e decodifica latenze video così il campionatore può lavorare in uno spazio compatto e poi ricostruire fotogrammi a piena risoluzione in modo affidabile.
Codificatore di testo mT5‑XXL. Converte i prompt in ricche rappresentazioni linguistiche che guidano contenuto e stile della scena. Per approfondimenti su mT5, vedi il documento di Xue et al. mT5: A Massively Multilingual Pre‑trained Text‑to‑Text Transformer.
Modello di stilizzazione Ditto per Wan 2.1. Fornisce una robusta ristilizzazione globale con forte coerenza temporale. L'approccio Ditto e i file del modello sono documentati qui: EzioBy/Ditto.
LoRA opzionale per Wan 2.1 14B. Aggiunge leggere variazioni di stile o comportamento senza riaddestrare il modello base, seguendo il metodo LoRA descritto in Hu et al., 2021.

Come usare il flusso di lavoro Comfyui Wan 2.1 Ditto#

Il flusso di lavoro si esegue in quattro fasi: caricare i modelli, preparare il video di input, codificare testo e immagini, quindi campionare ed esportare. I gruppi operano in sequenza per produrre sia un render stilizzato sia un confronto affiancato opzionale.

Modelli#

Questo gruppo prepara tutto ciò di cui Wan 2.1 Ditto ha bisogno. La struttura base è caricata con WanVideoModelLoader (#130) e abbinata a WanVideoVAELoader (#60) e LoadWanVideoT5TextEncoder (#80). Il componente Ditto è selezionato con WanVideoVACEModelSelect (#128), che indirizza la struttura ai pesi di stilizzazione dedicati di Ditto. Se hai bisogno di una trasformazione più forte, puoi collegare un LoRA con WanVideoLoraSelect (#122). WanVideoBlockSwap (#68) è disponibile per la gestione della memoria in modo che i modelli più grandi possano essere eseguiti senza problemi su VRAM limitata.

Parametri di input#

Carica il tuo clip sorgente con VHS_LoadVideo (#101). I fotogrammi vengono quindi ridimensionati per una geometria coerente utilizzando LayerUtility: ImageScaleByAspectRatio V2 (#76), che preserva l'aspetto mentre si punta a una risoluzione lato lungo controllata da un semplice input intero JWInteger (#89). GetImageSizeAndCount (#65) legge i fotogrammi preparati e inoltra larghezza, altezza e conteggio fotogrammi ai nodi a valle in modo che Wan 2.1 Ditto campioni la dimensione spaziale e la durata corrette. Un piccolo aiutante di prompt CR Text (#104) è incluso se preferisci scrivere il prompt nel suo campo. Il gruppo intitolato “Limite massimo di variazione” ti ricorda di mantenere il target pixel lato lungo in un intervallo pratico per risultati coerenti e uso stabile della memoria.

Campionamento#

Il condizionamento avviene in due corsie parallele. WanVideoTextEncode (#111) trasforma il tuo prompt in rappresentazioni testuali che definiscono l'intento e lo stile. WanVideoVACEEncode (#126) codifica il video preparato in rappresentazioni visive che preservano struttura e movimento per l'editing. Un modulo di guida opzionale WanVideoSLG (#129) controlla come il modello bilancia stile e contenuto attraverso la traiettoria di denoising. WanVideoSampler (#119) quindi fonde la struttura Wan 2.1 con Ditto, le rappresentazioni testuali e le rappresentazioni visive per generare latenze stilizzate. Infine, WanVideoDecode (#87) ricostruisce i fotogrammi dalle latenze per produrre la sequenza stilizzata con la coerenza temporale per cui Wan 2.1 Ditto è noto.

Output e confronti#

L'esportazione principale utilizza VHS_VideoCombine (#95) per salvare il render Wan 2.1 Ditto alla frequenza dei fotogrammi selezionata. Per una rapida revisione, il grafico unisce fotogrammi originali e stilizzati usando ImageConcatMulti (#94), ridimensiona il confronto con ImageScaleToTotalPixels (#133) e scrive un filmato affiancato tramite VHS_VideoCombine (#100). Otterrai tipicamente due video nella cartella di output: un render stilizzato pulito e un clip di confronto che aiuta le parti interessate ad approvare o iterare più velocemente.

Idee per i prompt#

Puoi iniziare con prompt brevi e chiari e iterare. Esempi che funzionano bene con Wan 2.1 Ditto:

Rendilo in stile anime giapponese, video cel shading.
Rendilo un video Pixel Art.
Rendilo in stile schizzo a matita.
Rendilo un video Claymation.
Rendilo in stile disegno ad acquerello.
Rendilo in stile Steampunk con ingranaggi, tubi e dettagli in ottone.
Rendilo in stile Cyberpunk con neon e impianti futuristici.
Rendilo in stile Ukiyo‑e.
Rendilo in stile arte rinascimentale.
Rendilo un disegno di Van Gogh.
Trasformalo in stile LEGO.
Trasformalo in stile Ghibli.
Trasformalo in stile 3D Chibi.
Trasformalo in stile Paper Cutting.

Nodi chiave nel flusso di lavoro Comfyui Wan 2.1 Ditto#

WanVideoVACEModelSelect (#128) Scegli quali pesi Ditto utilizzare per la stilizzazione. Il modello Ditto globale predefinito è una scelta equilibrata per la maggior parte delle riprese. Se il tuo obiettivo è una conversione anime‑to‑real, seleziona la variante Ditto sim‑to‑real indicata nella nota del nodo. Cambiare le varianti Ditto cambia il carattere della ristilizzazione senza toccare altre impostazioni.

WanVideoVACEEncode (#126) Costruisce il condizionamento visivo dai tuoi fotogrammi di input. I controlli chiave sono width, height e num_frames, che dovrebbero corrispondere al video preparato per i migliori risultati. Usa strength per regolare quanto assertivamente lo stile Ditto influenza l'editing, e vace_start_percent e vace_end_percent per limitare quando il condizionamento si applica attraverso la traiettoria di diffusione. Abilita tiled_vae su risoluzioni molto grandi per ridurre la pressione sulla memoria.

WanVideoTextEncode (#111) Codifica prompt positivi e negativi tramite il codificatore mT5‑XXL per guidare stile e contenuto. Mantieni i prompt positivi concisi e descrittivi, e usa i negativi per sopprimere artefatti come sfarfallio o sovra-saturazione. Le opzioni force_offload e device ti consentono di scambiare velocità con memoria se stai eseguendo modelli grandi.

WanVideoSampler (#119) Esegue la struttura Wan 2.1 con stilizzazione Ditto per generare le latenze finali. Le impostazioni più influenti sono steps, cfg, scheduler e seed. Usa denoise_strength quando vuoi preservare di più la struttura originale, e mantieni slg_args collegato per bilanciare la fedeltà del contenuto contro la forza dello stile. Aumentare i passi o la guida può migliorare il dettaglio a scapito del tempo.

ImageScaleByAspectRatio V2 (#76) Imposta una dimensione target stabile per tutti i fotogrammi prima del condizionamento. Guida il target del lato lungo con l'intero standalone in modo da poter testare piccole anteprime veloci e poi aumentare la risoluzione per i render finali. Mantieni la scala coerente tra le iterazioni per rendere significativi i confronti A/B.

VHS_LoadVideo (#101) e VHS_VideoCombine (#95, #100) Questi nodi gestiscono la decodifica e la codifica. Abbina le frequenze dei fotogrammi alla sorgente quando ti interessa il timing. Lo scrittore di confronto è utile durante l'esplorazione e può essere disabilitato per le esportazioni finali se desideri solo il risultato stilizzato.

Extra opzionali#

Per le modifiche anime‑to‑real, scegli la variante Ditto sim‑to‑real in WanVideoVACEModelSelect prima del campionamento.
Inizia con prompt brevi come "Rendilo in stile disegno ad acquerello" e raffina con 1 o 2 descrittori. Liste lunghe tendono a diluire la forza dello stile.
Usa prompt negativi per ridurre sfarfallio, artefatti di compressione e punti luce troppo brillanti quando spingi look forti.
Mantieni la tua risoluzione lato lungo coerente tra le iterazioni per stabilizzare i risultati e rendere riproducibili i semi.
Quando la VRAM è limitata, abilita le opzioni di scaricamento del modello e di piastrellatura, o visualizza in anteprima a un valore lato lungo più piccolo prima di renderizzare a piena dimensione.

Questo flusso di lavoro Wan 2.1 Ditto rende la ristilizzazione video di alta qualità prevedibile e veloce, con prompt puliti, movimento coerente e output pronti per revisione o consegna immediata.

Ringraziamenti#

Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo EzioBy per Wan 2.1 Ditto Source per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse#

EzioBy/Wan 2.1 Ditto Source
- GitHub: EzioBy/Ditto

Nota: L'uso dei modelli, dei dataset e del codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

Wan 2.1 Video Restyle | Trasformazione Consistente dello Stile Video

Trasforma lo stile del tuo video applicando il primo fotogramma restilizzato utilizzando il flusso di lavoro Wan 2.1 video restyle.

Wan 2.1 LoRA

Migliora la generazione video Wan 2.1 con modelli LoRA per uno stile e una personalizzazione avanzati.

Wan 2.1 Control LoRA | Profondità e Tile

Avanza la generazione video Wan 2.1 con LoRA di profondità e tile leggeri per una struttura e dettagli migliorati.

Wan 2.1 | Generazione Video Rivoluzionaria

Crea video incredibili da testo o immagini con l'innovativa AI che funziona su CPU di tutti i giorni.

Wan FusionX | T2V+I2V+VACE Completo

La soluzione di generazione video più potente di sempre! Dettagli di qualità cinematografica, il tuo studio cinematografico personale.

ACE++ Face Swap ｜ Modifica Immagini

Scambia volti nelle immagini con istruzioni in linguaggio naturale preservando stile e contesto.

Qwen Image 2512 | Generatore di Immagini AI di Precisione

Creazione artistica ultra-dettagliata con precisione visiva di livello superiore e controllo.

FLUX.2 Dev LoRA Inferenza | AI Toolkit ComfyUI

Esegui il tuo FLUX.2 Dev LoRA addestrato con AI Toolkit in ComfyUI con comportamento corrispondente all'addestramento utilizzando un singolo nodo personalizzato RunComfy RC.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.

Wan 2.1 Ditto | Generatore di Ristilizzazione Video Cinematica