Addestramento LoRA Wan 2.2 I2V 14B con AI Toolkit

Wan 2.2 I2V 14B addestramento LoRA immagine-a-video trasforma una singola immagine in clip di 5 secondi con movimento controllabile, movimenti di camera e coerenza temporale. Alla fine di questa guida, sarai in grado di:

Progettare dataset Wan I2V LoRA per casi d'uso di movimento, stile e personaggio (e sapere quanti clip ti servono realmente).
Capire come gli esperti duali high-noise / low-noise di Wan, le impostazioni di timestep, Num Frames e risoluzione interagiscono durante l'addestramento.
Configurare i pannelli AI Toolkit (JOB, MODEL, QUANTIZATION, MULTISTAGE, TARGET, TRAINING, DATASETS, SAMPLE) per esecuzioni stabili a 24GB e per configurazioni cloud più grandi H100/H200.

Questo articolo fa parte della serie di addestramento LoRA di AI Toolkit. Se sei nuovo su Ostris AI Toolkit, inizia con la panoramica sull'addestramento LoRA di AI Toolkit prima di immergerti in questa guida.

Indice

1. Cosa rende speciale Wan 2.2 I2V 14B?
2. Dove eseguire WAN 2.2 - Addestramento LORA i2v
3. Progettazione dataset per Wan I2V LoRA
4. Specificità di Wan 2.2 I2V da capire
5. Come addestrare una LoRA per Wan 2.2 passo dopo passo con AI Toolkit
6. AI Toolkit addestramento LoRA Wan 2.2 I2V: impostazioni per movimento, stile e personaggio
7. Risoluzione problemi comuni di Wan I2V LoRA
8. Esportare e usare la tua Wan I2V LoRA

1. Cosa rende speciale Wan 2.2 I2V 14B?

Wan 2.2 I2V 14B ("A14B") è la variante immagine-a-video di Wan 2.2. Architettonicamente è un transformer duale Mixture-of-Experts (MoE). Ci sono due transformer separati da 14B parametri. Il transformer high-noise gestisce i primi timestep molto rumorosi ed è responsabile della composizione globale, traiettoria del movimento e movimento della camera. Il transformer low-noise gestisce gli ultimi timestep puliti ed è responsabile dei dettagli fini, identità e texture.

Al momento dell'inferenza, la pipeline divide i timestep attorno a un confine a circa 875/1000 dello schedule del rumore e li indirizza al transformer high-noise o low-noise. In pratica, ogni esperto gestisce circa metà del processo di denoising. Wan 2.2 I2V genera fino a 81 frame a 16 FPS, che sono circa 5 secondi di video.

Per il Wan 2.2 I2V 14B addestramento LoRA immagine-a-video questo ha tre conseguenze chiave. Puoi scegliere di addestrare uno o entrambi gli stage. Puoi orientare l'addestramento verso composizione e movimento (high noise) o verso identità e dettaglio (low noise). E poiché elabori sequenze di frame, conteggio frame, risoluzione, VRAM e impostazioni di quantizzazione/offloading contano molto di più che per un modello solo immagine.

AI Toolkit espone questi controlli principalmente attraverso i pannelli MULTISTAGE, TRAINING, TARGET e DATASETS.

2. Dove eseguire WAN 2.2 - Addestramento LORA i2v

Puoi eseguire questo workflow di addestramento LoRA Wan 2.2 I2V sia sul cloud AI Toolkit su RunComfy sia su un'installazione locale di AI Toolkit. L'interfaccia e i pannelli sono gli stessi; cambia solo l'hardware.

2.1 RunComfy Cloud AI Toolkit (raccomandato per le prime esecuzioni)

Se non vuoi gestire CUDA, driver o download di modelli grandi, usa il cloud AI Toolkit su RunComfy:

👉 RunComfy AI Toolkit trainer

In quella pagina ottieni l'UI di AI Toolkit preinstallata nel browser. Puoi caricare dataset, configurare job esattamente come in questa guida e lanciare l'addestramento su una GPU H100 (80 GB) o H200 (141 GB). Questo è il modo più semplice per riprodurre il tutorial in modo affidabile senza toccare la configurazione locale.

2.2 AI Toolkit Locale

Se preferisci eseguire localmente: installa il repository AI Toolkit seguendo il README (Python + PyTorch per l'addestramento e Node per l'UI), poi avvia l'UI (npm run build_and_start in ui/). Apri http://localhost:8675 e vedrai gli stessi pannelli degli screenshot e descrizioni qui.

3. Progettazione dataset per Wan I2V LoRA

Wan 2.2 I2V viene addestrato su coppie clip video + didascalia. Ogni campione di addestramento è una sequenza di frame più testo. In AI Toolkit non devi tagliare manualmente ogni clip alla stessa lunghezza. Invece configuri Num Frames nel pannello DATASETS e il data loader campionerà uniformemente quel numero di frame da ogni video, gestendo automaticamente clip di durate diverse.

3.1 Decidi che tipo di LoRA stai addestrando

Come imposti gli iperparametri dipende molto dal tuo obiettivo:

LoRA di movimento/camera si concentra su pattern come "orbita 360 attorno al soggetto", "dolly zoom lento", "tremito camera a mano" o beat d'azione specifici.
LoRA di stile fa sembrare i video come una particolare pellicola, stile anime o look pittorico, mantenendo il movimento base e la composizione di scena di Wan.
LoRA di personaggio cerca di preservare un personaggio o volto specifico in modo coerente attraverso molte scene e movimenti.

Wan 2.2 I2V può fare tutti e tre. Le LoRA di movimento si appoggiano di più allo stage high-noise, mentre le LoRA di stile e personaggio si appoggiano di più allo stage low-noise più visual molto coerenti.

3.2 Clip video e ritaglio

Usa veri clip video (.mp4, .mov, ecc.), non GIF. La lunghezza dei clip può variare (per esempio 5–30 secondi). AI Toolkit campionerà uniformemente i frame di addestramento lungo ogni clip secondo la tua impostazione Num Frames.

L'unica cosa che dovresti sempre fare manualmente è ritagliare e tagliare ogni clip in modo che il movimento che ti interessa inizi rapidamente e non ci sia molto "stare fermi" all'inizio o alla fine. Per le LoRA di movimento in particolare, vuoi che il movimento occupi quasi tutto il clip — per esempio, l'orbita completa, il movimento dolly completo o il gesto completo.

3.3 Di quanti clip hai bisogno?

Come regola generale:

Una LoRA di movimento semplice che insegna un singolo tipo di movimento di camera di solito si addestra bene con 10–30 clip corti (~3–8s) dove il movimento target è molto chiaro e occupa la maggior parte del frame.
Una LoRA di stile tipicamente necessita di 10–40 immagini o clip che coprano scene, illuminazioni e soggetti diversi, ma tutti condividano lo stesso look e trattamento colore.
Una LoRA di personaggio su I2V si comporta più come una LoRA immagine. Come minimo, punta a 10–30 clip corti dello stesso personaggio, con pose, scale, angoli e sfondi variati; se riesci comodamente a raggiungere 20–40 clip, somiglianza e robustezza di solito migliorano.

3.4 Didascalie per clip I2V

Ogni file video può opzionalmente avere una didascalia .txt con lo stesso nome base (per esempio castle_orbit.mp4 e castle_orbit.txt). AI Toolkit supporta anche una Default Caption che viene usata quando un clip non ha file didascalia proprio.

Buoni pattern di didascalia:

Per una LoRA di movimento, codifica il movimento esplicitamente nel testo, per esempio:
orbit 360 around the subject, orbit 180 around the subject o slow dolly in toward the character.
Per una LoRA di stile, descrivi il look, non il contenuto della scena, per esempio:
grainy 16mm film look, high contrast, warm tint.
Per una LoRA di personaggio, includi una parola trigger più una classe, per esempio:
frung, young woman, casual clothing (dove frung è il tuo token trigger).

Puoi anche combinare un Trigger Word impostato nel pannello JOB con didascalie che contengono [trigger]. AI Toolkit sostituirà [trigger] con la tua stringa trigger scelta quando carica il dataset così non devi codificare il nome del trigger in ogni didascalia.

4. Specificità di Wan 2.2 I2V da capire

4.1 Transformer High-noise vs Low-noise

I due transformer di Wan si comportano grossomodo così:

Il transformer high-noise opera ai timestep vicini all'inizio del processo di diffusione (circa 1000 fino a ~875). Imposta la composizione globale e le forme grezze e decide dove vanno gli oggetti, come si muove la camera e quale sarà la traiettoria del movimento. È critico per movimento e layout.

Il transformer low-noise gira ai timestep da circa 875 fino a 0. Raffina dettagli, texture, somiglianza facciale e micro-movimenti. È critico per identità, texture e nitidezza.

In pratica, addestrare solo lo stage high-noise può insegnare nuovi tipi di movimento e composizione ma tende a sotto-addestrare il dettaglio. Addestrare solo lo stage low-noise fatica a cambiare significativamente movimento o layout. Per la maggior parte delle LoRA dovresti addestrare entrambi gli stage e poi orientare l'enfasi usando Timestep Bias nel pannello TRAINING.

4.2 Frame, FPS e velocità

Wan 2.2 I2V 14B può generare fino a 81 frame a 16 FPS, che sono 5 secondi. In pratica, i conteggi validi di frame video seguono la regola "4n+1" (per esempio 9, 13, 17, 21, 33, 41, 81…). Puoi pensare alle lunghezze video in quella famiglia; 1 frame è anche supportato e riduce effettivamente I2V a una modalità singolo frame simile a immagine per l'AI Toolkit addestramento LoRA Wan 2.2 I2V.

In AI Toolkit ci sono due controlli Num Frames separati. Num Frames nel pannello DATASETS controlla quanti frame per clip vengono campionati per l'addestramento. Num Frames nel pannello SAMPLE controlla quanto sono lunghi i tuoi video di anteprima. Non devono corrispondere esattamente, ma tenerli simili rende il comportamento più facile da ragionare.

Un buon punto di partenza per l'addestramento è 41 frame (circa 2,5 secondi). Su GPU da 80–96 GB (classe H100) puoi arrivare alla configurazione completa di 81 frame. Lunghezze più corte come 21 o 33 frame possono essere usate per ridurre il carico VRAM e il tempo per step su GPU piccole, al costo di catturare meno contesto temporale.

4.3 Risoluzione e area pixel

Le demo ufficiali di Wan tendono a mantenere l'area effettiva attorno a 480×832 ≈ 400k pixel, e gli spazi Hugging Face arrotondano le dimensioni a multipli di 16 o 32.

Per il Wan 2.2 I2V 14B addestramento LoRA immagine-a-video con AI Toolkit:

Su una GPU da 24 GB, usa bucket di risoluzione come 512 e 768. Evita 1024×1024 a meno che tu non sia molto aggressivamente quantizzato e/o usi layer offloading; video a 1024² più 41–81 frame è pesante.
Su GPU da 48 GB+ o H100/H200, puoi aggiungere in sicurezza un bucket 1024 e persino usare risoluzioni cinematiche widescreen centrate attorno a valori come 1024×576, 1024×608 o 1024×640.

AI Toolkit raggrupperà automaticamente e ridimensionerà i tuoi video nelle risoluzioni selezionate quando carica il dataset.

5. Come addestrare una LoRA per Wan 2.2 passo dopo passo con AI Toolkit

Assumiamo che tu abbia almeno una GPU da 24 GB, quindi le impostazioni sotto sono una base sicura. Se hai una scheda più grande o usi il cloud AI Toolkit su RunComfy, alcuni pannelli includono anche note brevi su come scalare le impostazioni.

5.1 Pannello JOB

Nel pannello JOB imposti i metadati di base e, opzionalmente, un token trigger.

Training Name
Usa qualsiasi nome descrittivo; diventa il nome della cartella per checkpoint e sample. Esempi: wan_i2v_orbit_v1, wan_i2v_style_neon, wan_i2v_char_frung_v1.
GPU ID
Su un'installazione locale questo punta alla tua GPU fisica. Sul cloud AI Toolkit RunComfy puoi lasciarlo di default; il tipo di macchina effettivo (H100/H200) viene scelto dopo nella Training Queue.
Trigger Word (opzionale)
Usa un trigger per LoRA di personaggio o stile dove vuoi un token dedicato come frung o wan_cam_orbit. Se le didascalie del tuo dataset contengono [trigger], AI Toolkit sostituirà automaticamente il valore del tuo Trigger Word in quelle didascalie al caricamento.

Per LoRA di movimento puro, spesso non hai bisogno di una parola trigger perché il comportamento è già codificato in frasi come "orbit 360 around the subject". Per personaggi e stili, è fortemente raccomandato usare un trigger così hai un interruttore on/off pulito per la tua LoRA dopo.

5.2 Pannelli MODEL e QUANTIZATION

Questi pannelli controllano quale checkpoint del modello Wan viene usato e quanto aggressivamente viene quantizzato.

Pannello MODEL

Model Architecture
Seleziona Wan 2.2 I2V (14B).
Name or Path
L'ID del modello Hugging Face (ID repo) per il checkpoint base, per esempio: ai-toolkit/Wan2.2-I2V-A14B-Diffusers-bf16.

Nella maggior parte dei build AI Toolkit, selezionare Wan 2.2 I2V (14B) auto-compilerà questo valore; lascialo così a meno che tu non abbia una ragione per cambiarlo.
Low VRAM
Attiva Low VRAM ON per GPU consumer da 24 GB o qualsiasi scheda che pilota anche il tuo display. Su schede da 48 GB+ (incluse H100/H200), spesso puoi lasciarlo OFF per velocità purché mantieni il carico di addestramento ragionevole (per esempio bucket 512/768 e ~41 frame). Se vedi OOM intermittenti (spesso causati dal bucket di risoluzione più grande) o vuoi spingere bucket 1024 e/o 81 frame, attiva Low VRAM ON per stabilità.
Layer Offloading
Questo toggle trasferisce parti del modello nella RAM CPU invece di tenere tutti i layer residenti in VRAM. È necessario solo se stai cercando di far girare Wan I2V su una GPU molto piccola (circa 10–12 GB VRAM) e hai molta RAM di sistema (64 GB+). Può circa raddoppiare il tempo per step ma può portare il picco VRAM sotto ~9 GB. Per GPU da 24 GB, inizia con Layer Offloading OFF e attivalo solo se hai ancora errori out-of-memory.

Su GPU grandi / RunComfy:

Su 48 GB+ o su H100/H200, inizia con Layer Offloading OFF. Tieni Low VRAM OFF se vuoi velocità massima, ma abbinalo a bucket conservativi (512/768) e frame (≈41) prima. Se spingi 1024/81 e ottieni picchi di OOM, attiva Low VRAM ON (o togli 1024) per stabilizzare l'esecuzione.

Pannello QUANTIZATION

Transformer
Su GPU da 24–32 GB, imposta Transformer a 4bit with ARA. Questo usa una quantizzazione a 4-bit insieme a un Accuracy Recovery Adapter così l'uso di VRAM è vicino al semplice 4-bit mentre la qualità rimane molto più vicina a bf16.
Text Encoder
Imposta Text Encoder a float8 (o qfloat8). Questo riduce VRAM e calcolo per il text encoder con impatto trascurabile sulla qualità LoRA di Wan 2.2 I2V.

Questo rispecchia le config di esempio ufficiali di AI Toolkit per le LoRA video Wan 2.2 ed è la ragione principale per cui l'addestramento è pratico su schede da 24 GB. Se incontri problemi di stabilità o rallentamenti severi con ARA su una particolare configurazione, puoi tornare a qfloat8 per il Transformer; usa più VRAM ma si comporta molto similarmente in termini di qualità.

Su GPU grandi / RunComfy:

Su una H100/H200 o scheda workstation da 48–96 GB, puoi o tenere 4bit with ARA e spendere la VRAM extra su risoluzione più alta, più frame o un rank LoRA più alto, o passare il Transformer a un'opzione pura float8 / qfloat8 per uno stack più semplice. Tornare completamente a bf16 ovunque raramente è necessario per il WAN 2.2 - Addestramento LORA i2v.

5.3 Pannello MULTISTAGE (high / low noise)

Il pannello MULTISTAGE ti permette di decidere quale/i esperto/i Wan addestrare e quanto spesso il trainer alterna tra loro.

Stages to Train
Tieni sia High Noise che Low Noise su ON per la maggior parte delle LoRA. High noise controlla composizione e movimento; low noise controlla dettaglio e identità.
Switch Every
Questo valore controlla quanti step esegui su un esperto prima di passare all'altro. Con High Noise = ON, Low Noise = ON, Switch Every = 10 e Steps = 3000, AI Toolkit addestra:

Step 1–10 sul transformer high-noise,
Step 11–20 sul transformer low-noise,
e ripete questa alternanza fino alla fine dell'addestramento.

Su GPU grandi puoi usare Switch Every = 1 (alternare ogni step) solo se entrambi gli esperti rimangono residenti in VRAM (niente Low VRAM/offload/swap). Se Low VRAM o qualsiasi offloading/swapping è coinvolto, ogni switch può innescare caricamento/scaricamento costoso, e Switch Every = 1 diventa estremamente lento. In quel caso, preferisci Switch Every = 10–50 per ridurre l'overhead di swap.

Per una base di GPU da 24 GB, usa:

High Noise = ON
Low Noise = ON
Switch Every = 10-50

Su GPU grandi / RunComfy:

Se entrambi gli esperti rimangono residenti (Low VRAM OFF, niente offloading), puoi impostare Switch Every = 1 per un'alternanza leggermente più fluida. Se vedi tempi di step lenti o swapping, usa 10–50 invece.

5.4 Pannello TARGET (impostazioni rete LoRA)

Nel pannello TARGET configuri che tipo di adapter stai addestrando e quanto è "largo".

Target Type
Imposta Target Type a LoRA.
Linear Rank
Linear Rank controlla la capacità LoRA per blocco. Rank più alto aumenta la capacità ma anche l'uso di VRAM e il rischio di overfitting. Per Wan 2.2 I2V, i default pratici sono:

LoRA di movimento e camera: Rank 16 è di solito sufficiente perché modificano il comportamento più che piccoli dettagli visivi.
LoRA di stile: inizia con Rank 16; passa a 32 solo se lo stile è complesso e hai margine VRAM.
LoRA di personaggio: inizia con Rank 16 (anche su GPU grandi). Passa a 32 solo dopo aver confermato che l'esecuzione è stabile (niente picchi OOM) e hai specificamente bisogno di più capacità per primi piani di volti ad alta risoluzione.

Su GPU molto grandi, Rank 32 può aiutare per stili ricchi e lavoro su personaggi impegnativi, ma non è richiesto per ottenere una buona LoRA e può rendere i picchi OOM più probabili quando combinato con bucket grandi e molti frame.

5.5 Pannello SAVE

Il pannello SAVE controlla quanto spesso vengono scritti i checkpoint e in quale precisione.

Data Type
Usa BF16 o FP16. Entrambi vanno bene per le LoRA. BF16 è leggermente più stabile numericamente sulle GPU moderne.
Save Every
Imposta Save Every a circa 250. Questo ti dà un checkpoint ogni 250 step.
Max Step Saves to Keep
Imposta Max Step Saves to Keep tra 4 e 6. Questo tiene l'uso del disco sotto controllo lasciandoti comunque alcuni checkpoint precedenti come fallback.

Non devi usare l'ultimo checkpoint. Molto spesso i sample migliori vengono da qualche parte attorno a 2000–4000 step. La configurazione del pannello SAMPLE sotto spiega come giudicare questo.

Se disabiliti il sampling durante l'addestramento (raccomandato sotto per i build attuali di Wan I2V), tieni alcuni checkpoint (per esempio ogni 250 step) e valutali dopo usando un workflow di inferenza separato.

5.6 Pannello TRAINING

Il pannello TRAINING contiene la maggior parte dei controlli importanti: batch size, learning rate, timestep, loss e gestione del text encoder.

Iperparametri principali

Configura le impostazioni principali di addestramento così per una LoRA video Wan I2V da 24 GB:

Batch Size
Inizia con 1. I modelli video sono pesanti, e 1 è realistico anche su schede da 24 GB. Su H100/H200 puoi sperimentare dopo con batch size di 2–4.
Gradient Accumulation
Lascia Gradient Accumulation a 1 inizialmente. Il batch size effettivo è batch size per gradient accumulation. Puoi alzarlo a 2 o 4 se la VRAM è estremamente limitata e vuoi un batch effettivo leggermente più grande, ma i guadagni sono modesti per il video.
Learning Rate
Inizia con Learning Rate = 0.0001. Questo è il default negli esempi AI Toolkit ed è stabile per le LoRA Wan. Se l'addestramento sembra rumoroso o la LoRA supera rapidamente, puoi ridurre a 0.00005 a metà esecuzione e riprendere dall'ultimo checkpoint.
Steps – range tipici:

LoRA di movimento piccola e focalizzata con ~10–20 clip: 1500–2500 step.
LoRA di personaggio o stile con 20–50 clip: 2000–3000 step.
Dataset molto grandi possono andare più in alto, ma di solito è meglio migliorare la qualità dei dati (didascalie, diversità) che spingere ben oltre 3000–4000 step.
1000 step: ~12–18 ore
1500 step: ~18–27 ore
2000 step: ~24–36 ore
3000 step: ~35–55 ore

Weight Decay
Lascia Weight Decay a 0.0001 a meno che tu non abbia una ragione specifica per cambiarlo; fornisce una leggera regolarizzazione.
Loss Type
Tieni Loss Type come Mean Squared Error (MSE). Wan 2.2 usa uno scheduler di rumore flow-matching, e MSE è la loss standard per questa configurazione.

Timestep e scheduler

Timestep Type
Per Wan 2.2 I2V, Linear è il Timestep Type di default e funziona bene per la maggior parte dei tipi di LoRA. Distribuisce gli aggiornamenti uniformemente lungo lo schedule flow-matching e funziona bene con la divisione tra gli esperti high-noise e low-noise.
Timestep Bias
Timestep Bias controlla quale parte della traiettoria enfatizzi:

Balanced – gli aggiornamenti sono distribuiti tra timestep high-noise e low-noise; questo è il default sicuro per tutti i tipi di LoRA.
Favor High Noise – si concentra di più sui primi step rumorosi dove Wan decide layout globale, movimento e colore.
Favor Low Noise – si concentra di più sugli ultimi step puliti dove vivono dettagli fini e identità.
LoRA di movimento/camera – inizia con Timestep Type = Linear, Timestep Bias = Balanced. Per LoRA di movimento camera molto "pure" puoi sperimentare con Favor High Noise per appoggiarti di più sull'esperto high-noise.
LoRA di stile – usa Timestep Type = Linear (o Shift) e Timestep Bias = Favor High Noise, così la LoRA riscrive tono e colore globali mentre il modello base gestisce ancora i dettagli di fine stage.
LoRA di personaggio – usa Timestep Type = Sigmoid (o Linear) e Timestep Bias = Balanced. Identità e somiglianza dipendono di più dagli step low-noise, ma tenere il bias Balanced permette a entrambi gli esperti di contribuire; solo se vuoi specificamente focus extra sul micro-dettaglio dovresti provare un leggero bias low-noise.

Sotto il cofano, Wan 2.2 I2V usa uno scheduler di rumore flow-matching. AI Toolkit imposta lo scheduler e il sampler corrispondente automaticamente per l'architettura Wan 2.2, quindi dirigi principalmente il comportamento via Timestep Type, Timestep Bias e le impostazioni Multi-stage sopra.

EMA (Exponential Moving Average)

Use EMA
Per le LoRA, EMA è opzionale e consuma VRAM e tempo extra. La maggior parte degli utenti LoRA Wan lascia Use EMA OFF ed è raramente necessario a meno che tu non stia facendo fine-tune di modello completo.

Ottimizzazioni Text Encoder

In fondo al pannello TRAINING ci sono le impostazioni Text Encoder Optimizations. Controllano quanto aggressivamente il text encoder viene scaricato o messo in cache.

Unload TE
Questa modalità scarica i pesi del text encoder così non consumano più VRAM tra gli step. Per le LoRA Wan 2.2 I2V ti affidi quasi sempre a didascalie ricche per clip, quindi dovresti tenere Unload TE OFF nell'addestramento normale basato su didascalie. Considera Unload TE solo se stai deliberatamente addestrando una LoRA molto stretta "trigger-only / blank prompt" che non usa affatto didascalie del dataset.
Cache Text Embeddings
Questa opzione pre-calcola gli embedding delle didascalie una volta e li riusa, evitando passaggi ripetuti del text encoder. Attiva Cache Text Embeddings ON solo quando le tue didascalie sono statiche e non stai usando funzionalità che modificano o randomizzano il prompt ad ogni step, come Differential Output Preservation, riscrittura dinamica di [trigger] nelle didascalie, o qualsiasi cosa che dipenda fortemente dal comportamento di caption dropout. In quel caso, AI Toolkit codifica tutte le didascalie di addestramento una volta, mette in cache gli embedding su disco e può togliere il text encoder dalla VRAM.

Se prevedi di usare DOP, Caption Dropout o altri trucchi di prompt dinamici, tieni Cache Text Embeddings OFF così il text encoder può ri-codificare il vero prompt ogni batch. Le sezioni Differential Output Preservation e Datasets spiegano queste interazioni più in dettaglio.

Regolarizzazione – Differential Output Preservation (DOP)

La sezione Regularization espone Differential Output Preservation (DOP), che aiuta la LoRA a comportarsi come una modifica residuale invece di sovrascrivere il modello base.

DOP confronta l'output del modello base (senza LoRA) con l'output con LoRA abilitata e aggiunge una penalità quando la LoRA cambia aspetti non correlati al tuo concetto target. Cerca di insegnare "cosa cambia quando il trigger è presente" piuttosto che "ri-addestrare l'intero modello".

Per LoRA di movimento/camera, di solito non hai bisogno di DOP, perché il comportamento di movimento è già abbastanza localizzato. Abilitare DOP circa raddoppia il calcolo aggiungendo passaggi forward extra.

Per LoRA di stile e personaggio, DOP è spesso molto utile per mantenere intatto il forte realismo base di Wan. Una buona configurazione di partenza è:

Differential Output Preservation: ON
DOP Loss Multiplier: 1
DOP Preservation Class: person per LoRA di personaggio, o una classe appropriata come scene o landscape per LoRA di stile se il tuo build fornisce quelle opzioni.

Nota importante sulla compatibilità: Differential Output Preservation riscrive o aumenta il testo del prompt ad ogni step (per esempio scambiando la tua parola trigger con la parola della classe di preservazione). Per questo, DOP non è compatibile con Cache Text Embeddings. Se attivi DOP ON, assicurati che Cache Text Embeddings sia OFF così il text encoder vede il prompt aggiornato ogni batch.

5.7 Pannello ADVANCED (Differential Guidance)

Se il tuo build AI Toolkit espone il pannello ADVANCED per questo modello, potrebbe includere Do Differential Guidance e Differential Guidance Scale.

Differential Guidance calcola predizioni "con LoRA" vs "senza LoRA" e spinge l'addestramento verso la differenza tra loro, simile nello spirito a DOP ma implementato a livello di guidance invece che come termine di loss separato.

Raccomandazioni pratiche:

Attiva Do Differential Guidance ON con una Differential Guidance Scale attorno a 3 per LoRA di stile edit mirato (per esempio "far orbitare la camera", "applicare stile neon") dove vuoi che la LoRA si comporti come un modificatore pulito.
Per LoRA di stile molto ampie e pesanti che riscrivono l'intero look, puoi provare scale più basse (1–2) o lasciarlo OFF se la LoRA sembra troppo debole.

Se sei limitato nel calcolo, puoi tranquillamente lasciare Differential Guidance OFF per le tue prime esecuzioni e sperimentare dopo.

5.8 Pannello DATASETS

Ogni blocco dataset in AI Toolkit corrisponde a una voce nella lista datasets:, ma nell'UI configuri semplicemente una o più card dataset.

Una tipica configurazione di dataset singolo Wan I2V appare così:

Target Dataset
Scegli la tua cartella dataset video Wan I2V caricata, per esempio wan_orbit_clips.
Default Caption
Questa didascalia viene usata quando un clip non ha file didascalia .txt. Esempi:

LoRA di movimento: orbit 360 around the subject

LoRA di stile: cinematic neon cyberpunk style

LoRA di personaggio: frung, person, portrait (dove frung è il tuo token trigger).
Caption Dropout Rate
Questa è la probabilità che la didascalia venga scartata (sostituita da una didascalia vuota) per un campione di addestramento. Per le LoRA Wan I2V, una piccola quantità di dropout incoraggia il modello a usare sia contesto visivo che testo. Un range di partenza tipico è 0.05–0.10 (5–10%) quando il text encoder rimane caricato. Se decidi di abilitare Cache Text Embeddings nel pannello TRAINING, è spesso più semplice impostare Caption Dropout Rate = 0 così eviti che un sottoinsieme di clip rimanga permanentemente senza didascalia.
LoRA Weight
Di solito impostato a 1. Lo cambi solo quando mescoli più dataset e vuoi che un dataset conti di più o meno nell'addestramento.
Settings → Cache Latents
Tieni questo OFF per dataset video Wan I2V (Num Frames > 1). Molti build attuali di AI Toolkit non supportano la cache dei latent per dataset multi-frame e falliranno durante l'inizializzazione del dataloader con un errore come:

caching latents is not supported for multi-frame datasets

Se imposti intenzionalmente Num Frames = 1 (addestramento tipo immagine), la cache dei latent può funzionare e velocizzare le cose.
Settings → Is Regularization
Lascia Is Regularization OFF per il tuo dataset principale. Se aggiungi un dataset di regolarizzazione separato dopo, imposteresti Is Regularization di quel dataset su ON.
Flipping
Flip X e Flip Y specchiano i frame orizzontalmente o verticalmente. Per la maggior parte dei task video dovresti tenere entrambi OFF, specialmente per LoRA di movimento dove il flip può invertire la semantica del movimento sinistra/destra o per personaggi con caratteristiche asimmetriche. Per LoRA puramente di stile puoi sperimentare con Flip X per aumentare la variazione.
Resolutions
Scegli uno o più bucket di risoluzione. Su una GPU da 24 GB tipicamente abiliti 512 e lasci 768 e 1024 disabilitati. Su 48 GB+ o H100/H200, inizia con 512 e 768 per stabilità, poi aggiungi 1024 solo se hai chiaro margine VRAM e la tua esecuzione è stabile (l'addestramento a bucket può far salire la VRAM quando colpisce il bucket più grande). AI Toolkit assegnerà automaticamente i clip al bucket più vicino e ridimensionerà secondo necessità.
Num Frames
Imposta Num Frames al numero di frame per clip che vuoi campionare per l'addestramento. Un buon punto di partenza è 41. Su GPU molto piccole (10–12 GB) con quantizzazione pesante e offloading, puoi ridurre questo a 21 o anche 9 solo per far funzionare l'addestramento, al costo di contesto temporale più corto.

Se hai bisogno di più dataset (per esempio, un dataset principale di movimento più un piccolo dataset di "stile"), puoi aggiungerli tutti nel pannello DATASETS e usare LoRA Weight più il flag Is Regularization per controllare la loro influenza relativa.

5.9 Pannello SAMPLE (anteprime di addestramento)

Il pannello SAMPLE non influenza direttamente l'addestramento; controlla come AI Toolkit genera periodicamente video di anteprima così puoi scegliere il miglior checkpoint.

Importante (requisito Wan I2V): Il sampling di Wan 2.2 I2V è immagine-a-video. Ogni sample deve includere una coppia prompt + immagine di controllo.

Se il sampling gira durante l'addestramento (per esempio disable_sampling: false, skip_first_sample: false, o force_first_sample: true) e qualsiasi sample manca di ctrl_img, lo step di sampling anteprima può fallire e fermare il job prematuramente. In molti ambienti questo appare come un errore confuso di mismatch tensor come:

RuntimeError: The size of tensor a (36) must match the size of tensor b (16)

Soluzione: in samples, assicurati che ogni prompt abbia un ctrl_img corrispondente (devono sempre apparire in coppia). Non lasciare righe sample con solo prompt.

Impostazioni di sampling raccomandate (anteprime abilitate)

Se vuoi anteprime durante l'addestramento, usa queste impostazioni:

Sample Every
Imposta Sample Every a 250. Questo corrisponde all'impostazione Save Every così ogni checkpoint ha un set corrispondente di video anteprima.
Sampler
Usa un sampler compatibile con lo scheduler flow-matching di Wan, tipicamente mostrato come FlowMatch o simile nel tuo build.
Width / Height
Su GPU da 24 GB, usa qualcosa come 768 × 768 o un formato verticale come 704 × 1280 per i sample. Evita video anteprima 1024×1024 a meno che tu non sia a tuo agio con sampling più lento; l'addestramento stesso non richiede anteprime 1024².
Guidance Scale
Inizia con una Guidance Scale attorno a 3.5–4, che corrisponde a molte config demo di Wan 2.2.
Sample Steps
Imposta Sample Steps a 25. Più step cambiano raramente la qualità del movimento drammaticamente e principalmente aumentano il tempo.
Seed / Walk Seed
Imposta un Seed fisso come 42. Attiva Walk Seed ON se vuoi che ogni anteprima ottenga un seed diverso pur rimanendo raggruppata vicino all'originale.
Num Frames
Imposta Num Frames nel pannello SAMPLE uguale o vicino al tuo valore di addestramento. Se hai addestrato con 41 frame, campiona con 41 anche tu. Una volta che la LoRA appare bene, puoi testare la generalizzazione generando clip più lunghi a 81 frame; l'addestramento a 41 spesso generalizza sorprendentemente bene a inferenza a 81 frame.
FPS
Di solito tieni FPS = 16. Cambiare FPS influenza solo la velocità di riproduzione, non il movimento appreso stesso.

Per i prompt, aggiungi 2–4 righe prompt che rispecchiano la tua distribuzione di addestramento. Per ogni riga, allega un'immagine di controllo simile a quella che userai in inferenza.

6. AI Toolkit addestramento LoRA Wan 2.2 I2V: impostazioni per movimento, stile e personaggio

Ecco ricette rapide per tipi comuni di LoRA Wan 2.2 I2V. Trattali come punti di partenza e regola in base alla valutazione dei checkpoint (le anteprime durante l'addestramento potrebbero essere disabilitate; vedi il pannello SAMPLE).

6.1 LoRA di movimento/camera

Obiettivo: insegnare a Wan un nuovo movimento come orbit 360, orbit 180 o uno swing di camera specifico.

Usa 10–30 clip corti (~3–8s) dove il movimento target è molto chiaro e occupa la maggior parte del clip. Le didascalie dovrebbero descrivere esplicitamente il movimento, per esempio orbit 180 around the subject o orbit 360 around a futuristic city.

Linee guida pannello:

MULTISTAGE: High Noise = ON, Low Noise = ON, Switch Every = 10 (o 20–50 se Low VRAM/offloading causa swapping lento).
TARGET: Linear Rank = 16.
TRAINING: Learning Rate = 0.0001, Steps ≈ 1500–2500, Timestep Type = Linear, Timestep Bias = Balanced, DOP OFF.
DATASETS: Resolutions a 512/768, Num Frames = 33–41 (inizia a 41; 81 è possibile su H100/H200 ma aspettati ~2× tempo e più VRAM), Caption Dropout Rate ≈ 0.05–0.1. Cache latent OFF per dataset multi-frame.

Addestra con Save Every = 250. Anteprime sampling: se abiliti anteprime durante l'addestramento, imposta Sample Every = 250 e assicurati che ogni voce in samples includa sia prompt che ctrl_img (il sampling Wan I2V richiede l'immagine di controllo).

Quando valuti i checkpoint, concentrati su se il movimento target è stabile attraverso prompt e scene diverse; se funziona solo su quasi-duplicati dei tuoi clip di addestramento, preferisci migliorare la diversità dei dati o aumentare leggermente gli step piuttosto che spingere il bias lontano da Balanced.

6.2 LoRA di stile (look/grade video)

Obiettivo: cambiare lo stile visivo rispettando il movimento e la composizione base di Wan.

Usa 10–40 immagini o clip che condividono tutti lo stesso look ma coprono scene e soggetti diversi, per esempio grainy 16mm film look, high contrast, warm tint.

Linee guida pannello:

MULTISTAGE: High Noise = ON, Low Noise = ON, Switch Every = 10 (o 20–50 se Low VRAM/offloading causa swapping lento).
TARGET: Linear Rank = 16 per stili semplici; 16–32 per look complessi o cinematici.
TRAINING: Learning Rate = 0.0001, Steps ≈ 1500–2500, Timestep Type = Linear (o Shift), Timestep Bias = Favor High Noise.
Regularization (DOP): Differential Output Preservation ON, DOP Loss Multiplier = 1, DOP Preservation Class corrispondente al tuo soggetto dominante (spesso person o scene), Cache Text Embeddings = OFF.
DATASETS: Resolutions 512/768 su 24 GB (e 512/768 su GPU grandi, con 1024 opzionale solo dopo stabilità), Num Frames = 33–41 su 24 GB (41–81 su H100/H200 se puoi permetterti il tempo), Caption Dropout Rate attorno a 0.05 se Cache Text Embeddings è OFF. Cache latent OFF per dataset multi-frame.

Osserva se lo stile si applica in modo coerente attraverso scene e illuminazioni. Se inizia a sopraffare il contenuto o fa sembrare tutto uguale, prova ad abbassare il learning rate a metà esecuzione, tornare a un checkpoint precedente o ridurre il rank LoRA.

6.3 LoRA di personaggio (somiglianza video)

Le LoRA di personaggio su I2V sono più impegnative che sui modelli text-to-image, ma sono fattibili.

Usa 10–30 clip corti dello stesso personaggio in pose, scale, angoli e sfondi variati; le didascalie dovrebbero sempre includere il tuo Trigger Word più una classe, per esempio frung, young woman, casual clothing. Se riesci a raccogliere 20–40 clip, la robustezza dell'identità di solito migliora, ma non è strettamente richiesto per ottenere risultati utilizzabili.

Linee guida pannello:

MULTISTAGE: High Noise = ON, Low Noise = ON, Switch Every = 10 (o 20–50 se Low VRAM/offloading causa swapping lento).
TARGET: Linear Rank = 16 su 24 GB; 16–32 su GPU ad alta VRAM (usa 32 quando hai margine e ti interessano primi piani di volti ad alta risoluzione).
TRAINING: Learning Rate = 0.0001, Steps ≈ 2000–3000, Timestep Type = Sigmoid (o Linear), Timestep Bias = Balanced.
Regularization (DOP): Differential Output Preservation ON, DOP Loss Multiplier = 1, DOP Preservation Class = person.
DATASETS: Inizia con 512/768 (aggiungi 1024 solo dopo stabilità), Num Frames = 33–41 su 24 GB, o 41–81 su H100/H200 (81 è significativamente più lento). Cache latent OFF per dataset multi-frame.

L'esperienza della community suggerisce che identità e somiglianza dipendono di più dall'esperto low-noise, ma tenere Timestep Bias = Balanced e usare un Timestep Type sagomato (Sigmoid) di solito dà un compromesso migliore tra somiglianza e stabilità video complessiva che orientarsi fortemente verso low noise.

7. Risoluzione problemi comuni di Wan I2V LoRA

The size of tensor a (36) must match the size of tensor b (16) at non-singleton dimension 1

Perché succede: su WAN 2.2 14B I2V (arch: wan22_14b_i2v), il sampling anteprima durante l'addestramento è immagine-a-video e richiede un'immagine di controllo. Se qualsiasi voce in samples ha un prompt ma manca ctrl_img, lo step di sampling anteprima può crashare e a volte apparire come il mismatch tensor sopra.

Cosa fare: in samples, assicurati che ogni prompt abbia un ctrl_img corrispondente (devono sempre apparire in coppia). Non lasciare righe sample con solo prompt.

caching latents is not supported for multi-frame datasets

Questo succede quando la cache dei latent è abilitata su un dataset video (Num Frames > 1).

Soluzione: Nel pannello DATASETS, imposta Cache Latents / Cache Latents to Disk = OFF per dataset video Wan I2V.

Movimento troppo veloce rispetto alla sorgente

Questo di solito succede se hai addestrato con meno frame per clip rispetto alla tua impostazione di inferenza. Per esempio, potresti aver addestrato a 21 o 41 frame ma stai campionando a 81 frame con FPS fisso a 16. Lo stesso movimento viene "stirato" in modo diverso.

Puoi risolvere abbassando FPS nel pannello SAMPLE (solo per la riproduzione), o addestrando e campionando a un Num Frames coerente come 41 così il comportamento temporale è più prevedibile.

La camera non si muove o la composizione cambia appena

Se la camera si muove appena o la composizione sembra il modello base:

Verifica che stai effettivamente addestrando lo stage high-noise e che Timestep Bias non sia impostato troppo fortemente verso timestep bassi. Assicurati che High Noise sia ON nel pannello MULTISTAGE e Timestep Bias sia Favor High per LoRA di movimento. Verifica anche che le didascalie descrivano chiaramente il movimento desiderato; Wan non può imparare movimento che non è né visibile né nominato.

Dettagli e volti appaiono peggio del Wan base

Se la tua LoRA rimuove dettaglio o peggiora i volti:

Prova ad aumentare Linear Rank leggermente (per esempio da 16 a 32) e favorire low noise nel Timestep Bias così più segnale di addestramento cade su timestep tardivi dove vivono identità e dettaglio. Puoi anche abbassare il learning rate e riprendere da un checkpoint precedente.

LoRA fa overfit e funziona solo su scene simili all'addestramento

Se la LoRA appare corretta solo su scene molto simili ai dati di addestramento:

Riduci il numero totale di Steps (per esempio da 5000 a 3000), aumenta la diversità del dataset e considera di abilitare Differential Output Preservation se attualmente è spento. Se DOP è già ON e l'effetto è ancora troppo stretto, abbassa leggermente il rank LoRA e/o il learning rate.

Errori VRAM out-of-memory

Se l'addestramento esaurisce frequentemente la VRAM:

Riduci qualsiasi combinazione di:

bucket di risoluzione (togli 1024 e tieni 512/768),
Num Frames (per esempio da 41 a 21),
batch size (tienilo a 1 se non lo è già).

Attiva Low VRAM ON, attiva Layer Offloading ON se hai solo 10–12 GB di VRAM e molta RAM di sistema, e assicurati che la quantizzazione sia impostata su float8 per sia il transformer che il text encoder nel pannello QUANTIZATION. Se la VRAM locale non è ancora sufficiente, considera di eseguire lo stesso job AI Toolkit sul cloud RunComfy con una GPU H100 o H200, dove puoi tenere le impostazioni molto più semplici.

Se vedi OOM anche su GPU grandi (per esempio H100), di solito è un problema di picco bucket:

Togli il bucket 1024 finché l'esecuzione non è stabile, poi riaggiungnilo dopo.
Riduci Num Frames (41 → 33 → 21).
Tieni Layer Offloading OFF a meno che tu non ne abbia davvero bisogno (può rendere le esecuzioni più lente e più soggette a swap).
Se c'è swapping coinvolto, aumenta MULTISTAGE Switch Every (10–50) per evitare overhead di caricamento/scaricamento per step.
Preferisci quantizzazione più aggressiva per memoria: Transformer 4bit with ARA (o qfloat8 se ARA è instabile) e Text Encoder float8/qfloat8.

L'addestramento è molto più lento del previsto (decine di secondi per step)

L'addestramento LoRA Wan 2.2 I2V è lento per natura: ogni step elabora molti frame, e addestrare entrambi gli esperti significa che spesso hai bisogno di più step totali per dare a ogni stage abbastanza aggiornamenti.

Verifica realtà (aspettative di tempo tipiche): con 41 frame e bucket misti 512/768/1024, 3000 step su una H100 sono di solito decine di ore (spesso ~35–55 ore). Campionare a 81 frame è circa ~2× quel calcolo/tempo. Su GPU più piccole (specialmente con quantizzazione + offloading), vedere decine di secondi per step può essere normale.

Se sembra irragionevolmente lento o continua a rallentare nel tempo:

Riduci Num Frames (41 → 33 → 21).
Togli il bucket 1024 (resta a 512/768).
Evita Layer Offloading a meno che tu non ne abbia davvero bisogno.
Se Low VRAM/offload/swapping è abilitato, non usare Switch Every = 1; usa 10–50.
Se le anteprime sono abilitate, tieni il sampling poco frequente (per esempio Sample Every = 250) così il sampling non interrompe l'addestramento troppo spesso.

👉 RunComfy AI Toolkit trainer

8. Esportare e usare la tua Wan I2V LoRA

Una volta completato l'addestramento, puoi usare la tua Wan 2.2 I2V 14B LoRA in due modi semplici:

Run LoRA – apri la pagina Run LoRA di Wan 2.2 I2V 14B. In questa pagina di inferenza del modello base puoi selezionare un asset LoRA che hai addestrato su RunComfy oppure importare un file LoRA addestrato con AI Toolkit, quindi eseguire l’inferenza tramite il playground o l’API. RunComfy usa lo stesso modello base e la definizione completa della pipeline AI Toolkit dalla tua configurazione di training, quindi ciò che hai visto durante il training è ciò che ottieni in inferenza — questo allineamento stretto training/inference aiuta a mantenere risultati coerenti con i tuoi sample di training.
Workflow ComfyUI – avvia un'istanza ComfyUI, costruisci un workflow, collega la tua LoRA e regola finemente il suo peso e altre impostazioni per un controllo più dettagliato.

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Indice

1. Cosa rende speciale Wan 2.2 I2V 14B?

2. Dove eseguire WAN 2.2 - Addestramento LORA i2v

2.1 RunComfy Cloud AI Toolkit (raccomandato per le prime esecuzioni)

2.2 AI Toolkit Locale

3. Progettazione dataset per Wan I2V LoRA

3.1 Decidi che tipo di LoRA stai addestrando

3.2 Clip video e ritaglio

3.3 Di quanti clip hai bisogno?

3.4 Didascalie per clip I2V

4. Specificità di Wan 2.2 I2V da capire

4.1 Transformer High-noise vs Low-noise

4.2 Frame, FPS e velocità

4.3 Risoluzione e area pixel

5. Come addestrare una LoRA per Wan 2.2 passo dopo passo con AI Toolkit

5.1 Pannello JOB

5.2 Pannelli MODEL e QUANTIZATION

Pannello MODEL

Pannello QUANTIZATION

5.3 Pannello MULTISTAGE (high / low noise)

5.4 Pannello TARGET (impostazioni rete LoRA)

5.5 Pannello SAVE

5.6 Pannello TRAINING

Iperparametri principali

Timestep e scheduler

EMA (Exponential Moving Average)

Ottimizzazioni Text Encoder

Regolarizzazione – Differential Output Preservation (DOP)

5.7 Pannello ADVANCED (Differential Guidance)

5.8 Pannello DATASETS

5.9 Pannello SAMPLE (anteprime di addestramento)

Impostazioni di sampling raccomandate (anteprime abilitate)

6. AI Toolkit addestramento LoRA Wan 2.2 I2V: impostazioni per movimento, stile e personaggio

6.1 LoRA di movimento/camera

6.2 LoRA di stile (look/grade video)

6.3 LoRA di personaggio (somiglianza video)

7. Risoluzione problemi comuni di Wan I2V LoRA

The size of tensor a (36) must match the size of tensor b (16) at non-singleton dimension 1

caching latents is not supported for multi-frame datasets

Movimento troppo veloce rispetto alla sorgente

La camera non si muove o la composizione cambia appena

Dettagli e volti appaiono peggio del Wan base

LoRA fa overfit e funziona solo su scene simili all'addestramento

Errori VRAM out-of-memory

L'addestramento è molto più lento del previsto (decine di secondi per step)

8. Esportare e usare la tua Wan I2V LoRA

Altre guide di addestramento LoRA AI Toolkit