Addestramento LoRA Wan 2.2 T2V 14B con AI Toolkit

Wan 2.2 T2V 14B Addestramento LoRA da testo a video ti permette di generare clip ricchi di 5 secondi con movimento forte, dettagli e controllo della camera da semplici prompt testuali. Alla fine di questa guida, sarai in grado di:

Addestrare Wan 2.2 T2V 14B LoRAs con AI Toolkit per personaggi coerenti, stili marcati e comportamenti di movimento/camera.
Scegliere tra addestramento locale su una GPU NVIDIA 24GB+ (con quantizzazione ARA 4 bit) e addestramento cloud su GPU H100/H200, e capire cosa ogni livello può gestire realisticamente.
Comprendere come gli esperti high-noise e low-noise di Wan interagiscono con Multi-stage, Timestep Type/Bias, Num Frames e risoluzione, per controllare dove il LoRA inietta cambiamenti.
Configurare AI Toolkit pannello per pannello (JOB, MODEL, QUANTIZATION, MULTISTAGE, TARGET, SAVE, TRAINING, DATASETS, SAMPLE) per adattare la stessa ricetta a diversi obiettivi LoRA e hardware.

Questo articolo fa parte della serie di addestramento LoRA AI Toolkit. Se sei nuovo a Ostris AI Toolkit, inizia con la panoramica dell'addestramento LoRA AI Toolkit prima di immergerti in questa guida.

Indice

1. Panoramica Wan 2.2 T2V 14B per addestramento LoRA
2. Dove addestrare i Wan 2.2 T2V LoRAs (locale vs cloud)
3. Aspettative hardware e VRAM per Wan 2.2 T2V LoRAs
4. Costruzione di un dataset Wan 2.2 T2V LoRA
5. Passo dopo passo: addestrare un Wan 2.2 T2V 14B LoRA in AI Toolkit
6. Impostazioni di addestramento Wan 2.2 T2V 14B LoRA
7. Esportare e usare il tuo Wan T2V LoRA

1. Panoramica Wan 2.2 T2V 14B per addestramento LoRA

Wan 2.2 è una famiglia di modelli aperti testo/video con tre varianti principali: un modello testo/immagine a video da 5B e due modelli 14B (T2V e I2V). (Wan 2.2 GitHub). Questa guida si concentra sul modello 14B testo a video Wan2.2‑T2V‑A14B.

Design dual-transformer "high noise / low noise"

Sotto il cofano, Wan 2.2 14B utilizza un backbone Mixture-of-Experts testo a video per il Wan 2.2 T2V 14B Addestramento LoRA da testo a video:

High-noise: transformer di ~14B parametri che gestisce la parte molto rumorosa all'inizio del denoising (composizione grezza, movimento globale, camera).
Low-noise: transformer di ~14B parametri che raffina i frame relativamente puliti verso la fine (dettagli, texture, identità).

Insieme il modello ha circa 27B parametri, ma ad ogni passo di diffusione solo un esperto (≈14B parametri) è attivo. I timestep sono divisi intorno a t ≈ 875 su 1000 nello schedule del rumore: circa 1000→875 vanno all'esperto high-noise e 875→0 vanno all'esperto low-noise, con spostamento interno per mantenere una copertura bilanciata sulla traiettoria.

Per capire come addestrare una LoRA per Wan 2.2, questo significa:

Generalmente vorrai addestrare entrambi gli esperti così il tuo LoRA funziona attraverso l'intera catena di denoising – sia composizione/movimento che dettagli/identità.
Su GPU più piccole è costoso tenere entrambi i transformer in VRAM e scambiarli ad ogni passo, ecco perché AI Toolkit espone un pannello Multi-stage e opzioni Low VRAM + quantizzazione ARA + "Switch Every N steps" per scambiare velocità con VRAM.

2. Dove addestrare i Wan 2.2 T2V LoRAs (locale vs cloud)

Puoi seguire questo tutorial in due ambienti; l'interfaccia AI Toolkit è la stessa.

Opzione A – AI Toolkit locale (la tua GPU)

Installa AI Toolkit da GitHub repository AI Toolkit ed esegui l'interfaccia web. Questo è meglio se sei a tuo agio con CUDA/driver e hai già una GPU NVIDIA 24GB+ (RTX 4090 / 5090 / A6000, ecc.).
Poiché Wan 2.2 14B è pesante, Mac e GPU sotto 24GB sono generalmente adatti solo per piccoli LoRA solo immagine a risoluzione 512 (Num Frames = 1). Per un serio Wan 2.2 T2V 14B Addestramento LoRA da testo a video hai davvero bisogno di 24GB+ e quantizzazione aggressiva.

Opzione B – AI Toolkit cloud su RunComfy (H100 / H200)

Apri l'AI Toolkit cloud su RunComfy e accedi. Arrivi direttamente nell'interfaccia AI Toolkit con tutte le dipendenze preinstallate.
Per il Wan 2.2 T2V 14B Addestramento LoRA da testo a video, scegli una macchina H100 (80GB) o H200 (141GB) quando avvii il job così puoi addestrare video lunghi a risoluzione più alta.

Vantaggi dell'uso del cloud:

Zero setup – CUDA, driver e pesi del modello sono già configurati.
VRAM enorme – puoi eseguire LoRA da 33–81 frame a risoluzione 768–1024 con dimensioni batch ragionevoli senza combattere errori OOM.
Workspace persistente – i tuoi dataset, job e checkpoint LoRA vivono nel tuo account RunComfy, così puoi riprendere o iterare più tardi.

3. Aspettative hardware e VRAM per Wan 2.2 T2V LoRAs

Wan 2.2 14B è molto più pesante dei modelli immagine o Wan 2.1:

I workflow T2V ufficiali a 1024×1024 e 81 frame possono causare OOM anche su GPU consumer di fascia alta se non quantizzi.
L'addestramento LoRA a sequenza lunga a 1024² / 81 frame può richiedere molte ore anche su schede server 48–96GB, specialmente a 2–4k passi.
La configurazione esempio ufficiale AI Toolkit per questo modello (train_lora_wan22_14b_24gb.yaml) è ottimizzata per GPU 24GB e usa la quantizzazione ARA 4 bit con Num Frames = 1 (solo immagine) come default sicuro.

Un modello mentale ragionevole per livello di VRAM per il Fine-tuning LoRA Wan 2.2 T2V:

Livello	GPU esempio	Cosa è confortevole
24GB "consumer"	4090 / 5090 / A6000	LoRA solo immagine (Num Frames = 1) a 512–768 px, usando ARA 4 bit e Low VRAM = ON. LoRA video corti (33–41 frame @ 512) sono possibili ma lenti.
48–64GB "prosumer"	dual 4090, alcune GPU server	LoRA video 33–41 frame a 768–1024 px con ARA 4 bit e offloading minimo. Buon bilanciamento velocità, capacità e qualità.
80–141GB "cloud"	H100 / H200 su RunComfy	Addestramento 81 frame a 1024², Batch Size 1–2, poco o nessun offloading, usando float8 o ARA 4 bit. Ideale per LoRA video sequenza lunga seri.

4. Costruzione di un dataset Wan 2.2 T2V LoRA

I Wan T2V LoRA possono essere addestrati su:

Immagini – trattate come "video" di 1 frame (Num Frames = 1).
Clip video – la vera forza del modello T2V; lavorerai generalmente con clip corti di 3–8s.

4.1 Decidi che tipo di LoRA stai addestrando

Pensa in termini di tre ampie famiglie e progetta il tuo dataset di conseguenza:

LoRA personaggio (viso / corpo / outfit)
Obiettivo: mantenere le capacità generali di Wan ma iniettare una nuova persona, avatar o outfit che puoi indirizzare tramite un trigger. Usa 10–30 immagini di alta qualità o clip corti della stessa persona, con pose, sfondi e illuminazione variati. Evita filtri pesanti o stilizzazione che combatte il modello base. Includi un token trigger unico nelle didascalie (es. "zxq-person"), più una descrizione ricca di abbigliamento, illuminazione e inquadratura così il LoRA impara il concetto in modo pulito.
LoRA stile (look & feel)
Obiettivo: mantenere il contenuto flessibile ma imporre uno stile visivo (pellicola, look anime, pittorico, ecc.). Usa 10–40 immagini o clip che condividono lo stesso look – colori coerenti, contrasto, sensazione della camera – ma con soggetti e scene diversi. Le didascalie dovrebbero insistere su parole di stile, es. "pittura a olio, impasto spesso, illuminazione arancione calda, alto contrasto" invece di elencare oggetti esatti.
LoRA movimento / camera
Obiettivo: insegnare a Wan comportamenti temporali (orbite, panoramiche, dolly, loop tipo sprite, ecc.). Usa 10–30 clip corti (~5s) che mostrano il movimento target, idealmente lo stesso tipo di movimento attraverso diversi soggetti e ambienti. Le didascalie devono menzionare esplicitamente la parola chiave del movimento, come "orbita 180 intorno al soggetto", "animazione di attacco a scorrimento laterale", o "dolly zoom lento verso il personaggio" così il modello sa quale comportamento ti interessa.

4.2 Risoluzione e aspect ratio

Wan 2.2 14B T2V è costruito per frame classe quadrata 1024×1024. Gli esempi ufficiali usano 1024² o varianti vicine, con bucketing interno per risoluzioni più basse.

Per il Wan 2.2 T2V 14B Addestramento LoRA da testo a video:

Su GPU 24GB, preferisci bucket di risoluzione 512 o 768 e deseleziona 1024 nel pannello DATASETS per risparmiare VRAM.
Su GPU 48GB+ o H100/H200, puoi abilitare bucket 768 e 1024 per ottenere risultati più nitidi, specialmente per LoRA personaggio e stile.

AI Toolkit ridimensionerà e classificherà i tuoi video nelle risoluzioni selezionate; devi principalmente assicurarti che i tuoi clip sorgente siano di alta qualità e non siano in letterbox con enormi barre nere.

4.3 Durata clip video e Num Frames

Wan 2.2 è stato pre-addestrato su circa clip di 5 secondi a 16 FPS, dando circa 81 frame per sequenza di addestramento (seguendo un pattern 4k+1).

Il campo Num Frames di AI Toolkit nel pannello DATASETS controlla quanti frame vengono campionati da ogni video:

Per le immagini, imposta Num Frames = 1 – ogni immagine è trattata come un video di 1 frame.
Per i video, buone scelte sono:

81 – "fedeltà completa"; corrisponde al pre-addestramento ma è molto avido di VRAM.
41 – circa metà dei frame e approssimativamente metà VRAM/tempo; un buon compromesso per GPU più grandi.
33 – un'opzione aggressiva e amica della VRAM per addestramento locale 24GB combinato con risoluzione 512 px.

I frame sono campionati uniformemente attraverso ogni clip, quindi non hai bisogno che ogni video sia esattamente 5 secondi. Quello che conta è che il movimento utile occupi il clip: taglia via lunghe intro/outro statiche così quasi ogni frame campionato contiene segnale di movimento o identità significativo.

I conteggi di frame sono tipicamente scelti per seguire il pattern "4n+1" specifico di Wan (es. 9, 13, 17, 21, 33, 41, 81). Attenersi a questi valori tende a produrre comportamento temporale più stabile perché corrisponde al windowing interno del modello.

4.4 Strategia didascalie

Le didascalie per clip contano di più per i LoRA video che per i semplici LoRA immagine, specialmente per movimento e stile.

Per i LoRA immagine / personaggio, punta a 10–30 immagini o clip corti, ognuno con una didascalia che include il tuo trigger più una descrizione, per esempio:
"ritratto di [trigger], piano medio, illuminazione da studio, indossa giacca di pelle, obiettivo 35mm".

Al momento dell'addestramento AI Toolkit sostituirà [trigger] con la Trigger Word reale dal pannello JOB se usi quel pattern.
Per i LoRA movimento, assicurati che la parola di movimento appaia e sia coerente tra i clip, es.:
"orbita 180 intorno a un castello medievale",

"animazione di attacco a scorrimento laterale di un orsetto che brandisce una spada".

Per ora, assicurati semplicemente che ogni immagine o clip abbia una buona didascalia .txt per file o che imposterai una Default Caption utile nel pannello DATASETS. Nella sezione TRAINING decideremo se eseguire in modalità basata su didascalia (usando queste didascalie direttamente) o in modalità solo Trigger Word su setup ad alta VRAM.

5. Passo dopo passo: addestrare un Wan 2.2 T2V 14B LoRA in AI Toolkit

In questa sezione percorriamo pannello per pannello l'interfaccia AI Toolkit per un LoRA video su Wan 2.2 T2V 14B.

Assunzioni base per questa guida:

Stai addestrando un LoRA video (Num Frames = 33) a risoluzione 512 o 768.
Sei su una GPU 24–32GB o stai eseguendo un setup equivalente su RunComfy con trucchi Low VRAM.
Il tuo dataset è una cartella dataset Wan T2V con video + didascalie.

Più tardi aggiungeremo note per H100/H200 e livelli VRAM più alti.

5.1 Pannello JOB – metadati base del job

Imposta i metadati di alto livello così puoi trovare il tuo job più tardi:

Job Name – un nome conciso come wan22_t2v_char_zxq_v1 o wan22_t2v_style_neon_v1. Includi modello, task e un breve identificatore.
Output Directory – dove AI Toolkit scriverà checkpoint e log, es. ./output/wan22_t2v_char_zxq_v1.
GPU ID – su un'installazione locale questo punta alla tua GPU fisica. Sul cloud AI Toolkit RunComfy puoi lasciarlo come default; il tipo di macchina reale (H100/H200) viene scelto più tardi nella Training Queue.
Trigger Word (opzionale) – se pianifichi di usare un workflow trigger word, impostalo al tuo token (per esempio zxqperson). Nelle didascalie puoi scrivere [trigger] e AI Toolkit lo sostituirà con la tua Trigger Word al caricamento. Mantienilo breve e unico così non collide con token esistenti.

5.2 Pannello MODEL – modello base Wan 2.2 T2V

Configura il modello base e le opzioni relative alla VRAM per il ComfyUI Wan 2.2 testo video LoRA:

Model Architecture – scegli Wan 2.2 T2V 14B (o etichetta equivalente nella tua build).
Name or Path – l'id modello Hugging Face (repo id) per il checkpoint base, per esempio: ai-toolkit/Wan2.2-T2V-A14B-Diffusers-bf16.
Nella maggior parte delle build AI Toolkit, selezionare Wan 2.2 T2V 14B auto-compilerà questo valore; lascialo così a meno che tu non abbia una ragione per cambiarlo.

Se lo sovrascrivi, usa il formato repo id Hugging Face: org-or-user/model-name (opzionalmente org-or-user/model-name@revision).
Low VRAM – su GPU 24–32GB, imposta Low VRAM = ON così AI Toolkit può usare strategie extra di checkpointing/offload che rendono possibile l'addestramento. Su H100/H200 o 48GB+ puoi impostare Low VRAM = OFF per massima velocità.
Layer Offloading – se la tua build espone questo, puoi lasciarlo OFF su 24GB+ a meno che non stia ancora avendo OOM. Su setup estremamente stretti può streamare alcuni layer nella RAM CPU, al costo di passi notevolmente più lenti.

5.3 Pannello QUANTIZATION – ARA 4 bit + text encoder float8

La quantizzazione è ciò che rende il Wan 2.2 T2V 14B Addestramento LoRA da testo a video praticabile su hardware consumer.

Transformer – imposta su 4bit with ARA. Questa è una quantizzazione 4 bit con un Accuracy Recovery Adapter; l'uso di VRAM è vicino al 4 bit puro, ma la qualità è molto più vicina a bf16.
Text Encoder – imposta su float8 (o qfloat8). Questo riduce VRAM e calcolo per il text encoder con impatto trascurabile sulla qualità di addestramento LoRA.

Su GPU 24–32GB, questa combinazione è la ragione principale per cui l'addestramento LoRA video è possibile del tutto.

Su H100/H200 / GPU 48GB+:

Puoi mantenere 4bit with ARA e spendere VRAM extra su risoluzione più alta, più frame, o rank LoRA più alto, che spesso dà un ritorno migliore.
Se preferisci uno stack più semplice, puoi passare il Transformer a un'opzione float8 pura mantenendo il Text Encoder a float8. Tornare completamente a bf16 ovunque di solito non è necessario.

5.4 Pannello MULTISTAGE – addestrare esperti high-noise e low-noise

Questo pannello espone l'architettura dual-expert (transformer high-noise vs low-noise) e come i passi di addestramento sono divisi tra loro.

Stages to Train – per la maggior parte dei LoRA, imposta High Noise = ON e Low Noise = ON. Questo significa che entrambi gli esperti vengono aggiornati durante l'addestramento così il LoRA influenza sia la composizione/movimento precoce che i dettagli/identità tardivi.
Switch Every – su GPU 24–32GB con Low VRAM = ON, imposta Switch Every = 10. Questo dice ad AI Toolkit quanti passi passare su un esperto prima di passare all'altro. Per esempio, con Steps = 3000:

Passi 1–10 → esperto high-noise
Passi 11–20 → esperto low-noise
…ripetere fino alla fine dell'addestramento.

Perché questo è importante:

Con Low VRAM = ON, AI Toolkit tipicamente tiene solo un esperto in memoria GPU alla volta. Quando cambia, scarica un transformer di ~14B parametri e carica l'altro.
Se imposti Switch Every = 1, forzi un caricamento/scaricamento di pesi enormi ogni passo, che è estremamente lento.
Con Switch Every = 10, ottieni comunque approssimativamente copertura 50/50 high/low noise, ma cambi solo ogni 10 passi invece di ogni passo, che è molto più efficiente.

Suggerimenti per tipo di LoRA:

Per i LoRA video personaggio o stile, tieni entrambi High Noise e Low Noise ON; sia composizione che dettagli contano.
Per i LoRA movimento / camera, high noise è cruciale per il movimento globale. Inizia con entrambe le fasi ON e poi sperimenta più tardi con addestramento solo high-noise se vuoi comportamento molto mirato.

Su H100/H200:

Puoi impostare Switch Every = 1, dato che entrambi gli esperti possono rimanere residenti in VRAM e l'overhead del cambio è trascurabile.

5.5 Pannello TARGET – rank e capacità del LoRA

Questo pannello controlla che tipo di adapter addestri e quanta capacità ha.

Target Type – imposta su LoRA.
Linear Rank – un buon default è 16 per Wan 2.2 T2V:

Rank 16 mantiene il LoRA piccolo e veloce da addestrare.
Di solito è sufficiente per LoRA personaggio, stile e movimento a risoluzione 512–768.

Se hai un dataset molto diverso (molti soggetti, stili o movimenti) e abbastanza VRAM:

Puoi aumentare Linear Rank a 32 per dare al LoRA più potere espressivo.
Evita di andare oltre 64 a meno che non sappia di aver bisogno di tanta capacità; rank molto alti possono overfittare e rendere il LoRA più difficile da controllare.

Su H100/H200, iniziare a Rank 16 e salire a 32 per LoRA complessi all-in-one è un range ragionevole.

5.6 Pannello SAVE – programma checkpoint

Configura quanto spesso salvare checkpoint LoRA durante l'addestramento:

Data Type – imposta su BF16. Questo corrisponde a come Wan 2.2 viene di solito eseguito ed è stabile per i pesi LoRA.
Save Every – imposta su 250 passi. Per un run di 3000 passi questo produce 12 checkpoint distribuiti sull'addestramento.
Max Step Saves to Keep – imposta su 4 o 6 così non perdi checkpoint precoci che potrebbero effettivamente sembrare migliori dell'ultimo.

In pratica raramente finisci per usare l'ultimo checkpoint; molti utenti preferiscono qualcosa nel range 2000–3000 passi dopo aver confrontato i campioni.

Su H100/H200:

Se esegui molto a lungo (es. 5000–6000 passi per un dataset grande), tieni Save Every = 250 e aumenta Max Step Saves to Keep, o imposta Save Every = 500 per limitare il numero di checkpoint.

5.7 Pannello TRAINING – iperparametri core e modalità text encoder

Ora impostiamo gli iperparametri di addestramento core, poi scegliamo come gestire il text encoder e la regolarizzazione opzionale.

5.7.1 Impostazioni di addestramento core

Per un LoRA video general-purpose su Wan 2.2 T2V:

Batch Size – su 24–32GB, imposta Batch Size = 1. Per T2V questo già consuma molta VRAM. Su H100/H200 puoi spingere a 2 se hai abbastanza margine.
Gradient Accumulation – inizia con 1. Se la VRAM è stretta ma vuoi un batch effettivo più grande, puoi impostarlo a 2–4; la dimensione batch effettiva è Batch Size × Gradient Accumulation.
Steps – range tipici:

Piccolo LoRA movimento focalizzato con ~10–20 clip: 1500–2500 passi.
LoRA personaggio o stile con 20–50 clip: 2000–3000 passi.
Dataset molto grandi possono andare più alti, ma spesso è meglio migliorare la qualità dei dati che semplicemente aggiungere più passi.

Optimizer – imposta Optimizer = AdamW8Bit. Adam 8 bit riduce la VRAM significativamente comportandosi in modo simile ad AdamW standard.
Learning Rate – imposta Learning Rate = 0.0001 come default solido. Se l'addestramento sembra instabile o i campioni oscillano selvaggiamente tra passi, abbassalo a 0.00005. Se l'addestramento sembra stabilizzarsi presto, considera di aumentare i passi piuttosto che spingere il Learning Rate più alto.
Loss Type – mantieni Mean Squared Error (MSE). Questo corrisponde alla loss di addestramento originale di Wan ed è la scelta standard.

Wan 2.2 usa un flow-matching noise scheduler, che AI Toolkit gestisce internamente. Nel pannello SAMPLE dovresti anche usare un sampler compatibile FlowMatch così le anteprime corrispondono al setup di addestramento.

5.7.2 Timestep Type e Timestep Bias – dove il LoRA si concentra

Questi due campi controllano quali timestep sono enfatizzati durante l'addestramento e come gli aggiornamenti sono distribuiti attraverso la catena di diffusione.

Timestep Type – controlla la distribuzione dei timestep:

Linear – campiona timestep uniformemente attraverso lo schedule; un default neutro e sicuro.
Sigmoid / altri pattern formati – inclina l'addestramento verso rumore medio/basso; a volte utile per personaggi e stili dettagliati.
Shift / Weighted – enfatizza ulteriormente regioni specifiche dello schedule del rumore, spesso combinato con Timestep Bias.

Timestep Bias – dice ad AI Toolkit quale parte della traiettoria enfatizzare:

Balanced – gli aggiornamenti si distribuiscono approssimativamente in modo uguale tra high e low noise.
Favor High Noise – inclina verso i passi precoci e rumorosi, enfatizzando composizione, layout e movimento globale.
Favor Low Noise – inclina verso i passi tardivi e puliti, enfatizzando identità, texture e micro-dettagli.

Combinazioni raccomandate per il Fine-tuning LoRA Wan 2.2 T2V:

LoRA movimento / camera – imposta Timestep Type = Linear e Timestep Bias = Balanced come default sicuro.
Se vuoi un LoRA movimento puro che blocchi davvero le traiettorie della camera, puoi spingere verso Timestep Bias = Favor High Noise, dato che l'esperto high-noise è dove Wan 2.2 decide layout e movimento.
LoRA stile – imposta Timestep Type = Linear o Shift e Timestep Bias = Favor High Noise.
Lo stile, la color grading e il "film stock" vivono principalmente nella parte high-noise / precoce della traiettoria, quindi favorire high noise permette al LoRA di riscrivere il tono globale lasciando i dettagli dello stadio tardivo principalmente al modello base.
LoRA personaggio – imposta Timestep Type = Sigmoid (o Linear) e Timestep Bias = Balanced.
Identità e somiglianza si appoggiano di più sull'esperto low-noise, ma vuoi comunque un po' di influenza sulla composizione e illuminazione. Per LoRA molto focalizzati sull'identità puoi sperimentare favorendo leggermente i passi low-noise, ma Balanced è il default più sicuro.

5.7.3 EMA (Exponential Moving Average)

Use EMA – per i LoRA, EMA è opzionale e aggiunge overhead extra. La maggior parte degli utenti lo lascia OFF per i LoRA Wan 2.2 e riserva EMA per l'addestramento del modello completo. È sicuro ignorare EMA a meno che tu non sappia di voler ensemble pesi più lisci.

5.7.4 Ottimizzazioni Text Encoder – modalità didascalia vs trigger-word

Questi switch controllano se il text encoder rimane caricato e se gli embedding vengono cachati.

Unload TE – se impostato ON, AI Toolkit rimuoverà il text encoder dalla VRAM tra i passi e si affiderà a embedding statici (es. un Trigger Word), disattivando effettivamente il captioning dinamico durante l'addestramento. Questo risparmia VRAM ma significa che le didascalie non verranno ri-codificate ad ogni passo.
Cache Text Embeddings – quando impostato ON, AI Toolkit esegue il text encoder una volta per didascalia, cacha gli embedding, e poi libera in sicurezza il text encoder dalla VRAM. Questo è altamente raccomandato per l'addestramento basato su didascalia con VRAM vincolata, dato che evita di ri-codificare ad ogni passo ma usa comunque le tue didascalie per clip.

Pattern tipici:

Per addestramento basato su didascalia 24–32GB, imposta Cache Text Embeddings = ON e lascia Unload TE = OFF. Questo ti dà addestramento efficiente con informazioni didascalia complete.
Per addestramento solo Trigger Word su VRAM molto alta (H100/H200), puoi impostare Unload TE = ON e affidarti a un singolo token trigger invece di didascalie complete.

5.7.5 Differential Output Preservation (DOP)

Differential Output Preservation è una regolarizzazione opzionale che incoraggia il LoRA a comportarsi come un edit residuale puro del modello base:

AI Toolkit renderizza due previsioni:

una con il modello base (senza LoRA), e
una con il LoRA abilitato.

Penalizza le differenze tra questi output eccetto dove vuoi esplicitamente cambiamento (tramite la tua Trigger Word e didascalie).

Campi chiave:

Differential Output Preservation – switch principale.
DOP Loss Multiplier – forza della loss di regolarizzazione.
DOP Preservation Class – un token di classe come person, scene, o landscape che descrive cosa dovrebbe essere preservato.

Utilizzo:

Per i LoRA stile e personaggio, DOP può aiutare a mantenere intatto l'eccellente realismo base di Wan mentre il LoRA aggiunge una modifica controllata. Una ricetta semplice:

Differential Output Preservation = ON
DOP Loss Multiplier = 1
DOP Preservation Class = person per LoRA personaggio, o scene / landscape per LoRA stile ampi se disponibile.

Per i LoRA movimento / camera, di solito non hai bisogno di DOP; il cambiamento di comportamento è già localizzato, e DOP approssimativamente raddoppia il calcolo.

Nota importante di compatibilità:

DOP funziona riscrivendo i prompt ad ogni passo (scambiando la tua Trigger Word con la Preservation Class in uno dei rami). Per questo, DOP richiede che il text encoder ri-codifichi i prompt ad ogni passo, e non è compatibile con Cache Text Embeddings.
Se attivi DOP ON:

devi impostare un Trigger Word nel pannello JOB,
e devi mantenere Cache Text Embeddings = OFF così il text encoder rimane attivo e può ri-codificare i prompt modificati ad ogni passo.

Su H100/H200, il costo di calcolo extra di DOP è di solito accettabile per LoRA personaggio e stile di alta qualità.

5.8 Pannello ADVANCED – Differential Guidance (opzionale)

Se la tua build espone un pannello ADVANCED con:

Do Differential Guidance
Differential Guidance Scale

puoi trattarlo come un trucco aggiuntivo specifico di AI-Toolkit:

Attivare Do Differential Guidance = ON con Scale = 3 dice al modello di concentrarsi di più sulla differenza tra previsioni base e modificate da LoRA, simile nello spirito a DOP ma implementato come un termine di guidance.
Questo può far convergere edit mirati (es. "stile contorno neon" o "comportamento camera orbita") più velocemente senza aumentare il Learning Rate.
Se i campioni sembrano instabili o troppo nitidi presto nell'addestramento, puoi abbassare la scale a 2. Se l'apprendimento sembra molto lento, puoi sperimentare con 4.

La maggior parte degli utenti può lasciare questo OFF in sicurezza per i loro primi LoRA Wan 2.2 e sperimentare una volta a proprio agio.

5.9 Pannello DATASETS – collegare il tuo dataset Wan T2V

Ogni blocco Dataset corrisponde a una voce nella lista interna datasets:.

Per un singolo dataset Wan T2V:

Target Dataset – seleziona la tua cartella dataset Wan T2V (es. wan_orbit_clips o wan_char_zxq_clips) contenente i tuoi video e didascalie.
LoRA Weight – imposta su 1 a meno che non mischi più dataset e vuoi ribilanciarli.
Default Caption – usato solo quando clip individuali non hanno didascalia .txt. Per esempio:

Personaggio/stile: "ritratto di zxqperson, zxqstyle, illuminazione cinematografica".
Movimento: "orbita 360 intorno al soggetto, zxq_orbit".

Caption Dropout Rate – un valore come 0.05 elimina le didascalie per il 5% dei campioni così il modello presta attenzione anche ai visual invece di overfittare le frasi.
Se ti affidi molto a Cache Text Embeddings, sii conservativo qui; caption dropout è più efficace quando il text encoder è attivo e le didascalie possono variare.
Settings → Cache Latents – per i LoRA video questo è di solito OFF perché cachare i latent VAE per molti frame è pesante su disco e RAM. Mantieni invece i tuoi video sorgente di alta qualità.
Settings → Is Regularization – lascia OFF a meno che tu non abbia un dataset di regolarizzazione dedicato.
Flipping (Flip X / Flip Y) – per la maggior parte dei LoRA video tieni entrambi OFF:

i flip orizzontali possono rompere la semantica movimento sinistra/destra e l'asimmetria del personaggio,
i flip verticali sono raramente appropriati per filmati del mondo reale.

Resolutions – abilita le risoluzioni in cui vuoi che AI Toolkit classifichi:

Su 24–32GB, abilita 512, opzionalmente 768 se la VRAM lo permette, e disabilita 1024+.
Su H100/H200, puoi abilitare 768 e 1024 per corrispondere al punto operativo preferito del modello.

Num Frames – imposta Num Frames = 33 per la ricetta base LoRA video 24–32GB.
33 segue la regola 4n+1 (4·8+1), approssimativamente dimezza il costo vs addestramento completo 81 frame dando comunque un pattern temporale chiaro.

AI Toolkit campionerà 33 frame uniformemente lungo la durata di ogni clip; devi solo tagliare i clip così il movimento che ti interessa occupa la maggior parte del clip.

Su H100/H200, puoi spingere Num Frames a 41 o 81, e combinare quello con bucket 768–1024 px e Rank 16–32 per LoRA sequenza lunga molto forti.

5.10 Pannello SAMPLE – anteprima del tuo LoRA

Il pannello SAMPLE serve a generare video di anteprima durante o dopo l'addestramento.

Impostazioni utili:

Num Frames – fai corrispondere approssimativamente al valore di addestramento (es. 33 o 41) così il comportamento è prevedibile.
Sampler / Scheduler – usa un sampler compatibile FlowMatch che si allinea con lo schedule del rumore del modello.
Prompt / Negative Prompt – usa la stessa Trigger Word e concetti su cui hai addestrato così puoi giudicare rapidamente se il LoRA sta facendo la cosa giusta.
Guidance Scale – durante le anteprime di addestramento, valori moderati (es. 2–4) vanno bene; ricorda che potresti usare valori diversi nei tuoi workflow di inferenza normali più tardi.

Genera campioni a checkpoint multipli (es. ogni 250–500 passi) e tieni quelli che bilanciano visivamente forza e stabilità.

6. Impostazioni di addestramento Wan 2.2 T2V 14B LoRA

Questa sezione riassume ricette pratiche per i tre tipi principali di LoRA.

6.1 LoRA video personaggio (identità / avatar)

Obiettivo: preservare il viso, corpo e identità generale di un personaggio attraverso molti prompt e scene.

Dataset:

10–30 clip corti o immagini del personaggio, con pose, sfondi e illuminazione variati.
Le didascalie includono una Trigger Word e classe, per esempio:
"ritratto di [trigger], giovane donna, abbigliamento casual, illuminazione da studio".

Impostazioni chiave per il Wan 2.2 T2V 14B Addestramento LoRA da testo a video:

Num Frames – 33 su 24GB; 41 o 81 su H100/H200.
Resolutions – 512 o 768; aggiungi 1024 su alta VRAM.
Multi-stage – High Noise = ON, Low Noise = ON, Switch Every = 10 (locale) o 1 (cloud).
Timestep Type / Bias – Linear (o Sigmoid) con Balanced bias, così catturi sia composizione che dettaglio identità low-noise.
Linear Rank – 16 (24GB) o 16–32 (H100/H200) per identità più sfumata.
DOP – opzionalmente abilitare per LoRA personaggio quando vuoi preservare realismo base:

Differential Output Preservation = ON
DOP Loss Multiplier = 1
DOP Preservation Class = person
Cache Text Embeddings = OFF (richiesto perché DOP funzioni)

Steps – 2000–3000, controllando campioni ogni 250–500 passi.

6.2 LoRA video stile (look film / anime / color grading)

Obiettivo: imporre un stile visivo forte mantenendo il contenuto flessibile.

Dataset:

10–40 immagini o clip che condividono lo stesso stile attraverso soggetti e scene diversi.
Le didascalie descrivono il look (es. pellicola, pennellata, palette) piuttosto che gli oggetti esatti.

Impostazioni chiave per come addestrare una LoRA per Wan 2.2:

Num Frames – 33–41 per la maggior parte dei casi d'uso; 81 su GPU grandi per clip di 5s.
Resolutions – 512–768 su 24GB; 768–1024 su alta VRAM.
Multi-stage – High Noise = ON, Low Noise = ON, Switch Every = 10 (locale) o 1 (cloud).
Timestep Type / Bias – Linear o Shift con Timestep Bias = Favor High Noise, così il LoRA può riscrivere colore globale e contrasto dove la composizione è ancora fluida.
Linear Rank – 16 per stili semplici; 16–32 per look complessi, cinematografici.
DOP – raccomandato per LoRA stile quando vuoi preservare realismo base:

Differential Output Preservation = ON
DOP Loss Multiplier = 1
DOP Preservation Class = scene / landscape o simile
Cache Text Embeddings = OFF

Steps – 1500–2500, fermandosi quando lo stile sembra forte ma non troppo cotto.

6.3 LoRA movimento / camera (orbite, panoramiche, movimenti dolly)

Obiettivo: imparare nuovi movimenti di camera o pattern di movimento che puoi applicare a molti soggetti.

Dataset:

10–30 clip di 3–8s, ognuno che mostra il movimento target.
Mantieni il movimento coerente (es. tutti sono orbita 180 o tutti sono scorrimento laterale), ma varia soggetti e scene.
Le didascalie dichiarano esplicitamente la parola chiave del movimento ("orbita 180 intorno al soggetto", "animazione di attacco a scorrimento laterale").

Impostazioni chiave per il ComfyUI Wan 2.2 testo video LoRA:

Num Frames – 33 su 24GB, 41–81 su GPU più grandi.
Resolutions – 512 (e 768 se VRAM lo permette).
Multi-stage – High Noise = ON, Low Noise = ON, Switch Every = 10 (locale) o 1 (cloud).
Timestep Type / Bias – Linear con Timestep Bias = Balanced, così sia composizione precoce che raffinamento tardivo vedono aggiornamenti; il movimento intrinsecamente si appoggia su high noise.
Linear Rank – Rank 16 di solito è sufficiente; il movimento riguarda più il comportamento che piccoli dettagli.
DOP – di solito tenere OFF; il movimento è già localizzato e DOP raddoppia i forward pass.
Steps – 1500–2500; guarda le anteprime per assicurarti che il movimento generalizzi oltre i tuoi clip di addestramento.

7. Esportare e usare il tuo Wan T2V LoRA

Una volta completato l'addestramento, puoi usare il tuo Wan 2.2 T2V 14B LoRA in due modi semplici:

Run LoRA – apri la pagina Run LoRA di Wan 2.2 T2V 14B. In questa pagina di inferenza del modello base puoi selezionare un asset LoRA che hai addestrato su RunComfy oppure importare un file LoRA addestrato con AI Toolkit, quindi eseguire l’inferenza tramite il playground o l’API. RunComfy usa lo stesso modello base e la definizione completa della pipeline AI Toolkit dalla tua configurazione di training, quindi ciò che hai visto durante il training è ciò che ottieni in inferenza — questo allineamento stretto training/inference aiuta a mantenere risultati coerenti con i tuoi sample di training.
Workflow ComfyUI – avvia un'istanza ComfyUI e costruisci il tuo workflow, aggiungi il tuo LoRA e regola finemente il peso LoRA e altre impostazioni per un controllo più dettagliato.

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Indice

1. Panoramica Wan 2.2 T2V 14B per addestramento LoRA

Design dual-transformer "high noise / low noise"

2. Dove addestrare i Wan 2.2 T2V LoRAs (locale vs cloud)

Opzione A – AI Toolkit locale (la tua GPU)

Opzione B – AI Toolkit cloud su RunComfy (H100 / H200)

3. Aspettative hardware e VRAM per Wan 2.2 T2V LoRAs

4. Costruzione di un dataset Wan 2.2 T2V LoRA

4.1 Decidi che tipo di LoRA stai addestrando

4.2 Risoluzione e aspect ratio

4.3 Durata clip video e Num Frames

4.4 Strategia didascalie

5. Passo dopo passo: addestrare un Wan 2.2 T2V 14B LoRA in AI Toolkit

5.1 Pannello JOB – metadati base del job

5.2 Pannello MODEL – modello base Wan 2.2 T2V

5.3 Pannello QUANTIZATION – ARA 4 bit + text encoder float8

5.4 Pannello MULTISTAGE – addestrare esperti high-noise e low-noise

5.5 Pannello TARGET – rank e capacità del LoRA

5.6 Pannello SAVE – programma checkpoint

5.7 Pannello TRAINING – iperparametri core e modalità text encoder

5.7.1 Impostazioni di addestramento core

5.7.2 Timestep Type e Timestep Bias – dove il LoRA si concentra

5.7.3 EMA (Exponential Moving Average)

5.7.4 Ottimizzazioni Text Encoder – modalità didascalia vs trigger-word

5.7.5 Differential Output Preservation (DOP)

5.8 Pannello ADVANCED – Differential Guidance (opzionale)

5.9 Pannello DATASETS – collegare il tuo dataset Wan T2V

5.10 Pannello SAMPLE – anteprima del tuo LoRA

6. Impostazioni di addestramento Wan 2.2 T2V 14B LoRA

6.1 LoRA video personaggio (identità / avatar)

6.2 LoRA video stile (look film / anime / color grading)

6.3 LoRA movimento / camera (orbite, panoramiche, movimenti dolly)

7. Esportare e usare il tuo Wan T2V LoRA

Altre guide di addestramento LoRA AI Toolkit