Wan 2.2 / LTX-2 Guida OOM: Frame, Batch Size e Risoluzione sicuri in AI Toolkit
Per l'addestramento video LoRA, l'OOM di solito non dipende da una singola impostazione sbagliata.
È solitamente la combinazione di:
- troppi frame
- un bucket di risoluzione troppo grande
- un batch troppo grande
- un campionamento dell'anteprima troppo costoso
Ecco perché l'OOM video sembra incoerente: un addestramento funziona, il successivo crasha, anche se "non è cambiato nulla di importante."
Questa guida ti offre un budget di memoria pratico per Wan 2.2 e LTX-2 in RunComfy AI Toolkit.
Checklist rapida (inizia qui)
- Per Wan 2.2, inizia con Batch Size = 1 e 21–41 frame
- Per LTX-2, inizia con Batch Size = 1 e 49 o 81 frame
- In Datasets, riduci Num Frames prima di toccare il LR
- In Datasets, rimuovi il bucket di Resolution più alto per primo
- In Sample, mantieni i video di anteprima più economici del tuo budget di addestramento
- Se il log dice Bus error / out of shared memory, quello non è lo stesso di CUDA OOM
1) Prima di tutto: identifica quale problema di memoria hai
CUDA OOM
Questa guida è per errori come:
CUDA out of memory
OOM during training step ...
Tried to allocate ...
Crash Shared-memory / DataLoader
Se il tuo log dice:
Bus error
out of shared memory
DataLoader worker is killed
È un problema diverso legato alla memoria condivisa (/dev/shm), non alla VRAM GPU. Vedi Fix: DataLoader worker Bus error (/dev/shm) — risoluzione problemi
2) L'unico modello mentale di cui hai davvero bisogno
Per l'addestramento video, la pressione di memoria aumenta principalmente con:
frame × risoluzione × batch size
Se aumenti tutti e tre contemporaneamente, stai molto probabilmente costruendo un run al limite.
3) Wan 2.2: sicuro vs limite vs alto rischio
Primo addestramento sicuro
- Batch Size: 1
- Num Frames: 21 o 41
- Resolution: iniziare con 512
- Mantenere i video di anteprima conservativi
Limite
- Batch Size: 1
- Num Frames: 81
- Resolution: 480–512
Alto rischio
- Batch Size ≥ 2 con 81 frame
- Bucket ad alta risoluzione più clip lunghe
- Generazione frequente di anteprime pesanti
Ordine di rollback Wan
- Ridurre Num Frames
- Mantenere Batch Size = 1
- Rimuovere la Resolution più alta
- Ridurre il costo delle anteprime
4) LTX-2: sicuro vs limite vs alto rischio
Primo addestramento sicuro
- Batch Size: 1
- Num Frames: 49 o 81
- Resolution: 512
Limite
- Batch Size: 1
- Num Frames: 121
- Resolution: 512
Alto rischio
- Batch Size ≥ 4 con 121 frame
- Bucket più grandi prima della stabilità comprovata
- Campionamento pesante dell'anteprima
Ordine di rollback LTX
- Mantenere Batch Size = 1
- Ridurre Num Frames (121 → 81 → 49)
- Ridurre Resolution
- Rendere l'anteprima più economica
5) Perché la stessa config a volte funziona e a volte va in OOM
Ragioni comuni:
- Picchi di bucket (il bucket più grande porta la VRAM oltre il limite)
- Picchi di anteprima (l'addestramento ci sta, l'anteprima lo fa sforare)
- Stato di memoria al limite
Una config che "a volte funziona" deve essere trattata come instabile.
Riepilogo in una riga
Per Wan 2.2 e LTX-2, l'OOM video è solitamente un problema di frame × risoluzione × batch.
Inizia conservativo, prova la stabilità, poi scala.
Pronto per iniziare l'addestramento?
