Guide all'addestramento LoRA con AI Toolkit

Risolvere OOM video Wan 2.2 e LTX-2 in AI Toolkit

Guida pratica per stabilizzare l'addestramento video LoRA Wan 2.2 e LTX-2 in AI Toolkit regolando frame, batch size, risoluzione e impostazioni di anteprima per evitare configurazioni di memoria al limite.

Addestra modelli di diffusione con Ostris AI Toolkit

Wan 2.2 / LTX-2 Guida OOM: Frame, Batch Size e Risoluzione sicuri in AI Toolkit

Per l'addestramento video LoRA, l'OOM di solito non dipende da una singola impostazione sbagliata.

È solitamente la combinazione di:

  • troppi frame
  • un bucket di risoluzione troppo grande
  • un batch troppo grande
  • un campionamento dell'anteprima troppo costoso

Ecco perché l'OOM video sembra incoerente: un addestramento funziona, il successivo crasha, anche se "non è cambiato nulla di importante."

Questa guida ti offre un budget di memoria pratico per Wan 2.2 e LTX-2 in RunComfy AI Toolkit.


Checklist rapida (inizia qui)

  • Per Wan 2.2, inizia con Batch Size = 1 e 21–41 frame
  • Per LTX-2, inizia con Batch Size = 1 e 49 o 81 frame
  • In Datasets, riduci Num Frames prima di toccare il LR
  • In Datasets, rimuovi il bucket di Resolution più alto per primo
  • In Sample, mantieni i video di anteprima più economici del tuo budget di addestramento
  • Se il log dice Bus error / out of shared memory, quello non è lo stesso di CUDA OOM

1) Prima di tutto: identifica quale problema di memoria hai

CUDA OOM

Questa guida è per errori come:

CUDA out of memory

OOM during training step ...

Tried to allocate ...

Crash Shared-memory / DataLoader

Se il tuo log dice:

Bus error

out of shared memory

DataLoader worker is killed

È un problema diverso legato alla memoria condivisa (/dev/shm), non alla VRAM GPU. Vedi Fix: DataLoader worker Bus error (/dev/shm) — risoluzione problemi


2) L'unico modello mentale di cui hai davvero bisogno

Per l'addestramento video, la pressione di memoria aumenta principalmente con:

frame × risoluzione × batch size

Se aumenti tutti e tre contemporaneamente, stai molto probabilmente costruendo un run al limite.


3) Wan 2.2: sicuro vs limite vs alto rischio

Primo addestramento sicuro

  • Batch Size: 1
  • Num Frames: 21 o 41
  • Resolution: iniziare con 512
  • Mantenere i video di anteprima conservativi

Limite

  • Batch Size: 1
  • Num Frames: 81
  • Resolution: 480–512

Alto rischio

  • Batch Size ≥ 2 con 81 frame
  • Bucket ad alta risoluzione più clip lunghe
  • Generazione frequente di anteprime pesanti

Ordine di rollback Wan

  1. Ridurre Num Frames
  2. Mantenere Batch Size = 1
  3. Rimuovere la Resolution più alta
  4. Ridurre il costo delle anteprime

4) LTX-2: sicuro vs limite vs alto rischio

Primo addestramento sicuro

  • Batch Size: 1
  • Num Frames: 49 o 81
  • Resolution: 512

Limite

  • Batch Size: 1
  • Num Frames: 121
  • Resolution: 512

Alto rischio

  • Batch Size ≥ 4 con 121 frame
  • Bucket più grandi prima della stabilità comprovata
  • Campionamento pesante dell'anteprima

Ordine di rollback LTX

  1. Mantenere Batch Size = 1
  2. Ridurre Num Frames (121 → 81 → 49)
  3. Ridurre Resolution
  4. Rendere l'anteprima più economica

5) Perché la stessa config a volte funziona e a volte va in OOM

Ragioni comuni:

  • Picchi di bucket (il bucket più grande porta la VRAM oltre il limite)
  • Picchi di anteprima (l'addestramento ci sta, l'anteprima lo fa sforare)
  • Stato di memoria al limite

Una config che "a volte funziona" deve essere trattata come instabile.


Riepilogo in una riga

Per Wan 2.2 e LTX-2, l'OOM video è solitamente un problema di frame × risoluzione × batch.

Inizia conservativo, prova la stabilità, poi scala.

Pronto per iniziare l'addestramento?