Guide all'addestramento LoRA con AI Toolkit

Impostazioni sicure di avvio AI Toolkit per evitare OOM

Guida preflight per i job AI Toolkit: controlla batch size, risoluzioni, frame, gradient checkpointing e campionamento anteprima prima di creare un job, in modo che il primo avvio abbia più probabilità di successo.

Addestra modelli di diffusione con Ostris AI Toolkit

Come evitare OOM in AI Toolkit: impostazioni sicure per il primo addestramento riuscito

Questa pagina non è la configurazione per "velocità massima".

È la configurazione per il primo addestramento riuscito.

Se il tuo obiettivo è smettere di sprecare tentativi, ridurre gli OOM e arrivare più rapidamente a un addestramento funzionante, parti da qui.

La regola è semplice:

Prima dimostra la stabilità. Poi ottimizza la velocità.

A cosa serve questa guida

Usa questa pagina se:

  • stai per creare un nuovo job in AI Toolkit
  • vuoi impostazioni iniziali più sicure
  • preferisci un primo addestramento stabile piuttosto che ore di debug OOM
  • cerchi una checklist pratica "non partire con impostazioni pericolose"

Se già vedi l'errore CUDA out of memory, vai a:


Checklist OOM pre-volo in 60 secondi

Prima di cliccare su Create Job:

  • ✅ Mantieni il Batch Size conservativo
  • ✅ In Datasets, inizia con Risoluzioni conservative
  • ✅ In Sample, mantieni l'anteprima più economica della tua ambizione finale
  • ✅ Clicca su Show Advanced e assicurati che gradient_checkpointing: true
  • ✅ Per il video, inizia con Num Frames conservativi
  • ✅ Usa le funzionalità di bassa memoria specifiche del modello solo se la guida lo raccomanda
  • Non provare più cambiamenti rischiosi nel primo addestramento

RunComfy aiuta anche a livello di prodotto. Quando salvi un job, RunComfy verifica se le tue impostazioni includono combinazioni ad alto rischio — ad esempio batch size eccessivo, frames, risoluzione, o disattivazione prematura dei valori predefiniti di risparmio memoria. L'obiettivo è individuare configurazioni rischiose prima che consumino tempo GPU e budget.

Questo non sostituisce il giudizio specifico del modello, ma offre un punto di partenza più sicuro.


1) Il cambio di mentalità più importante

La maggior parte dei primi addestramenti falliti non fallisce per un "cattivo learning rate".

Falliscono per:

  • troppa risoluzione
  • troppi frame
  • troppo batch
  • campionamento dell'anteprima troppo costoso
  • disattivazione prematura dei valori predefiniti di risparmio memoria

Il tuo primo addestramento riuscito dovrebbe quindi apparire intenzionalmente noioso.

Questo è un bene.


2) Impostazioni di partenza sicure per modelli di immagini

FLUX-dev / grandi modelli tipo Flex

Buon primo addestramento

  • Batch Size: 1
  • Gradient Checkpointing: Attivato
  • Datasets > Resolutions: iniziare con 512 + 768
  • aggiungere 1024 solo dopo la stabilità
  • Sample: mantenere l'anteprima moderata o disattivare temporaneamente il campionamento

Non partire da qui

  • GC disattivato
  • Batch Size ≥ 8
  • configurazione multi-bucket ad alta risoluzione aggressiva al primo addestramento
  • anteprime pesanti e frequenti

Z-Image

Buon primo addestramento

  • Batch Size: conservativo per primo
  • Gradient Checkpointing: Attivato
  • Resolutions: 768 + 1024 è un primo obiettivo più sicuro che saltare direttamente al bucket più grande
  • mantenere le anteprime ragionevoli

Non partire da qui

  • GC disattivato con batch grande
  • partire direttamente con il bucket più grande
  • mescolare batch alto con alta risoluzione prima di dimostrare la stabilità

Qwen Image Edit

Buon primo addestramento

  • Batch Size: 1
  • Gradient Checkpointing: Attivato
  • iniziare con un mix di bucket più piccolo o semplice
  • mantenere il costo delle anteprime sotto controllo
  • usare il percorso a bassa memoria del modello se la guida lo raccomanda

Non partire da qui

  • GC disattivato
  • batch grande al primo addestramento
  • anteprime 1024 costose più condizionamento pesante più generazione frequente di campioni
  • esperimenti casuali con il text-encoder prima che la pipeline base sia stabile

3) Impostazioni di partenza sicure per modelli video

Wan 2.2 14B

Buon primo addestramento

  • Batch Size: 1
  • Datasets > Num Frames: 21 o 41
  • Datasets > Resolutions: iniziare con 512
  • aggiungere 768 solo dopo un addestramento stabile
  • mantenere i video di anteprima conservativi

Non partire da qui

  • 81 frame + Batch Size 2
  • video di anteprima lunghi durante l'addestramento
  • bucket grandi più clip lunghe prima di dimostrare la stabilità

LTX-2

Buon primo addestramento

  • Batch Size: 1
  • Num Frames: 49 o 81
  • Resolution: 512
  • mantenere il costo delle anteprime sotto controllo

Non partire da qui

  • 121 frame + Batch Size 4
  • bucket più grandi prima di un addestramento stabile comprovato
  • presumere che le abitudini di batch dei modelli di immagini si applichino al video

4) Impostazioni di anteprima più sicure di quelle con cui la maggior parte inizia

Molti "OOM di addestramento" sono in realtà OOM di anteprima.

Per il primo addestramento, usa un campionamento più economico di quanto pensi di avere bisogno.

Nel pannello Sample

Preferisci:

  • Width / Height più bassi
  • Sample Steps più bassi
  • Sample Every meno frequente
  • Disable Sampling attivato se il tuo unico obiettivo è dimostrare la stabilità

Una volta che l'addestramento è stabile, puoi arricchire nuovamente le anteprime.


5) Cosa verificare in Show Advanced

L'interfaccia standard copre molte impostazioni importanti, ma il controllo pre-volo più sicuro resta il YAML avanzato.

Controlla prima:

train:
  batch_size: 1
  gradient_checkpointing: true
  disable_sampling: false

model:
  low_vram: false

sample:
  width: 1024
  height: 1024
  sample_steps: 25
  guidance_scale: 4
  num_frames: 1

datasets:
  - resolution: [512, 768, 1024]
    num_frames: 1

Per un primo addestramento più sicuro, i valori più comunemente ridotti:

  • batch_size
  • resolution
  • num_frames
  • sample.width
  • sample.height
  • sample.sample_steps

E ciò che più comunemente deve restare attivato:

  • gradient_checkpointing: true

6) Combinazioni "non partire da qui"

Queste sono esattamente le scelte di primo addestramento che creano OOM evitabili:

Combo rischioso Perché è rischioso
Gradient Checkpointing = disattivato su grandi modelli di immagini modo facile per perdere margine VRAM immediatamente
Modello tipo FLUX + Batch Size 8+ primo addestramento ad alto rischio, specialmente con bucket più ricchi
Wan 2.2 + 81 frame + Batch Size 2 territorio classico di picco memoria video
LTX-2 + 121 frame + Batch Size 4 combinazione estremamente pesante per un primo addestramento
anteprime 1024 costose a intervalli brevi OOM di anteprima anche se l'addestramento quasi ci sta
aggiungere più cambiamenti rischiosi contemporaneamente non saprai cosa ha realmente causato il fallimento

7) Una ricetta molto pratica per il primo addestramento

Se vuoi una sola regola:

Per modelli di immagini

  1. Batch Size = 1
  2. gradient_checkpointing: true
  3. solo i bucket piccoli / medi per primo
  4. anteprima economica o nessuna anteprima
  5. dimostrare che il job gira

Per modelli video

  1. Batch Size = 1
  2. Num Frames conservativi
  3. 512 per primo
  4. anteprima economica
  5. dimostrare che il job gira

Questo è il percorso più rapido verso un vero addestramento riuscito.


8) Quando scalare

Scala solo dopo un addestramento stabile.

Buon ordine:

  1. mantenere le stesse impostazioni di memoria
  2. aumentare gli Steps
  3. migliorare la qualità delle anteprime
  4. aggiungere un bucket più grande
  5. aggiungere più frame (video)
  6. solo allora testare un batch più grande

Una variabile alla volta.


9) Se il job fa comunque OOM

Vai direttamente alla guida di correzione:

Quella pagina è per job che sono già falliti.

Questa pagina è per evitare il fallimento fin dall'inizio.


Riepilogo in una riga

Il miglior preset di primo addestramento per AI Toolkit è quello leggermente conservativo, chiaramente stabile e facile da scalare successivamente.

Parti sicuro.

Ottieni un addestramento riuscito.

Poi ottimizza.


Guide correlate

Pronto per iniziare l'addestramento?