Come evitare OOM in AI Toolkit: impostazioni sicure per il primo addestramento riuscito
Questa pagina non è la configurazione per "velocità massima".
È la configurazione per il primo addestramento riuscito.
Se il tuo obiettivo è smettere di sprecare tentativi, ridurre gli OOM e arrivare più rapidamente a un addestramento funzionante, parti da qui.
La regola è semplice:
Prima dimostra la stabilità. Poi ottimizza la velocità.
A cosa serve questa guida
Usa questa pagina se:
- stai per creare un nuovo job in AI Toolkit
- vuoi impostazioni iniziali più sicure
- preferisci un primo addestramento stabile piuttosto che ore di debug OOM
- cerchi una checklist pratica "non partire con impostazioni pericolose"
Se già vedi l'errore CUDA out of memory, vai a:
Checklist OOM pre-volo in 60 secondi
Prima di cliccare su Create Job:
- ✅ Mantieni il Batch Size conservativo
- ✅ In Datasets, inizia con Risoluzioni conservative
- ✅ In Sample, mantieni l'anteprima più economica della tua ambizione finale
- ✅ Clicca su Show Advanced e assicurati che
gradient_checkpointing: true - ✅ Per il video, inizia con Num Frames conservativi
- ✅ Usa le funzionalità di bassa memoria specifiche del modello solo se la guida lo raccomanda
- ✅ Non provare più cambiamenti rischiosi nel primo addestramento
RunComfy aiuta anche a livello di prodotto. Quando salvi un job, RunComfy verifica se le tue impostazioni includono combinazioni ad alto rischio — ad esempio batch size eccessivo, frames, risoluzione, o disattivazione prematura dei valori predefiniti di risparmio memoria. L'obiettivo è individuare configurazioni rischiose prima che consumino tempo GPU e budget.
Questo non sostituisce il giudizio specifico del modello, ma offre un punto di partenza più sicuro.
1) Il cambio di mentalità più importante
La maggior parte dei primi addestramenti falliti non fallisce per un "cattivo learning rate".
Falliscono per:
- troppa risoluzione
- troppi frame
- troppo batch
- campionamento dell'anteprima troppo costoso
- disattivazione prematura dei valori predefiniti di risparmio memoria
Il tuo primo addestramento riuscito dovrebbe quindi apparire intenzionalmente noioso.
Questo è un bene.
2) Impostazioni di partenza sicure per modelli di immagini
FLUX-dev / grandi modelli tipo Flex
Buon primo addestramento
- Batch Size:
1 - Gradient Checkpointing:
Attivato - Datasets > Resolutions: iniziare con
512 + 768 - aggiungere
1024solo dopo la stabilità - Sample: mantenere l'anteprima moderata o disattivare temporaneamente il campionamento
Non partire da qui
- GC disattivato
- Batch Size ≥ 8
- configurazione multi-bucket ad alta risoluzione aggressiva al primo addestramento
- anteprime pesanti e frequenti
Z-Image
Buon primo addestramento
- Batch Size: conservativo per primo
- Gradient Checkpointing:
Attivato - Resolutions:
768 + 1024è un primo obiettivo più sicuro che saltare direttamente al bucket più grande - mantenere le anteprime ragionevoli
Non partire da qui
- GC disattivato con batch grande
- partire direttamente con il bucket più grande
- mescolare batch alto con alta risoluzione prima di dimostrare la stabilità
Qwen Image Edit
Buon primo addestramento
- Batch Size:
1 - Gradient Checkpointing:
Attivato - iniziare con un mix di bucket più piccolo o semplice
- mantenere il costo delle anteprime sotto controllo
- usare il percorso a bassa memoria del modello se la guida lo raccomanda
Non partire da qui
- GC disattivato
- batch grande al primo addestramento
- anteprime 1024 costose più condizionamento pesante più generazione frequente di campioni
- esperimenti casuali con il text-encoder prima che la pipeline base sia stabile
3) Impostazioni di partenza sicure per modelli video
Wan 2.2 14B
Buon primo addestramento
- Batch Size:
1 - Datasets > Num Frames:
21o41 - Datasets > Resolutions: iniziare con
512 - aggiungere
768solo dopo un addestramento stabile - mantenere i video di anteprima conservativi
Non partire da qui
- 81 frame + Batch Size 2
- video di anteprima lunghi durante l'addestramento
- bucket grandi più clip lunghe prima di dimostrare la stabilità
LTX-2
Buon primo addestramento
- Batch Size:
1 - Num Frames:
49o81 - Resolution:
512 - mantenere il costo delle anteprime sotto controllo
Non partire da qui
- 121 frame + Batch Size 4
- bucket più grandi prima di un addestramento stabile comprovato
- presumere che le abitudini di batch dei modelli di immagini si applichino al video
4) Impostazioni di anteprima più sicure di quelle con cui la maggior parte inizia
Molti "OOM di addestramento" sono in realtà OOM di anteprima.
Per il primo addestramento, usa un campionamento più economico di quanto pensi di avere bisogno.
Nel pannello Sample
Preferisci:
- Width / Height più bassi
- Sample Steps più bassi
- Sample Every meno frequente
- Disable Sampling attivato se il tuo unico obiettivo è dimostrare la stabilità
Una volta che l'addestramento è stabile, puoi arricchire nuovamente le anteprime.
5) Cosa verificare in Show Advanced
L'interfaccia standard copre molte impostazioni importanti, ma il controllo pre-volo più sicuro resta il YAML avanzato.
Controlla prima:
train:
batch_size: 1
gradient_checkpointing: true
disable_sampling: false
model:
low_vram: false
sample:
width: 1024
height: 1024
sample_steps: 25
guidance_scale: 4
num_frames: 1
datasets:
- resolution: [512, 768, 1024]
num_frames: 1
Per un primo addestramento più sicuro, i valori più comunemente ridotti:
batch_sizeresolutionnum_framessample.widthsample.heightsample.sample_steps
E ciò che più comunemente deve restare attivato:
gradient_checkpointing: true
6) Combinazioni "non partire da qui"
Queste sono esattamente le scelte di primo addestramento che creano OOM evitabili:
| Combo rischioso | Perché è rischioso |
|---|---|
| Gradient Checkpointing = disattivato su grandi modelli di immagini | modo facile per perdere margine VRAM immediatamente |
| Modello tipo FLUX + Batch Size 8+ | primo addestramento ad alto rischio, specialmente con bucket più ricchi |
| Wan 2.2 + 81 frame + Batch Size 2 | territorio classico di picco memoria video |
| LTX-2 + 121 frame + Batch Size 4 | combinazione estremamente pesante per un primo addestramento |
| anteprime 1024 costose a intervalli brevi | OOM di anteprima anche se l'addestramento quasi ci sta |
| aggiungere più cambiamenti rischiosi contemporaneamente | non saprai cosa ha realmente causato il fallimento |
7) Una ricetta molto pratica per il primo addestramento
Se vuoi una sola regola:
Per modelli di immagini
- Batch Size = 1
gradient_checkpointing: true- solo i bucket piccoli / medi per primo
- anteprima economica o nessuna anteprima
- dimostrare che il job gira
Per modelli video
- Batch Size = 1
- Num Frames conservativi
512per primo- anteprima economica
- dimostrare che il job gira
Questo è il percorso più rapido verso un vero addestramento riuscito.
8) Quando scalare
Scala solo dopo un addestramento stabile.
Buon ordine:
- mantenere le stesse impostazioni di memoria
- aumentare gli Steps
- migliorare la qualità delle anteprime
- aggiungere un bucket più grande
- aggiungere più frame (video)
- solo allora testare un batch più grande
Una variabile alla volta.
9) Se il job fa comunque OOM
Vai direttamente alla guida di correzione:
Quella pagina è per job che sono già falliti.
Questa pagina è per evitare il fallimento fin dall'inizio.
Riepilogo in una riga
Il miglior preset di primo addestramento per AI Toolkit è quello leggermente conservativo, chiaramente stabile e facile da scalare successivamente.
Parti sicuro.
Ottieni un addestramento riuscito.
Poi ottimizza.
Guide correlate
Pronto per iniziare l'addestramento?
