Comment éviter les OOM dans AI Toolkit : réglages sûrs pour un premier entraînement réussi
Cette page n'est pas la configuration « vitesse maximale ».
C'est la configuration pour le premier entraînement réussi.
Si votre objectif est d'arrêter de gaspiller des tentatives, de réduire les OOM et d'arriver plus vite à un entraînement fonctionnel, commencez ici.
La règle est simple :
D'abord prouver la stabilité. Ensuite optimiser la vitesse.
À quoi sert ce guide
Utilisez cette page si :
- vous êtes sur le point de créer un nouveau job AI Toolkit
- vous voulez des réglages de départ plus sûrs
- vous préférez un premier entraînement stable plutôt que des heures de débogage OOM
- vous cherchez une checklist pratique « ne pas commencer avec des réglages dangereux »
Si vous voyez déjà l'erreur CUDA out of memory, allez directement à :
Checklist OOM pré-vol en 60 secondes
Avant de cliquer sur Create Job :
- ✅ Gardez le Batch Size conservateur
- ✅ Dans Datasets, commencez avec des Résolutions conservatrices
- ✅ Dans Sample, gardez la prévisualisation moins coûteuse que votre ambition finale
- ✅ Cliquez sur Show Advanced et vérifiez que
gradient_checkpointing: true - ✅ Pour la vidéo, commencez avec un Num Frames conservateur
- ✅ N'utilisez les fonctionnalités basse mémoire spécifiques au modèle que si le guide du modèle le recommande
- ✅ N'essayez pas plusieurs changements risqués lors du premier entraînement
RunComfy aide également au niveau produit. Lorsque vous sauvegardez un job, RunComfy vérifie si vos réglages incluent des combinaisons à haut risque — par exemple, batch size excessif, frames, résolution, ou désactivation prématurée des paramètres d'économie de mémoire. L'objectif est de détecter les configurations risquées avant qu'elles ne consomment du temps GPU et du budget.
Cela ne remplace pas le jugement spécifique au modèle, mais offre un point de départ plus sûr.
1) Le changement de mentalité le plus important
La plupart des premiers entraînements ratés ne le sont pas à cause d'un « mauvais learning rate ».
Ils échouent à cause de :
- trop de résolution
- trop de frames
- trop de batch
- un échantillonnage de prévisualisation trop coûteux
- la désactivation prématurée des paramètres d'économie de mémoire
Votre premier entraînement réussi devrait donc être intentionnellement ennuyeux.
C'est une bonne chose.
2) Réglages de départ sûrs pour les modèles d'images
FLUX-dev / grands modèles type Flex
Bon premier entraînement
- Batch Size :
1 - Gradient Checkpointing :
Activé - Datasets > Resolutions : commencer avec
512 + 768 - ajouter
1024uniquement après stabilité - Sample : garder la prévisualisation modérée ou désactiver temporairement l'échantillonnage
Ne pas commencer ici
- GC désactivé
- Batch Size ≥ 8
- configuration multi-bucket haute résolution agressive au premier entraînement
- prévisualisations lourdes et fréquentes
Z-Image
Bon premier entraînement
- Batch Size : conservateur d'abord
- Gradient Checkpointing :
Activé - Resolutions :
768 + 1024est un premier objectif plus sûr que de sauter directement au plus grand bucket - garder les prévisualisations raisonnables
Ne pas commencer ici
- GC désactivé avec batch important
- commencer directement avec le plus grand bucket
- mélanger batch élevé et haute résolution avant d'avoir prouvé la stabilité
Qwen Image Edit
Bon premier entraînement
- Batch Size :
1 - Gradient Checkpointing :
Activé - commencer avec un mix de buckets plus petit ou simple
- contrôler le coût des prévisualisations
- utiliser le chemin basse mémoire du modèle si le guide le recommande
Ne pas commencer ici
- GC désactivé
- batch important au premier entraînement
- prévisualisations 1024 coûteuses + conditionnement lourd + génération fréquente d'échantillons
- expériences aléatoires sur le text-encoder avant que le pipeline de base soit stable
3) Réglages de départ sûrs pour les modèles vidéo
Wan 2.2 14B
Bon premier entraînement
- Batch Size :
1 - Datasets > Num Frames :
21ou41 - Datasets > Resolutions : commencer avec
512 - ajouter
768uniquement après un entraînement stable - garder les vidéos de prévisualisation conservatrices
Ne pas commencer ici
- 81 frames + Batch Size 2
- longues vidéos de prévisualisation pendant l'entraînement
- grands buckets + clips longs avant d'avoir prouvé la stabilité
LTX-2
Bon premier entraînement
- Batch Size :
1 - Num Frames :
49ou81 - Resolution :
512 - garder le coût des prévisualisations sous contrôle
Ne pas commencer ici
- 121 frames + Batch Size 4
- buckets plus grands avant un entraînement stable prouvé
- supposer que les habitudes de batch des modèles d'images s'appliquent à la vidéo
4) Réglages de prévisualisation plus sûrs que la plupart des utilisateurs
Beaucoup d'« OOM d'entraînement » sont en réalité des OOM de prévisualisation.
Pour votre premier entraînement, utilisez un échantillonnage moins cher que ce que vous pensez nécessaire.
Dans le panneau Sample
Préférez :
- Width / Height plus bas
- Sample Steps plus bas
- Sample Every moins fréquent
- Disable Sampling activé si votre seul objectif est de prouver la stabilité
Une fois l'entraînement stable, vous pourrez enrichir les prévisualisations.
5) Ce qu'il faut vérifier dans Show Advanced
L'interface standard couvre beaucoup de réglages importants, mais la vérification la plus sûre reste le YAML avancé.
Vérifiez d'abord :
train:
batch_size: 1
gradient_checkpointing: true
disable_sampling: false
model:
low_vram: false
sample:
width: 1024
height: 1024
sample_steps: 25
guidance_scale: 4
num_frames: 1
datasets:
- resolution: [512, 768, 1024]
num_frames: 1
Pour un premier entraînement plus sûr, les valeurs le plus souvent réduites :
batch_sizeresolutionnum_framessample.widthsample.heightsample.sample_steps
Et ce qui doit le plus souvent rester activé :
gradient_checkpointing: true
6) Combinaisons « ne pas commencer ici »
Ce sont exactement les choix de premier entraînement qui créent des OOM évitables :
| Combo risqué | Pourquoi c'est risqué |
|---|---|
| Gradient Checkpointing = désactivé sur les grands modèles d'images | moyen facile de perdre la marge VRAM immédiatement |
| Modèle type FLUX + Batch Size 8+ | premier entraînement à haut risque, surtout avec des buckets riches |
| Wan 2.2 + 81 frames + Batch Size 2 | territoire classique de pic mémoire vidéo |
| LTX-2 + 121 frames + Batch Size 4 | combinaison extrêmement lourde pour un premier entraînement |
| prévisualisations 1024 coûteuses à intervalles courts | OOM de prévisualisation même si l'entraînement rentre presque |
| ajouter plusieurs changements risqués à la fois | vous ne saurez pas ce qui a réellement causé l'échec |
7) Une recette très pratique pour le premier entraînement
Si vous ne voulez qu'une seule règle :
Pour les modèles d'images
- Batch Size = 1
gradient_checkpointing: true- uniquement les petits / moyens buckets d'abord
- prévisualisation économique ou pas de prévisualisation
- prouver que le job tourne
Pour les modèles vidéo
- Batch Size = 1
- Num Frames conservateur
512d'abord- prévisualisation économique
- prouver que le job tourne
C'est le chemin le plus rapide vers un vrai entraînement réussi.
8) Quand monter en charge
Ne montez en charge qu'après un entraînement stable.
Bon ordre :
- garder les mêmes réglages mémoire
- augmenter les Steps
- améliorer la qualité des prévisualisations
- ajouter un bucket plus grand
- ajouter plus de frames (vidéo)
- seulement ensuite tester un batch plus grand
Une variable à la fois.
9) Si votre job fait quand même OOM
Allez directement au guide de correction :
Cette page-là est pour les jobs qui ont déjà échoué.
Cette page-ci est pour éviter l'échec dès le départ.
Résumé en une ligne
Le meilleur preset de premier entraînement pour AI Toolkit est celui qui est légèrement conservateur, clairement stable et facile à monter en charge ensuite.
Commencez prudemment.
Obtenez un entraînement réussi.
Ensuite optimisez.
Guides associés
Prêt à commencer l'entraînement ?
