Guides d'entraînement LoRA AI Toolkit

Corriger les OOM vidéo Wan 2.2 et LTX-2 dans AI Toolkit

Guide pratique pour stabiliser l'entraînement vidéo LoRA Wan 2.2 et LTX-2 dans AI Toolkit en ajustant frames, batch size, résolution et réglages de prévisualisation pour éviter les configurations mémoire limites.

Entraînez des modèles de diffusion avec Ostris AI Toolkit

Wan 2.2 / LTX-2 Guide OOM : Frames, Batch Size et Résolution sûrs dans AI Toolkit

Pour l'entraînement video LoRA, l'OOM n'est généralement pas dû à un seul mauvais réglage.

C'est habituellement la combinaison de :

  • trop de frames
  • un bucket de résolution trop grand
  • un batch trop grand
  • un échantillonnage de prévisualisation trop coûteux

C'est pourquoi l'OOM vidéo semble incohérent : un entraînement fonctionne, le suivant crashe, même si « rien d'important n'a changé. »

Ce guide vous donne un budget mémoire pratique pour Wan 2.2 et LTX-2 dans RunComfy AI Toolkit.


Checklist rapide (commencez ici)

  • Pour Wan 2.2, commencez avec Batch Size = 1 et 21–41 frames
  • Pour LTX-2, commencez avec Batch Size = 1 et 49 ou 81 frames
  • Dans Datasets, réduisez Num Frames avant de toucher au LR
  • Dans Datasets, supprimez le bucket de Resolution le plus élevé en premier
  • Dans Sample, gardez les vidéos de prévisualisation moins chères que votre budget d'entraînement
  • Si le log dit Bus error / out of shared memory, ce n'est pas la même chose que CUDA OOM

1) D'abord : identifiez quel problème mémoire vous avez

CUDA OOM

Ce guide est pour des erreurs comme :

CUDA out of memory

OOM during training step ...

Tried to allocate ...

Crash Shared-memory / DataLoader

Si votre log dit :

Bus error

out of shared memory

DataLoader worker is killed

C'est un problème différent lié à la mémoire partagée (/dev/shm), pas à la VRAM GPU. Voir Fix : DataLoader worker Bus error (/dev/shm) — dépannage


2) Le seul modèle mental dont vous avez vraiment besoin

Pour l'entraînement vidéo, la pression mémoire augmente principalement avec :

frames × résolution × batch size

Si vous augmentez les trois en même temps, vous construisez très probablement un run limite.


3) Wan 2.2 : sûr vs limite vs haut risque

Premier entraînement sûr

  • Batch Size : 1
  • Num Frames : 21 ou 41
  • Resolution : commencer avec 512
  • Garder les vidéos de prévisualisation conservatrices

Limite

  • Batch Size : 1
  • Num Frames : 81
  • Resolution : 480–512

Haut risque

  • Batch Size ≥ 2 avec 81 frames
  • Buckets haute résolution plus clips longs
  • Génération fréquente de prévisualisations lourdes

Ordre de rollback Wan

  1. Réduire Num Frames
  2. Garder Batch Size = 1
  3. Supprimer la Resolution la plus haute
  4. Réduire le coût des prévisualisations

4) LTX-2 : sûr vs limite vs haut risque

Premier entraînement sûr

  • Batch Size : 1
  • Num Frames : 49 ou 81
  • Resolution : 512

Limite

  • Batch Size : 1
  • Num Frames : 121
  • Resolution : 512

Haut risque

  • Batch Size ≥ 4 avec 121 frames
  • Buckets plus grands avant stabilité prouvée
  • Échantillonnage lourd de prévisualisation

Ordre de rollback LTX

  1. Garder Batch Size = 1
  2. Réduire Num Frames (121 → 81 → 49)
  3. Réduire Resolution
  4. Rendre la prévisualisation moins chère

5) Pourquoi la même config fonctionne parfois et fait OOM parfois

Raisons courantes :

  • Pics de bucket (le plus grand bucket pousse la VRAM au-delà de la limite)
  • Pics de prévisualisation (l'entraînement tient, la prévisualisation le fait déborder)
  • État mémoire limite

Une config qui « fonctionne parfois » doit être traitée comme instable.


Résumé en une ligne

Pour Wan 2.2 et LTX-2, l'OOM vidéo est généralement un problème de frames × résolution × batch.

Commencez conservateur, prouvez la stabilité, puis montez en charge.

Prêt à commencer l'entraînement ?