AI Toolkit LoRA Training Guides

Solucionar OOM de vídeo Wan 2.2 y LTX-2 en AI Toolkit

Guía práctica para estabilizar el entrenamiento de video LoRA con Wan 2.2 y LTX-2 en AI Toolkit ajustando frames, batch size, resolución y configuración de vista previa para evitar configuraciones de memoria límite.

Train Diffusion Models with Ostris AI Toolkit

Wan 2.2 / LTX-2 Guía OOM: Frames, Batch Size y Resolución seguros en AI Toolkit

Para el entrenamiento de video LoRA, el OOM normalmente no se debe a un solo ajuste malo.

Suele ser la combinación de:

  • demasiados frames
  • un bucket de resolución demasiado grande
  • un batch demasiado grande
  • un muestreo de vista previa demasiado caro

Por eso el OOM de video parece inconsistente: un entrenamiento funciona, el siguiente falla, aunque "no cambió nada importante."

Esta guía te da un presupuesto de memoria práctico para Wan 2.2 y LTX-2 en RunComfy AI Toolkit.


Checklist rápido (empieza aquí)

  • Para Wan 2.2, empieza con Batch Size = 1 y 21–41 frames
  • Para LTX-2, empieza con Batch Size = 1 y 49 u 81 frames
  • En Datasets, reduce Num Frames antes de tocar el LR
  • En Datasets, elimina el bucket de Resolution más alto primero
  • En Sample, mantén los videos de vista previa más baratos que tu presupuesto de entrenamiento
  • Si el log dice Bus error / out of shared memory, eso no es lo mismo que CUDA OOM

1) Primero: identifica qué problema de memoria tienes

CUDA OOM

Esta guía es para errores como:

CUDA out of memory

OOM during training step ...

Tried to allocate ...

Crash de Shared-memory / DataLoader

Si tu log dice:

Bus error

out of shared memory

DataLoader worker is killed

Es un problema diferente relacionado con la memoria compartida (/dev/shm), no con la VRAM de GPU. Consulta Fix: DataLoader worker Bus error (/dev/shm) — solución


2) El único modelo mental que realmente necesitas

Para el entrenamiento de video, la presión de memoria aumenta principalmente con:

frames × resolución × batch size

Si aumentas las tres a la vez, probablemente estás construyendo un entrenamiento al límite.


3) Wan 2.2: seguro vs límite vs alto riesgo

Primer entrenamiento seguro

  • Batch Size: 1
  • Num Frames: 21 o 41
  • Resolution: empezar con 512
  • Mantener videos de vista previa conservadores

Límite

  • Batch Size: 1
  • Num Frames: 81
  • Resolution: 480–512

Alto riesgo

  • Batch Size ≥ 2 con 81 frames
  • Buckets de alta resolución más clips largos
  • Generación frecuente de vistas previas pesadas

Orden de rollback de Wan

  1. Reducir Num Frames
  2. Mantener Batch Size = 1
  3. Eliminar la Resolution más alta
  4. Reducir coste de vista previa

4) LTX-2: seguro vs límite vs alto riesgo

Primer entrenamiento seguro

  • Batch Size: 1
  • Num Frames: 49 u 81
  • Resolution: 512

Límite

  • Batch Size: 1
  • Num Frames: 121
  • Resolution: 512

Alto riesgo

  • Batch Size ≥ 4 con 121 frames
  • Buckets más grandes antes de probar estabilidad
  • Muestreo pesado de vista previa

Orden de rollback de LTX

  1. Mantener Batch Size = 1
  2. Reducir Num Frames (121 → 81 → 49)
  3. Reducir Resolution
  4. Hacer la vista previa más barata

5) Por qué la misma config a veces funciona y a veces da OOM

Razones comunes:

  • Picos de bucket (el bucket más grande lleva la VRAM al límite)
  • Picos de vista previa (el entrenamiento cabe, la vista previa lo empuja al límite)
  • Estado de memoria al límite

Una config que "a veces funciona" debe tratarse como inestable.


Resumen en una línea

Para Wan 2.2 y LTX-2, el OOM de video suele ser un problema de frames × resolución × batch.

Empieza conservador, prueba estabilidad, luego escala.

Ready to start training?