AI Toolkit LoRA Training Guides

Ajustes seguros de inicio en AI Toolkit para evitar OOM

Guía de preflight para trabajos de AI Toolkit: revisa batch size, resoluciones, frames, gradient checkpointing y muestreo de vista previa antes de crear un trabajo, para que tu primera ejecución tenga más probabilidades de éxito.

Train Diffusion Models with Ostris AI Toolkit

Cómo evitar OOM en AI Toolkit: ajustes seguros para un primer entrenamiento exitoso

Esta página no es la configuración de "máxima velocidad".

Es la configuración para el primer entrenamiento exitoso.

Si quieres dejar de perder reintentos, reducir OOMs y llegar a un entrenamiento funcional más rápido, empieza aquí.

La regla es sencilla:

Primero demuestra estabilidad. Después optimiza la velocidad.

Para qué sirve esta guía

Usa esta página si:

  • estás a punto de crear un nuevo trabajo en AI Toolkit
  • quieres ajustes iniciales más seguros
  • prefieres un primer entrenamiento estable a pasar horas depurando OOM
  • necesitas una lista práctica de "no empieces con configuraciones peligrosas"

Si ya estás viendo el error CUDA out of memory, ve a:


Checklist de preflight OOM en 60 segundos

Antes de hacer clic en Create Job:

  • ✅ Mantén el Batch Size conservador
  • ✅ En Datasets, empieza con Resoluciones conservadoras
  • ✅ En Sample, mantén la vista previa más económica que tu ambición final
  • ✅ Haz clic en Show Advanced y asegúrate de que gradient_checkpointing: true
  • ✅ Para vídeo, empieza con Num Frames conservador
  • ✅ Usa características de baja memoria específicas del modelo solo si la guía lo recomienda
  • No intentes múltiples cambios arriesgados en tu primer entrenamiento

RunComfy también ayuda a nivel de producto. Al guardar un trabajo, RunComfy comprueba si tus ajustes incluyen combinaciones de alto riesgo — por ejemplo, batch size excesivo, frames, resolución o desactivar demasiado pronto los valores por defecto de ahorro de memoria. El objetivo es detectar configuraciones arriesgadas antes de que consuman tiempo de GPU y presupuesto.

Esto no sustituye el criterio específico del modelo, pero te da un punto de partida más seguro.


1) El cambio de mentalidad más importante

La mayoría de los primeros entrenamientos fallidos no fallan por una "mala learning rate".

Fallan por:

  • demasiada resolución
  • demasiados frames
  • demasiado batch
  • muestreo de vista previa demasiado caro
  • desactivar demasiado pronto los valores por defecto de ahorro de memoria

Tu primer entrenamiento exitoso debería verse intencionalmente aburrido.

Eso es bueno.


2) Ajustes iniciales seguros para modelos de imagen

FLUX-dev / modelos grandes tipo Flex

Buen primer entrenamiento

  • Batch Size: 1
  • Gradient Checkpointing: Activado
  • Datasets > Resolutions: empezar con 512 + 768
  • añadir 1024 solo tras confirmar estabilidad
  • Sample: mantener vista previa moderada o desactivar temporalmente el muestreo

No empieces aquí

  • GC desactivado
  • Batch Size ≥ 8
  • configuración agresiva multi-bucket de alta resolución en el primer entrenamiento
  • vistas previas pesadas cada poco tiempo

Z-Image

Buen primer entrenamiento

  • Batch Size: conservador primero
  • Gradient Checkpointing: Activado
  • Resolutions: 768 + 1024 es un primer objetivo más seguro que saltar directamente al bucket más grande
  • mantener vistas previas razonables

No empieces aquí

  • GC desactivado con batch grande
  • empezar directamente con el bucket más grande
  • mezclar batch alto con alta resolución antes de demostrar estabilidad

Qwen Image Edit

Buen primer entrenamiento

  • Batch Size: 1
  • Gradient Checkpointing: Activado
  • empezar con un mix de buckets más pequeño o simple
  • mantener el coste de vista previa controlado
  • usar la ruta de baja memoria del modelo si la guía lo recomienda

No empieces aquí

  • GC desactivado
  • batch grande en el primer entrenamiento
  • vistas previas caras a 1024 más condicionamiento pesado más generación frecuente de muestras
  • experimentos aleatorios con el text-encoder antes de que la pipeline básica sea estable

3) Ajustes iniciales seguros para modelos de vídeo

Wan 2.2 14B

Buen primer entrenamiento

  • Batch Size: 1
  • Datasets > Num Frames: 21 o 41
  • Datasets > Resolutions: empezar con 512
  • añadir 768 solo tras un entrenamiento estable
  • mantener vídeos de vista previa conservadores

No empieces aquí

  • 81 frames + Batch Size 2
  • vídeos de vista previa largos durante el entrenamiento
  • buckets grandes más clips largos antes de demostrar estabilidad

LTX-2

Buen primer entrenamiento

  • Batch Size: 1
  • Num Frames: 49 o 81
  • Resolution: 512
  • mantener el coste de vista previa bajo control

No empieces aquí

  • 121 frames + Batch Size 4
  • buckets más grandes antes de un entrenamiento estable comprobado
  • asumir que los hábitos de batch de modelos de imagen se aplican a vídeo

4) Ajustes de vista previa más seguros de lo que la mayoría empieza

Muchos "OOM de entrenamiento" son en realidad OOM de vista previa.

Para tu primer entrenamiento, usa un muestreo más económico de lo que crees necesitar.

En el panel Sample

Prefiere:

  • Width / Height más bajos
  • Sample Steps más bajos
  • Sample Every menos frecuente
  • Disable Sampling activado si tu único objetivo es demostrar estabilidad

Una vez que el entrenamiento sea estable, puedes volver a enriquecer las vistas previas.


5) Qué verificar en Show Advanced

La UI estándar cubre muchos ajustes importantes, pero tu comprobación más segura sigue siendo el YAML avanzado.

Busca primero:

train:
  batch_size: 1
  gradient_checkpointing: true
  disable_sampling: false

model:
  low_vram: false

sample:
  width: 1024
  height: 1024
  sample_steps: 25
  guidance_scale: 4
  num_frames: 1

datasets:
  - resolution: [512, 768, 1024]
    num_frames: 1

Para un primer entrenamiento más seguro, lo que más comúnmente se reduce:

  • batch_size
  • resolution
  • num_frames
  • sample.width
  • sample.height
  • sample.sample_steps

Y lo que más comúnmente debe seguir activado:

  • gradient_checkpointing: true

6) Combinaciones "no empieces aquí"

Estas son exactamente las elecciones de primer entrenamiento que generan OOMs evitables:

Combo arriesgado Por qué es arriesgado
Gradient Checkpointing = desactivado en modelos de imagen grandes forma fácil de perder margen de VRAM inmediatamente
Modelo tipo FLUX + Batch Size 8+ primer entrenamiento de alto riesgo, especialmente con buckets más ricos
Wan 2.2 + 81 frames + Batch Size 2 territorio clásico de pico de memoria de vídeo
LTX-2 + 121 frames + Batch Size 4 combinación extremadamente pesada para un primer entrenamiento
vistas previas caras a 1024 cada poco tiempo OOM de vista previa incluso si el entrenamiento casi cabe
añadir múltiples cambios arriesgados a la vez no sabrás qué causó realmente el fallo

7) Una receta muy práctica para el primer entrenamiento

Si solo quieres una regla:

Para modelos de imagen

  1. Batch Size = 1
  2. gradient_checkpointing: true
  3. solo los buckets pequeños / medianos primero
  4. vista previa económica o sin vista previa
  5. demostrar que el trabajo se ejecuta

Para modelos de vídeo

  1. Batch Size = 1
  2. Num Frames conservador
  3. 512 primero
  4. vista previa económica
  5. demostrar que el trabajo se ejecuta

Ese es el camino más rápido a un entrenamiento exitoso real.


8) Cuándo escalar

Solo escala después de un entrenamiento estable.

Buen orden:

  1. mantener los mismos ajustes de memoria
  2. aumentar Steps
  3. mejorar calidad de vista previa
  4. añadir un bucket más grande
  5. añadir más frames (vídeo)
  6. solo entonces probar un batch más grande

Una variable a la vez.


9) Si tu trabajo sigue dando OOM de todos modos

Ve directamente a la guía de corrección en tiempo de ejecución:

Esa página es para trabajos que ya han fallado.

Esta página es para evitar el fallo en primer lugar.


Resumen en una línea

El mejor preset de primer entrenamiento en AI Toolkit es uno ligeramente conservador, claramente estable y fácil de escalar después.

Empieza seguro.

Consigue un entrenamiento exitoso.

Después optimiza.


Guías relacionadas

Ready to start training?