Guías de entrenamiento LoRA con AI Toolkit

Reanudar entrenamiento LoRA en AI Toolkit tras Steps predefinidos

Guía rápida para reanudar el entrenamiento LoRA en AI Toolkit: edita el job detenido, aumenta Steps al total final deseado y reinicia desde el último checkpoint guardado.

Entrena modelos de difusión con Ostris AI Toolkit

Cómo continuar el entrenamiento después de que tu job de AI Toolkit alcance los Steps predefinidos (reanudar la misma LoRA)

1) “¿Es mi caso?”

Configuraste Steps = 2000, empezaste a entrenar y el job se detuvo automáticamente cuando llegó al step 2000.

Después de revisar samples / inferencia, quieres seguir entrenando, pero no quieres empezar una LoRA nueva desde cero: quieres continuar desde el job/checkpoint existente.

Si ese es tu caso, esta guía es para ti.


2) Qué está pasando

En AI Toolkit, Steps = el número total de steps de entrenamiento del job.

Así que cuando pones Steps = 2000, el trainer hizo exactamente lo que le pediste:

  • entrenar hasta el step 2000
  • y luego parar

Para seguir entrenando la misma LoRA, no creas un job nuevo: edita el job existente y aumenta el total final de Steps, luego vuelve a ejecutarlo. El trainer reanuda desde el último checkpoint guardado y continúa.


3) Cómo reanudar el entrenamiento (paso a paso)

Step A — Abre el job que quieres continuar

  1. Ve a tu Training Queue (o lista de jobs)
  2. Encuentra el job finalizado (el que se detuvo en 2000 steps)
  3. Haz clic en Edit en ese job para abrir el editor del job

Botón Edit en el job de entrenamiento

Step B — Aumenta el total de Steps

  1. Desplázate hasta la sección Training
  2. Encuentra Steps
  3. Cámbialo a tu nuevo conteo total final de steps

Actualizar Steps en el job de entrenamiento

Importante: Este número es el total final, no “steps extra”.

Ejemplo:

  • Entrenaste hasta 2000
  • Quieres 1000 más
  • Pon Steps = 3000 (no 1000)

Step C — Guarda y reinicia

  1. Haz clic en Update Job
  2. Haz clic en Start Training

✅ Ahora el job debería continuar desde la ejecución anterior, usando el último checkpoint, y entrenar hasta el nuevo valor de Steps.


4) Si no reanuda (checks rápidos)

Si vuelve a empezar desde el step 0 o se niega a continuar, revisa esto:

  • ¿Tienes un checkpoint guardado cerca del final?

    Mira los outputs / archivos guardados del job. Si tu job nunca guardó un checkpoint, no puede reanudar.

  • ¿Conservaste checkpoints?

    Si tu “Max Step Saves to Keep” es bajo y se eliminaron saves antiguos, asegúrate de que el checkpoint más reciente todavía exista.

  • ¿Cambiaste algo más que Steps?

    Para reanudar “limpio”, mantén el mismo dataset y los mismos ajustes de entrenamiento. Cambia solo Steps.


5) Resumen en una línea

Para seguir entrenando la misma LoRA después de que se detenga en los Steps predefinidos:

Edita el job finalizado → aumenta Steps al nuevo total final → Update Job → Start Training.

¿Listo para comenzar el entrenamiento?