Cómo continuar el entrenamiento después de que tu job de AI Toolkit alcance los Steps predefinidos (reanudar la misma LoRA)
1) “¿Es mi caso?”
Configuraste Steps = 2000, empezaste a entrenar y el job se detuvo automáticamente cuando llegó al step 2000.
Después de revisar samples / inferencia, quieres seguir entrenando, pero no quieres empezar una LoRA nueva desde cero: quieres continuar desde el job/checkpoint existente.
Si ese es tu caso, esta guía es para ti.
2) Qué está pasando
En AI Toolkit, Steps = el número total de steps de entrenamiento del job.
Así que cuando pones Steps = 2000, el trainer hizo exactamente lo que le pediste:
- entrenar hasta el step 2000
- y luego parar
Para seguir entrenando la misma LoRA, no creas un job nuevo: edita el job existente y aumenta el total final de Steps, luego vuelve a ejecutarlo. El trainer reanuda desde el último checkpoint guardado y continúa.
3) Cómo reanudar el entrenamiento (paso a paso)
Step A — Abre el job que quieres continuar
- Ve a tu Training Queue (o lista de jobs)
- Encuentra el job finalizado (el que se detuvo en 2000 steps)
- Haz clic en Edit en ese job para abrir el editor del job

Step B — Aumenta el total de Steps
- Desplázate hasta la sección Training
- Encuentra Steps
- Cámbialo a tu nuevo conteo total final de steps

Importante: Este número es el total final, no “steps extra”.
Ejemplo:
- Entrenaste hasta 2000
- Quieres 1000 más
- Pon Steps = 3000 (no 1000)
Step C — Guarda y reinicia
- Haz clic en Update Job
- Haz clic en Start Training
✅ Ahora el job debería continuar desde la ejecución anterior, usando el último checkpoint, y entrenar hasta el nuevo valor de Steps.
4) Si no reanuda (checks rápidos)
Si vuelve a empezar desde el step 0 o se niega a continuar, revisa esto:
- ¿Tienes un checkpoint guardado cerca del final?
Mira los outputs / archivos guardados del job. Si tu job nunca guardó un checkpoint, no puede reanudar.
- ¿Conservaste checkpoints?
Si tu “Max Step Saves to Keep” es bajo y se eliminaron saves antiguos, asegúrate de que el checkpoint más reciente todavía exista.
- ¿Cambiaste algo más que Steps?
Para reanudar “limpio”, mantén el mismo dataset y los mismos ajustes de entrenamiento. Cambia solo Steps.
5) Resumen en una línea
Para seguir entrenando la misma LoRA después de que se detenga en los Steps predefinidos:
Edita el job finalizado → aumenta Steps al nuevo total final → Update Job → Start Training.
¿Listo para comenzar el entrenamiento?
