Как продолжить обучение после того, как ваш job в AI Toolkit достиг заданных Steps (возобновить ту же LoRA)
1) «Это мой случай?»
Вы выставили Steps = 2000, запустили обучение, и job автоматически остановился, как только дошёл до шага 2000.
После проверки samples / инференса вы хотите обучить ещё, но вы не хотите начинать новую LoRA с нуля — вы хотите продолжить с существующего job/checkpoint.
Если это про вас — этот гайд для вас.
2) Что происходит
В AI Toolkit Steps = общее количество шагов обучения для job.
Поэтому, когда вы ставите Steps = 2000, trainer делает ровно то, что вы попросили:
- обучается до шага 2000
- затем останавливается
Чтобы продолжить обучение той же LoRA, не создавайте новый job. Нужно отредактировать существующий job и увеличить финальное общее значение Steps, затем запустить его снова. Trainer возобновит обучение с последнего сохранённого checkpoint и продолжит дальше.
3) Как возобновить обучение (пошагово)
Step A — Откройте job, который хотите продолжить
- Перейдите в Training Queue (или список job’ов)
- Найдите завершённый job (тот, который остановился на 2000 steps)
- Нажмите Edit у этого job, чтобы открыть редактор

Step B — Увеличьте общий Steps
- Прокрутите до секции Training
- Найдите Steps
- Измените на новое финальное общее количество шагов

Важно: это число — финальный итог, а не «добавочные steps».
Пример:
- Вы обучили до 2000
- Хотите ещё 1000
- Ставьте Steps = 3000 (а не 1000)
Step C — Сохраните и перезапустите
- Нажмите Update Job
- Нажмите Start Training
✅ Теперь job должен продолжить с предыдущего запуска, используя последний checkpoint, и обучаться до нового значения Steps.
4) Если не возобновляется (быстрые проверки)
Если он стартует заново с шага 0 или отказывается продолжать, проверьте следующее:
- Есть ли checkpoint, сохранённый ближе к концу?
Проверьте outputs / сохранённые файлы job’а. Если job ни разу не сохранил checkpoint, возобновить обучение нельзя.
- Вы сохранили checkpoints?
Если “Max Step Saves to Keep” маленький и старые сохранения были удалены, убедитесь, что самый свежий checkpoint всё ещё существует.
- Вы меняли что-то кроме Steps?
Чтобы возобновление прошло «чисто», оставьте тот же dataset и те же настройки обучения. Меняйте только Steps.
5) Короткое резюме в одну строку
Чтобы продолжить обучение той же LoRA после остановки на заданных Steps:
Edit завершённый job → увеличьте Steps до нового финального итога → Update Job → Start Training.
Ready to start training?
