AI Toolkit LoRA Training Guides

Возобновить обучение LoRA в AI Toolkit после заданных Steps

Краткое руководство по возобновлению обучения LoRA в AI Toolkit: отредактируйте завершённый job, увеличьте Steps до нового финального итога и перезапустите с последнего checkpoint.

Train Diffusion Models with Ostris AI Toolkit

Как продолжить обучение после того, как ваш job в AI Toolkit достиг заданных Steps (возобновить ту же LoRA)

1) «Это мой случай?»

Вы выставили Steps = 2000, запустили обучение, и job автоматически остановился, как только дошёл до шага 2000.

После проверки samples / инференса вы хотите обучить ещё, но вы не хотите начинать новую LoRA с нуля — вы хотите продолжить с существующего job/checkpoint.

Если это про вас — этот гайд для вас.


2) Что происходит

В AI Toolkit Steps = общее количество шагов обучения для job.

Поэтому, когда вы ставите Steps = 2000, trainer делает ровно то, что вы попросили:

  • обучается до шага 2000
  • затем останавливается

Чтобы продолжить обучение той же LoRA, не создавайте новый job. Нужно отредактировать существующий job и увеличить финальное общее значение Steps, затем запустить его снова. Trainer возобновит обучение с последнего сохранённого checkpoint и продолжит дальше.


3) Как возобновить обучение (пошагово)

Step A — Откройте job, который хотите продолжить

  1. Перейдите в Training Queue (или список job’ов)
  2. Найдите завершённый job (тот, который остановился на 2000 steps)
  3. Нажмите Edit у этого job, чтобы открыть редактор

Кнопка Edit в training job

Step B — Увеличьте общий Steps

  1. Прокрутите до секции Training
  2. Найдите Steps
  3. Измените на новое финальное общее количество шагов

Обновление Steps в training job

Важно: это число — финальный итог, а не «добавочные steps».

Пример:

  • Вы обучили до 2000
  • Хотите ещё 1000
  • Ставьте Steps = 3000 (а не 1000)

Step C — Сохраните и перезапустите

  1. Нажмите Update Job
  2. Нажмите Start Training

✅ Теперь job должен продолжить с предыдущего запуска, используя последний checkpoint, и обучаться до нового значения Steps.


4) Если не возобновляется (быстрые проверки)

Если он стартует заново с шага 0 или отказывается продолжать, проверьте следующее:

  • Есть ли checkpoint, сохранённый ближе к концу?

    Проверьте outputs / сохранённые файлы job’а. Если job ни разу не сохранил checkpoint, возобновить обучение нельзя.

  • Вы сохранили checkpoints?

    Если “Max Step Saves to Keep” маленький и старые сохранения были удалены, убедитесь, что самый свежий checkpoint всё ещё существует.

  • Вы меняли что-то кроме Steps?

    Чтобы возобновление прошло «чисто», оставьте тот же dataset и те же настройки обучения. Меняйте только Steps.


5) Короткое резюме в одну строку

Чтобы продолжить обучение той же LoRA после остановки на заданных Steps:

Edit завершённый job → увеличьте Steps до нового финального итога → Update Job → Start Training.

Ready to start training?