AI Toolkit LoRA 训练指南

AI Toolkit LoRA 续训:预设 Steps 后如何继续

快速指南:在 AI Toolkit 中续训 LoRA——编辑已停止的 job,将 Steps 改为新的最终总量(不是额外步数),从最后的 checkpoint 继续训练。

使用 Ostris AI Toolkit 训练扩散模型

如何在 AI Toolkit 的 job 跑到预设 Steps 后继续训练(续训同一个 LoRA)

1) “这是你遇到的问题吗?”

你设置了 Steps = 2000,开始训练,job 在跑到 step 2000自动停止

检查 samples / inference 之后,你想 继续训练,但你 不想从头开始训练一个全新的 LoRA,而是想 从现有的 job/checkpoint 继续

如果你正是这样,这篇指南就是给你的。


2) 发生了什么

在 AI Toolkit 里,Steps = 这个 job 的总训练步数

所以当你设置 Steps = 2000 时,trainer 会严格按你的设定执行:

  • 训练到 step 2000
  • 然后停止

想继续训练 同一个 LoRA,你不需要创建新 job。你只需要 编辑现有 job,把 最终总 Steps 调大,然后再跑一次。trainer 会 从最后一次保存的 checkpoint 恢复 并继续训练。


3) 如何续训(一步一步来)

Step A — 打开你想继续的 job

  1. 进入 Training Queue(或 job list)
  2. 找到已完成的 job(那个在 2000 steps 停止的)
  3. 点击该 job 的 Edit,打开 job 编辑器

训练 job 的 Edit 按钮

Step B — 增加总 Steps

  1. 滚动到 Training 区域
  2. 找到 Steps
  3. 把它改成你新的 最终总步数

在训练 job 中更新 Steps

重要: 这里填的是 最终总量,不是“额外增加的步数”。

例如:

  • 你已经训练到 2000
  • 你想再训练 1000
  • 需要设置 Steps = 3000(不是 1000)

Step C — 保存并重新开始

  1. 点击 Update Job
  2. 点击 Start Training

✅ 这样 job 就应该会 从上一次训练继续,使用最后的 checkpoint,并一直训练到新的 Steps 值。


4) 如果没有续上(快速排查)

如果它从 step 0 重新开始,或者拒绝继续,检查这些点:

  • 接近末尾是否有 checkpoint 保存?

    查看 job outputs / 保存文件。如果 job 从来没有保存过 checkpoint,就无法续训。

  • 你是否保留了 checkpoints?

    如果你的 “Max Step Saves to Keep” 较低,旧的保存可能被清理了;请确认最新的 checkpoint 仍然存在。

  • 你是否改了 Steps 以外的内容?

    为了干净地续训,请保持相同的数据集和训练设置,只改 Steps


5) 一句话修复总结

想在跑到预设 Steps 后继续训练同一个 LoRA:

Edit 已完成的 job → 把 Steps 调到新的最终总量 → Update Job → Start Training。

准备好开始训练了吗?