如何在 AI Toolkit 的 job 跑到预设 Steps 后继续训练(续训同一个 LoRA)
1) “这是你遇到的问题吗?”
你设置了 Steps = 2000,开始训练,job 在跑到 step 2000 时 自动停止。
检查 samples / inference 之后,你想 继续训练,但你 不想从头开始训练一个全新的 LoRA,而是想 从现有的 job/checkpoint 继续。
如果你正是这样,这篇指南就是给你的。
2) 发生了什么
在 AI Toolkit 里,Steps = 这个 job 的总训练步数。
所以当你设置 Steps = 2000 时,trainer 会严格按你的设定执行:
- 训练到 step 2000
- 然后停止
想继续训练 同一个 LoRA,你不需要创建新 job。你只需要 编辑现有 job,把 最终总 Steps 调大,然后再跑一次。trainer 会 从最后一次保存的 checkpoint 恢复 并继续训练。
3) 如何续训(一步一步来)
Step A — 打开你想继续的 job
- 进入 Training Queue(或 job list)
- 找到已完成的 job(那个在 2000 steps 停止的)
- 点击该 job 的 Edit,打开 job 编辑器

Step B — 增加总 Steps
- 滚动到 Training 区域
- 找到 Steps
- 把它改成你新的 最终总步数

重要: 这里填的是 最终总量,不是“额外增加的步数”。
例如:
- 你已经训练到 2000
- 你想再训练 1000
- 需要设置 Steps = 3000(不是 1000)
Step C — 保存并重新开始
- 点击 Update Job
- 点击 Start Training
✅ 这样 job 就应该会 从上一次训练继续,使用最后的 checkpoint,并一直训练到新的 Steps 值。
4) 如果没有续上(快速排查)
如果它从 step 0 重新开始,或者拒绝继续,检查这些点:
- 接近末尾是否有 checkpoint 保存?
查看 job outputs / 保存文件。如果 job 从来没有保存过 checkpoint,就无法续训。
- 你是否保留了 checkpoints?
如果你的 “Max Step Saves to Keep” 较低,旧的保存可能被清理了;请确认最新的 checkpoint 仍然存在。
- 你是否改了 Steps 以外的内容?
为了干净地续训,请保持相同的数据集和训练设置,只改 Steps。
5) 一句话修复总结
想在跑到预设 Steps 后继续训练同一个 LoRA:
Edit 已完成的 job → 把 Steps 调到新的最终总量 → Update Job → Start Training。
准备好开始训练了吗?
