如何在 AI Toolkit 的 job 跑到預設 Steps 後繼續訓練(續訓同一個 LoRA)
1) 「這是你遇到的問題嗎?」
你設定了 Steps = 2000,開始訓練,job 在跑到 step 2000 時 自動停止。
檢查 samples / inference 之後,你想 繼續訓練,但你 不想從頭開始訓練一個全新的 LoRA,而是想 從現有的 job/checkpoint 繼續。
如果你正是這樣,這篇指南就是給你的。
2) 發生了什麼
在 AI Toolkit 裡,Steps = 這個 job 的總訓練步數。
所以當你設定 Steps = 2000 時,trainer 會嚴格照你的設定執行:
- 訓練到 step 2000
- 然後停止
想繼續訓練 同一個 LoRA,你不需要建立新 job。你只需要 編輯現有 job,把 最終總 Steps 調大,然後再跑一次。trainer 會 從最後一次保存的 checkpoint 恢復 並繼續訓練。
3) 如何續訓(一步一步來)
Step A — 打開你想繼續的 job
- 進入 Training Queue(或 job list)
- 找到已完成的 job(那個在 2000 steps 停止的)
- 點擊該 job 的 Edit,打開 job 編輯器

Step B — 增加總 Steps
- 滾動到 Training 區域
- 找到 Steps
- 把它改成你新的 最終總步數

重要: 這裡填的是 最終總量,不是「額外增加的步數」。
例如:
- 你已經訓練到 2000
- 你想再訓練 1000
- 需要設定 Steps = 3000(不是 1000)
Step C — 儲存並重新開始
- 點擊 Update Job
- 點擊 Start Training
✅ 這樣 job 就應該會 從上一次訓練繼續,使用最後的 checkpoint,並一直訓練到新的 Steps 值。
4) 如果沒有續上(快速排查)
如果它從 step 0 重新開始,或是拒絕繼續,檢查這些點:
- 接近末尾是否有 checkpoint 保存?
查看 job outputs / 保存檔案。如果 job 從來沒有保存過 checkpoint,就無法續訓。
- 你是否保留了 checkpoints?
如果你的 “Max Step Saves to Keep” 較低,舊的保存可能被清理了;請確認最新的 checkpoint 仍然存在。
- 你是否改了 Steps 以外的內容?
為了乾淨地續訓,請保持相同的資料集和訓練設定,只改 Steps。
5) 一句話修復總結
想在跑到預設 Steps 後繼續訓練同一個 LoRA:
Edit 已完成的 job → 把 Steps 調到新的最終總量 → Update Job → Start Training。
準備好開始訓練了嗎?
