AI Toolkit LoRA 訓練指南

AI Toolkit LoRA 續訓:預設 Steps 後如何繼續

快速指南:在 AI Toolkit 中續訓 LoRA——編輯已停止的 job,將 Steps 改為新的最終總量(不是額外步數),從最後的 checkpoint 繼續訓練。

使用 Ostris AI Toolkit 訓練擴散模型

如何在 AI Toolkit 的 job 跑到預設 Steps 後繼續訓練(續訓同一個 LoRA)

1) 「這是你遇到的問題嗎?」

你設定了 Steps = 2000,開始訓練,job 在跑到 step 2000自動停止

檢查 samples / inference 之後,你想 繼續訓練,但你 不想從頭開始訓練一個全新的 LoRA,而是想 從現有的 job/checkpoint 繼續

如果你正是這樣,這篇指南就是給你的。


2) 發生了什麼

在 AI Toolkit 裡,Steps = 這個 job 的總訓練步數

所以當你設定 Steps = 2000 時,trainer 會嚴格照你的設定執行:

  • 訓練到 step 2000
  • 然後停止

想繼續訓練 同一個 LoRA,你不需要建立新 job。你只需要 編輯現有 job,把 最終總 Steps 調大,然後再跑一次。trainer 會 從最後一次保存的 checkpoint 恢復 並繼續訓練。


3) 如何續訓(一步一步來)

Step A — 打開你想繼續的 job

  1. 進入 Training Queue(或 job list)
  2. 找到已完成的 job(那個在 2000 steps 停止的)
  3. 點擊該 job 的 Edit,打開 job 編輯器

訓練 job 的 Edit 按鈕

Step B — 增加總 Steps

  1. 滾動到 Training 區域
  2. 找到 Steps
  3. 把它改成你新的 最終總步數

在訓練 job 中更新 Steps

重要: 這裡填的是 最終總量,不是「額外增加的步數」。

例如:

  • 你已經訓練到 2000
  • 你想再訓練 1000
  • 需要設定 Steps = 3000(不是 1000)

Step C — 儲存並重新開始

  1. 點擊 Update Job
  2. 點擊 Start Training

✅ 這樣 job 就應該會 從上一次訓練繼續,使用最後的 checkpoint,並一直訓練到新的 Steps 值。


4) 如果沒有續上(快速排查)

如果它從 step 0 重新開始,或是拒絕繼續,檢查這些點:

  • 接近末尾是否有 checkpoint 保存?

    查看 job outputs / 保存檔案。如果 job 從來沒有保存過 checkpoint,就無法續訓。

  • 你是否保留了 checkpoints?

    如果你的 “Max Step Saves to Keep” 較低,舊的保存可能被清理了;請確認最新的 checkpoint 仍然存在。

  • 你是否改了 Steps 以外的內容?

    為了乾淨地續訓,請保持相同的資料集和訓練設定,只改 Steps


5) 一句話修復總結

想在跑到預設 Steps 後繼續訓練同一個 LoRA:

Edit 已完成的 job → 把 Steps 調到新的最終總量 → Update Job → Start Training。

準備好開始訓練了嗎?