AI Toolkit LoRA 訓練指南

AI Toolkit 避免 OOM 的安全初始設定

AI Toolkit 任務預檢指南:在建立任務前檢查 Batch Size、解析度、幀數、Gradient Checkpointing 和預覽取樣,讓首次執行更容易成功。

使用 Ostris AI Toolkit 訓練擴散模型

如何避免 AI Toolkit 中的 OOM:首次成功訓練的安全設定

本頁不是「最快速度」的配置方案。

而是首次成功訓練的配置方案。

如果你想減少無效重試、降低 OOM 發生率,更快跑通一次可用的訓練,從這裡開始。

規則很簡單:

先證明穩定性,再追求速度。

本指南適用場景

以下情況請參考本頁:

  • 你正準備建立一個新的 AI Toolkit 任務
  • 你需要更安全的起步設定
  • 你寧願有一次穩定的首次訓練,也不想花幾小時調 OOM
  • 你需要一份「不要從危險設定開始」的實用清單

如果你已經看到了 CUDA out of memory 錯誤,請前往:


60 秒 OOM 預檢清單

點擊 Create Job 之前:

  • ✅ 保持 Batch Size 保守
  • ✅ 在 Datasets 中從保守的 Resolution 開始
  • ✅ 在 Sample 中讓預覽比最終目標更輕量
  • ✅ 點擊 Show Advanced 確認 gradient_checkpointing: true
  • ✅ 影片模型從保守的 Num Frames 開始
  • ✅ 僅在模型指南推薦時使用模型特定的低顯存功能
  • ✅ 首次訓練不要同時嘗試多個高風險更改

RunComfy 在產品層面也提供幫助。儲存訓練任務時,RunComfy 會檢查目前設定是否包含高風險組合——例如過於激進的 batch size、frames、resolution,或過早關閉節省記憶體的預設設定。目的是在消耗 GPU 時間和預算之前發現風險配置。

不能替代模型特定的判斷,但提供了更安全的起點。


1) 最重要的思維轉變

大多數失敗的首次訓練,原因不是「learning rate 不對」。

而是:

  • 解析度太高
  • 幀數太多
  • batch 太大
  • 預覽取樣開銷太大
  • 過早關閉節省記憶體的預設設定

你的首次成功訓練應該看起來故意很樸素

這是好事。


2) 影像模型的安全起步設定

FLUX-dev / Flex 類大型影像模型

好的首次訓練

  • Batch Size: 1
  • Gradient Checkpointing: 開啟
  • Datasets > Resolutions: 從 512 + 768 開始
  • 確認穩定後再加 1024
  • Sample: 預覽保持適中,或暫時停用取樣

不要從這裡開始

  • GC 關閉
  • Batch Size ≥ 8
  • 首次訓練就用激進的多桶高解析度設定
  • 短間隔的頻繁重量級預覽

Z-Image

好的首次訓練

  • Batch Size: 先保守
  • Gradient Checkpointing: 開啟
  • Resolutions: 768 + 1024 是比直接跳到最大桶更安全的首個目標
  • 預覽保持合理

不要從這裡開始

  • 大 batch + GC 關閉
  • 直接從最大桶開始
  • 穩定性未驗證就混合高 batch 和高解析度

Qwen Image Edit

好的首次訓練

  • Batch Size: 1
  • Gradient Checkpointing: 開啟
  • 從更小或更簡單的桶組合開始
  • 控制預覽開銷
  • 如果模型指南推薦,使用模型的低顯存路徑

不要從這裡開始

  • GC 關閉
  • 首次訓練就用大 batch
  • 高成本 1024 預覽 + 重條件 + 頻繁取樣
  • 基礎流水線未穩定就做隨意的文字編碼器實驗

3) 影片模型的安全起步設定

Wan 2.2 14B

好的首次訓練

  • Batch Size: 1
  • Datasets > Num Frames: 2141
  • Datasets > Resolutions: 從 512 開始
  • 穩定運行後再加 768
  • 預覽影片保持保守

不要從這裡開始

  • 81 幀 + Batch Size 2
  • 訓練中播放長預覽影片
  • 穩定性未驗證就用大桶 + 長片段

LTX-2

好的首次訓練

  • Batch Size: 1
  • Num Frames: 4981
  • Resolution: 512
  • 控制預覽開銷

不要從這裡開始

  • 121 幀 + Batch Size 4
  • 穩定訓練未驗證就用更大的桶
  • 假設影像模型的 batch 習慣可以直接套用在影片上

4) 比大多數使用者更安全的預覽設定

很多「訓練 OOM」實際上是預覽 OOM

首次訓練時,使用比你認為需要的更輕量的取樣。

在 Sample 面板中

推薦:

  • 更低的 Width / Height
  • 更低的 Sample Steps
  • 更少的 Sample Every
  • 如果唯一目標是驗證穩定性,打開 Disable Sampling

訓練穩定後,可以重新豐富預覽設定。


5) 在 Show Advanced 中檢查什麼

標準 UI 涵蓋了許多重要設定,但最可靠的預檢仍然是進階 YAML。

首先檢查:

train:
  batch_size: 1
  gradient_checkpointing: true
  disable_sampling: false

model:
  low_vram: false

sample:
  width: 1024
  height: 1024
  sample_steps: 25
  guidance_scale: 4
  num_frames: 1

datasets:
  - resolution: [512, 768, 1024]
    num_frames: 1

為了更安全的首次訓練,最常降低的值:

  • batch_size
  • resolution
  • num_frames
  • sample.width
  • sample.height
  • sample.sample_steps

最常需要保持啟用的:

  • gradient_checkpointing: true

6) 「不要從這裡開始」的組合

以下正是造成可避免 OOM 的典型首次訓練選擇:

高風險組合 為什麼有風險
大型影像模型中 Gradient Checkpointing = 關閉 立即失去 VRAM 餘量的簡單方法
FLUX 類影像模型 + Batch Size 8+ 高風險首次訓練,尤其搭配豐富的桶
Wan 2.2 + 81 幀 + Batch Size 2 典型的影片顯存峰值區域
LTX-2 + 121 幀 + Batch Size 4 首次訓練極其沉重的組合
短間隔的高成本 1024 預覽 即使訓練勉強能放下也會預覽 OOM
同時添加多個高風險更改 無法確定實際導致失敗的原因

7) 非常實用的首次訓練配方

如果只要一條規則:

影像模型

  1. Batch Size = 1
  2. gradient_checkpointing: true
  3. 先只用小 / 中等桶
  4. 輕量預覽或無預覽
  5. 證明任務能跑

影片模型

  1. Batch Size = 1
  2. 保守的 Num Frames
  3. 先用 512
  4. 輕量預覽
  5. 證明任務能跑

這是達成真正成功訓練的最快路徑。


8) 何時提升

只在一次穩定運行之後才提升。

好的順序:

  1. 保持相同的顯存設定
  2. 增加 Steps
  3. 提升預覽品質
  4. 新增更大的桶
  5. 增加更多幀(影片)
  6. 最後才測試更大的 batch

一次只改一個變數。


9) 如果任務還是 OOM

直接前往執行時修復指南:

那個頁面是給已經失敗的任務用的。

本頁面是為了從一開始就避免失敗。


一句話總結

AI Toolkit 最好的首次訓練預設,是那種稍微保守、明確穩定、後續容易擴展的配置。

安全起步。

先跑通一次。

然後再最佳化。


相關指南

準備好開始訓練了嗎?