如何避免 AI Toolkit 中的 OOM:首次成功訓練的安全設定
本頁不是「最快速度」的配置方案。
而是首次成功訓練的配置方案。
如果你想減少無效重試、降低 OOM 發生率,更快跑通一次可用的訓練,從這裡開始。
規則很簡單:
先證明穩定性,再追求速度。
本指南適用場景
以下情況請參考本頁:
- 你正準備建立一個新的 AI Toolkit 任務
- 你需要更安全的起步設定
- 你寧願有一次穩定的首次訓練,也不想花幾小時調 OOM
- 你需要一份「不要從危險設定開始」的實用清單
如果你已經看到了 CUDA out of memory 錯誤,請前往:
60 秒 OOM 預檢清單
點擊 Create Job 之前:
- ✅ 保持 Batch Size 保守
- ✅ 在 Datasets 中從保守的 Resolution 開始
- ✅ 在 Sample 中讓預覽比最終目標更輕量
- ✅ 點擊 Show Advanced 確認
gradient_checkpointing: true - ✅ 影片模型從保守的 Num Frames 開始
- ✅ 僅在模型指南推薦時使用模型特定的低顯存功能
- ✅ 首次訓練不要同時嘗試多個高風險更改
RunComfy 在產品層面也提供幫助。儲存訓練任務時,RunComfy 會檢查目前設定是否包含高風險組合——例如過於激進的 batch size、frames、resolution,或過早關閉節省記憶體的預設設定。目的是在消耗 GPU 時間和預算之前發現風險配置。
這不能替代模型特定的判斷,但提供了更安全的起點。
1) 最重要的思維轉變
大多數失敗的首次訓練,原因不是「learning rate 不對」。
而是:
- 解析度太高
- 幀數太多
- batch 太大
- 預覽取樣開銷太大
- 過早關閉節省記憶體的預設設定
你的首次成功訓練應該看起來故意很樸素。
這是好事。
2) 影像模型的安全起步設定
FLUX-dev / Flex 類大型影像模型
好的首次訓練
- Batch Size:
1 - Gradient Checkpointing:
開啟 - Datasets > Resolutions: 從
512 + 768開始 - 確認穩定後再加
1024 - Sample: 預覽保持適中,或暫時停用取樣
不要從這裡開始
- GC 關閉
- Batch Size ≥ 8
- 首次訓練就用激進的多桶高解析度設定
- 短間隔的頻繁重量級預覽
Z-Image
好的首次訓練
- Batch Size: 先保守
- Gradient Checkpointing:
開啟 - Resolutions:
768 + 1024是比直接跳到最大桶更安全的首個目標 - 預覽保持合理
不要從這裡開始
- 大 batch + GC 關閉
- 直接從最大桶開始
- 穩定性未驗證就混合高 batch 和高解析度
Qwen Image Edit
好的首次訓練
- Batch Size:
1 - Gradient Checkpointing:
開啟 - 從更小或更簡單的桶組合開始
- 控制預覽開銷
- 如果模型指南推薦,使用模型的低顯存路徑
不要從這裡開始
- GC 關閉
- 首次訓練就用大 batch
- 高成本 1024 預覽 + 重條件 + 頻繁取樣
- 基礎流水線未穩定就做隨意的文字編碼器實驗
3) 影片模型的安全起步設定
Wan 2.2 14B
好的首次訓練
- Batch Size:
1 - Datasets > Num Frames:
21或41 - Datasets > Resolutions: 從
512開始 - 穩定運行後再加
768 - 預覽影片保持保守
不要從這裡開始
- 81 幀 + Batch Size 2
- 訓練中播放長預覽影片
- 穩定性未驗證就用大桶 + 長片段
LTX-2
好的首次訓練
- Batch Size:
1 - Num Frames:
49或81 - Resolution:
512 - 控制預覽開銷
不要從這裡開始
- 121 幀 + Batch Size 4
- 穩定訓練未驗證就用更大的桶
- 假設影像模型的 batch 習慣可以直接套用在影片上
4) 比大多數使用者更安全的預覽設定
很多「訓練 OOM」實際上是預覽 OOM。
首次訓練時,使用比你認為需要的更輕量的取樣。
在 Sample 面板中
推薦:
- 更低的 Width / Height
- 更低的 Sample Steps
- 更少的 Sample Every
- 如果唯一目標是驗證穩定性,打開 Disable Sampling
訓練穩定後,可以重新豐富預覽設定。
5) 在 Show Advanced 中檢查什麼
標準 UI 涵蓋了許多重要設定,但最可靠的預檢仍然是進階 YAML。
首先檢查:
train:
batch_size: 1
gradient_checkpointing: true
disable_sampling: false
model:
low_vram: false
sample:
width: 1024
height: 1024
sample_steps: 25
guidance_scale: 4
num_frames: 1
datasets:
- resolution: [512, 768, 1024]
num_frames: 1
為了更安全的首次訓練,最常降低的值:
batch_sizeresolutionnum_framessample.widthsample.heightsample.sample_steps
最常需要保持啟用的:
gradient_checkpointing: true
6) 「不要從這裡開始」的組合
以下正是造成可避免 OOM 的典型首次訓練選擇:
| 高風險組合 | 為什麼有風險 |
|---|---|
| 大型影像模型中 Gradient Checkpointing = 關閉 | 立即失去 VRAM 餘量的簡單方法 |
| FLUX 類影像模型 + Batch Size 8+ | 高風險首次訓練,尤其搭配豐富的桶 |
| Wan 2.2 + 81 幀 + Batch Size 2 | 典型的影片顯存峰值區域 |
| LTX-2 + 121 幀 + Batch Size 4 | 首次訓練極其沉重的組合 |
| 短間隔的高成本 1024 預覽 | 即使訓練勉強能放下也會預覽 OOM |
| 同時添加多個高風險更改 | 無法確定實際導致失敗的原因 |
7) 非常實用的首次訓練配方
如果只要一條規則:
影像模型
- Batch Size = 1
gradient_checkpointing: true- 先只用小 / 中等桶
- 輕量預覽或無預覽
- 證明任務能跑
影片模型
- Batch Size = 1
- 保守的 Num Frames
- 先用
512 - 輕量預覽
- 證明任務能跑
這是達成真正成功訓練的最快路徑。
8) 何時提升
只在一次穩定運行之後才提升。
好的順序:
- 保持相同的顯存設定
- 增加 Steps
- 提升預覽品質
- 新增更大的桶
- 增加更多幀(影片)
- 最後才測試更大的 batch
一次只改一個變數。
9) 如果任務還是 OOM
直接前往執行時修復指南:
那個頁面是給已經失敗的任務用的。
本頁面是為了從一開始就避免失敗。
一句話總結
AI Toolkit 最好的首次訓練預設,是那種稍微保守、明確穩定、後續容易擴展的配置。
安全起步。
先跑通一次。
然後再最佳化。
相關指南
準備好開始訓練了嗎?
