Wan 2.2 / LTX-2 OOM 指南:AI Toolkit 中安全的幀數、Batch Size 和解析度
影片 LoRA 訓練中的 OOM 通常不是由某個單一設定導致的。
通常是以下因素的組合:
- 幀數太多
- 解析度桶太大
- batch 太大
- 預覽取樣開銷太高
這就是為什麼影片 OOM 看起來前後不一致:一次訓練成功了,下一次就當機了,哪怕「什麼重要的東西都沒改。」
本指南為你提供在 RunComfy AI Toolkit 中使用 Wan 2.2 和 LTX-2 的實用顯存預算。
快速修復清單(從這裡開始)
- Wan 2.2 從 Batch Size = 1、21–41 幀開始
- LTX-2 從 Batch Size = 1、49 或 81 幀開始
- 在 Datasets 中,先降 Num Frames 再動 LR
- 在 Datasets 中,先移除最高的 Resolution 桶
- 在 Sample 中,預覽影片保持比訓練預算更輕
- 如果日誌顯示 Bus error / out of shared memory,那和 CUDA OOM 不是同一個問題
1) 首先:確認你遇到的是哪種顯存問題
CUDA OOM
本指南針對以下類型的錯誤:
CUDA out of memory
OOM during training step ...
Tried to allocate ...
共享記憶體 / DataLoader 當機
如果日誌顯示:
Bus error
out of shared memory
DataLoader worker is killed
這是與共享記憶體(/dev/shm)相關的另一個問題,不是 GPU VRAM。請參閱 修復:DataLoader worker Bus error (/dev/shm) 問題排查
2) 你真正需要的唯一思維模型
影片訓練中,顯存壓力主要隨以下因素增長:
幀數 × 解析度 × batch size
如果三個同時增加,你很可能在建構一次接近極限的訓練。
3) Wan 2.2:安全 vs 接近極限 vs 高風險
安全的首次訓練
- Batch Size: 1
- Num Frames: 21 或 41
- Resolution: 從 512 開始
- 預覽影片保持保守
接近極限
- Batch Size: 1
- Num Frames: 81
- Resolution: 480–512
高風險
- 81 幀 + Batch Size ≥ 2
- 高解析度桶加長片段
- 頻繁生成重量級預覽
Wan 回退順序
- 降低 Num Frames
- 保持 Batch Size = 1
- 移除最高 Resolution
- 降低預覽開銷
4) LTX-2:安全 vs 接近極限 vs 高風險
安全的首次訓練
- Batch Size: 1
- Num Frames: 49 或 81
- Resolution: 512
接近極限
- Batch Size: 1
- Num Frames: 121
- Resolution: 512
高風險
- 121 幀 + Batch Size ≥ 4
- 穩定性未驗證前就用更大的桶
- 重量級預覽取樣
LTX 回退順序
- 保持 Batch Size = 1
- 降低 Num Frames(121 → 81 → 49)
- 降低 Resolution
- 讓預覽更輕
5) 為什麼相同設定有時成功有時 OOM
常見原因:
- 桶峰值(最大桶把 VRAM 推過極限)
- 預覽峰值(訓練能放下,預覽把它推過極限)
- 接近極限的顯存狀態
「有時能跑」的設定應該視為不穩定。
一句話總結
對於 Wan 2.2 和 LTX-2,影片 OOM 通常是 幀數 × 解析度 × batch 的問題。
保守開始,證明穩定性,然後再擴展。
準備好開始訓練了嗎?
