AI Toolkit LoRA 訓練指南

修復 AI Toolkit 中 Wan 2.2 和 LTX-2 的影片 OOM

透過調整幀數、Batch Size、解析度和預覽設定來穩定 AI Toolkit 中 Wan 2.2 和 LTX-2 影片 LoRA 訓練的實用指南,避免臨界顯存配置。

使用 Ostris AI Toolkit 訓練擴散模型

Wan 2.2 / LTX-2 OOM 指南:AI Toolkit 中安全的幀數、Batch Size 和解析度

影片 LoRA 訓練中的 OOM 通常不是由某個單一設定導致的。

通常是以下因素的組合:

  • 幀數太多
  • 解析度桶太大
  • batch 太大
  • 預覽取樣開銷太高

這就是為什麼影片 OOM 看起來前後不一致:一次訓練成功了,下一次就當機了,哪怕「什麼重要的東西都沒改。」

本指南為你提供在 RunComfy AI Toolkit 中使用 Wan 2.2LTX-2 的實用顯存預算。


快速修復清單(從這裡開始)

  • Wan 2.2Batch Size = 121–41 幀開始
  • LTX-2Batch Size = 149 或 81 幀開始
  • Datasets 中,先降 Num Frames 再動 LR
  • Datasets 中,先移除最高的 Resolution
  • Sample 中,預覽影片保持比訓練預算更輕
  • 如果日誌顯示 Bus error / out of shared memory,那和 CUDA OOM 不是同一個問題

1) 首先:確認你遇到的是哪種顯存問題

CUDA OOM

本指南針對以下類型的錯誤:

CUDA out of memory

OOM during training step ...

Tried to allocate ...

共享記憶體 / DataLoader 當機

如果日誌顯示:

Bus error

out of shared memory

DataLoader worker is killed

這是與共享記憶體(/dev/shm)相關的另一個問題,不是 GPU VRAM。請參閱 修復:DataLoader worker Bus error (/dev/shm) 問題排查


2) 你真正需要的唯一思維模型

影片訓練中,顯存壓力主要隨以下因素增長:

幀數 × 解析度 × batch size

如果三個同時增加,你很可能在建構一次接近極限的訓練。


3) Wan 2.2:安全 vs 接近極限 vs 高風險

安全的首次訓練

  • Batch Size: 1
  • Num Frames: 21 或 41
  • Resolution: 從 512 開始
  • 預覽影片保持保守

接近極限

  • Batch Size: 1
  • Num Frames: 81
  • Resolution: 480–512

高風險

  • 81 幀 + Batch Size ≥ 2
  • 高解析度桶加長片段
  • 頻繁生成重量級預覽

Wan 回退順序

  1. 降低 Num Frames
  2. 保持 Batch Size = 1
  3. 移除最高 Resolution
  4. 降低預覽開銷

4) LTX-2:安全 vs 接近極限 vs 高風險

安全的首次訓練

  • Batch Size: 1
  • Num Frames: 49 或 81
  • Resolution: 512

接近極限

  • Batch Size: 1
  • Num Frames: 121
  • Resolution: 512

高風險

  • 121 幀 + Batch Size ≥ 4
  • 穩定性未驗證前就用更大的桶
  • 重量級預覽取樣

LTX 回退順序

  1. 保持 Batch Size = 1
  2. 降低 Num Frames(121 → 81 → 49)
  3. 降低 Resolution
  4. 讓預覽更輕

5) 為什麼相同設定有時成功有時 OOM

常見原因:

  • 桶峰值(最大桶把 VRAM 推過極限)
  • 預覽峰值(訓練能放下,預覽把它推過極限)
  • 接近極限的顯存狀態

「有時能跑」的設定應該視為不穩定。


一句話總結

對於 Wan 2.2 和 LTX-2,影片 OOM 通常是 幀數 × 解析度 × batch 的問題。

保守開始,證明穩定性,然後再擴展。

準備好開始訓練了嗎?