Wan 2.2 / LTX-2 OOM ガイド:AI Toolkit での安全なフレーム数、Batch Size、解像度
動画 LoRA の学習では、OOM は通常1つの悪い設定が原因ではありません。
通常は以下の組み合わせです:
- フレームが多すぎる
- 解像度バケットが大きすぎる
- バッチが大きすぎる
- プレビューサンプリングが高コストすぎる
だから動画の OOM は一貫性がないように感じます。ある学習はうまくいき、次は失敗する。「重要な変更は何もしていない」のに。
このガイドは、RunComfy AI Toolkit における Wan 2.2 と LTX-2 の実用的なメモリバジェットを提供します。
クイック修正チェックリスト(ここから開始)
- Wan 2.2 は Batch Size = 1、21〜41 フレームで開始
- LTX-2 は Batch Size = 1、49 または 81 フレームで開始
- Datasets で LR を変える前に Num Frames を下げる
- Datasets で最大の Resolution バケットを先に外す
- Sample でプレビュー動画を学習バジェットより軽く保つ
- ログに Bus error / out of shared memory と表示される場合、それは CUDA OOM とは別の問題
1) まず:どのメモリ問題かを把握する
CUDA OOM
このガイドは以下のようなエラー向けです:
CUDA out of memory
OOM during training step ...
Tried to allocate ...
共有メモリ / DataLoader クラッシュ
ログに以下が表示される場合:
Bus error
out of shared memory
DataLoader worker is killed
これは GPU VRAM ではなく、共有メモリ(/dev/shm)に関連する別の問題です。Fix: DataLoader worker Bus error (/dev/shm) トラブルシューティングを参照してください。
2) 本当に必要な唯一の考え方
動画学習では、メモリ負荷は主に以下で増加します:
フレーム × 解像度 × バッチサイズ
3つすべてを同時に上げると、ほぼ確実にギリギリの学習になります。
3) Wan 2.2:安全 vs ギリギリ vs 高リスク
安全な最初の学習
- Batch Size: 1
- Num Frames: 21 または 41
- Resolution: 512 から開始
- プレビュー動画を控えめに保つ
ギリギリ
- Batch Size: 1
- Num Frames: 81
- Resolution: 480–512
高リスク
- 81 フレームで Batch Size ≥ 2
- 高解像度バケット + 長いクリップ
- 頻繁な重いプレビュー生成
Wan ロールバック順序
- Num Frames を下げる
- Batch Size = 1 を維持
- 最大の Resolution を外す
- プレビューコストを下げる
4) LTX-2:安全 vs ギリギリ vs 高リスク
安全な最初の学習
- Batch Size: 1
- Num Frames: 49 または 81
- Resolution: 512
ギリギリ
- Batch Size: 1
- Num Frames: 121
- Resolution: 512
高リスク
- 121 フレームで Batch Size ≥ 4
- 安定性が証明される前の大きなバケット
- 重いプレビューサンプリング
LTX ロールバック順序
- Batch Size = 1 を維持
- Num Frames を下げる(121 → 81 → 49)
- Resolution を下げる
- プレビューを軽くする
5) 同じ設定で成功したり OOM したりする理由
よくある原因:
- バケットスパイク(最大バケットが VRAM を限界超えに押し上げる)
- プレビュースパイク(学習は収まるが、プレビューが超過させる)
- ギリギリのメモリ状態
「時々動く」設定は不安定として扱うべきです。
まとめ(一行)
Wan 2.2 と LTX-2 では、動画 OOM は通常 フレーム × 解像度 × バッチ の問題です。
控えめに始めて、安定性を証明してからスケールアップしてください。
トレーニングを開始する準備はできましたか?
