Wan 2.2 / LTX-2 OOM 指南:AI Toolkit 中安全的帧数、Batch Size 和分辨率
视频 LoRA 训练中的 OOM 通常不是由某个单一设置导致的。
通常是以下因素的组合:
- 帧数太多
- 分辨率桶太大
- batch 太大
- 预览采样开销太高
这就是为什么视频 OOM 看起来前后不一致:一次训练成功了,下一次就崩溃了,哪怕"什么重要的东西都没改。"
本指南为你提供在 RunComfy AI Toolkit 中使用 Wan 2.2 和 LTX-2 的实用显存预算。
快速修复清单(从这里开始)
- Wan 2.2 从 Batch Size = 1、21–41 帧开始
- LTX-2 从 Batch Size = 1、49 或 81 帧开始
- 在 Datasets 中,先降 Num Frames 再动 LR
- 在 Datasets 中,先移除最高的 Resolution 桶
- 在 Sample 中,预览视频保持比训练预算更轻
- 如果日志显示 Bus error / out of shared memory,那和 CUDA OOM 不是同一个问题
1) 首先:确认你遇到的是哪种显存问题
CUDA OOM
本指南针对以下类型的错误:
CUDA out of memory
OOM during training step ...
Tried to allocate ...
共享内存 / DataLoader 崩溃
如果日志显示:
Bus error
out of shared memory
DataLoader worker is killed
这是与共享内存(/dev/shm)相关的另一个问题,不是 GPU VRAM。请参阅 修复:DataLoader worker Bus error (/dev/shm) 问题排查
2) 你真正需要的唯一思维模型
视频训练中,显存压力主要随以下因素增长:
帧数 × 分辨率 × batch size
如果三个同时增加,你很可能在构建一次接近极限的训练。
3) Wan 2.2:安全 vs 接近极限 vs 高风险
安全的首次训练
- Batch Size: 1
- Num Frames: 21 或 41
- Resolution: 从 512 开始
- 预览视频保持保守
接近极限
- Batch Size: 1
- Num Frames: 81
- Resolution: 480–512
高风险
- 81 帧 + Batch Size ≥ 2
- 高分辨率桶加长片段
- 频繁生成重量级预览
Wan 回退顺序
- 降低 Num Frames
- 保持 Batch Size = 1
- 移除最高 Resolution
- 降低预览开销
4) LTX-2:安全 vs 接近极限 vs 高风险
安全的首次训练
- Batch Size: 1
- Num Frames: 49 或 81
- Resolution: 512
接近极限
- Batch Size: 1
- Num Frames: 121
- Resolution: 512
高风险
- 121 帧 + Batch Size ≥ 4
- 稳定性未验证前就用更大的桶
- 重量级预览采样
LTX 回退顺序
- 保持 Batch Size = 1
- 降低 Num Frames(121 → 81 → 49)
- 降低 Resolution
- 让预览更轻
5) 为什么相同配置有时成功有时 OOM
常见原因:
- 桶峰值(最大桶把 VRAM 推过极限)
- 预览峰值(训练能放下,预览把它推过极限)
- 接近极限的显存状态
"有时能跑"的配置应该视为不稳定。
一句话总结
对于 Wan 2.2 和 LTX-2,视频 OOM 通常是 帧数 × 分辨率 × batch 的问题。
保守开始,证明稳定性,然后再扩展。
Ready to start training?
