AI Toolkit LoRA Training Guides

修复 AI Toolkit 中 Wan 2.2 和 LTX-2 的视频 OOM

通过调整帧数、Batch Size、分辨率和预览设置来稳定 AI Toolkit 中 Wan 2.2 和 LTX-2 视频 LoRA 训练的实用指南,避免临界显存配置。

Train Diffusion Models with Ostris AI Toolkit

Wan 2.2 / LTX-2 OOM 指南:AI Toolkit 中安全的帧数、Batch Size 和分辨率

视频 LoRA 训练中的 OOM 通常不是由某个单一设置导致的。

通常是以下因素的组合:

  • 帧数太多
  • 分辨率桶太大
  • batch 太大
  • 预览采样开销太高

这就是为什么视频 OOM 看起来前后不一致:一次训练成功了,下一次就崩溃了,哪怕"什么重要的东西都没改。"

本指南为你提供在 RunComfy AI Toolkit 中使用 Wan 2.2LTX-2 的实用显存预算。


快速修复清单(从这里开始)

  • Wan 2.2Batch Size = 121–41 帧开始
  • LTX-2Batch Size = 149 或 81 帧开始
  • Datasets 中,先降 Num Frames 再动 LR
  • Datasets 中,先移除最高的 Resolution
  • Sample 中,预览视频保持比训练预算更轻
  • 如果日志显示 Bus error / out of shared memory,那和 CUDA OOM 不是同一个问题

1) 首先:确认你遇到的是哪种显存问题

CUDA OOM

本指南针对以下类型的错误:

CUDA out of memory

OOM during training step ...

Tried to allocate ...

共享内存 / DataLoader 崩溃

如果日志显示:

Bus error

out of shared memory

DataLoader worker is killed

这是与共享内存(/dev/shm)相关的另一个问题,不是 GPU VRAM。请参阅 修复:DataLoader worker Bus error (/dev/shm) 问题排查


2) 你真正需要的唯一思维模型

视频训练中,显存压力主要随以下因素增长:

帧数 × 分辨率 × batch size

如果三个同时增加,你很可能在构建一次接近极限的训练。


3) Wan 2.2:安全 vs 接近极限 vs 高风险

安全的首次训练

  • Batch Size: 1
  • Num Frames: 21 或 41
  • Resolution: 从 512 开始
  • 预览视频保持保守

接近极限

  • Batch Size: 1
  • Num Frames: 81
  • Resolution: 480–512

高风险

  • 81 帧 + Batch Size ≥ 2
  • 高分辨率桶加长片段
  • 频繁生成重量级预览

Wan 回退顺序

  1. 降低 Num Frames
  2. 保持 Batch Size = 1
  3. 移除最高 Resolution
  4. 降低预览开销

4) LTX-2:安全 vs 接近极限 vs 高风险

安全的首次训练

  • Batch Size: 1
  • Num Frames: 49 或 81
  • Resolution: 512

接近极限

  • Batch Size: 1
  • Num Frames: 121
  • Resolution: 512

高风险

  • 121 帧 + Batch Size ≥ 4
  • 稳定性未验证前就用更大的桶
  • 重量级预览采样

LTX 回退顺序

  1. 保持 Batch Size = 1
  2. 降低 Num Frames(121 → 81 → 49)
  3. 降低 Resolution
  4. 让预览更轻

5) 为什么相同配置有时成功有时 OOM

常见原因:

  • 桶峰值(最大桶把 VRAM 推过极限)
  • 预览峰值(训练能放下,预览把它推过极限)
  • 接近极限的显存状态

"有时能跑"的配置应该视为不稳定。


一句话总结

对于 Wan 2.2 和 LTX-2,视频 OOM 通常是 帧数 × 分辨率 × batch 的问题。

保守开始,证明稳定性,然后再扩展。

Ready to start training?