如何避免 AI Toolkit 中的 OOM:首次成功训练的安全设置
本页不是"最快速度"的配置方案。
而是首次成功训练的配置方案。
如果你想减少无效重试、降低 OOM 发生率,更快跑通一次可用的训练,从这里开始。
规则很简单:
先证明稳定性,再追求速度。
本指南适用场景
以下情况请参考本页:
- 你正准备创建一个新的 AI Toolkit 任务
- 你需要更安全的起步设置
- 你宁愿有一次稳定的首次训练,也不想花几小时调 OOM
- 你需要一份"不要从危险设置开始"的实用清单
如果你已经看到了 CUDA out of memory 错误,请转到:
60 秒 OOM 预检清单
点击 Create Job 之前:
- ✅ 保持 Batch Size 保守
- ✅ 在 Datasets 中从保守的 Resolution 开始
- ✅ 在 Sample 中让预览比最终目标更轻量
- ✅ 点击 Show Advanced 确认
gradient_checkpointing: true - ✅ 视频模型从保守的 Num Frames 开始
- ✅ 仅在模型指南推荐时使用模型特定的低显存功能
- ✅ 首次训练不要同时尝试多个高风险更改
RunComfy 在产品层面也提供帮助。保存训练任务时,RunComfy 会检查当前设置是否包含高风险组合——例如过于激进的 batch size、frames、resolution,或过早关闭节省内存的默认设置。目的是在消耗 GPU 时间和预算之前发现风险配置。
这不能替代模型特定的判断,但提供了更安全的起点。
1) 最重要的思维转变
大多数失败的首次训练,原因不是"learning rate 不对"。
而是:
- 分辨率太高
- 帧数太多
- batch 太大
- 预览采样开销太大
- 过早关闭节省内存的默认设置
你的首次成功训练应该看起来故意很朴素。
这是好事。
2) 图像模型的安全起步设置
FLUX-dev / Flex 类大型图像模型
好的首次训练
- Batch Size:
1 - Gradient Checkpointing:
开启 - Datasets > Resolutions: 从
512 + 768开始 - 确认稳定后再加
1024 - Sample: 预览保持适中,或暂时禁用采样
不要从这里开始
- GC 关闭
- Batch Size ≥ 8
- 首次训练就用激进的多桶高分辨率设置
- 短间隔的频繁重量级预览
Z-Image
好的首次训练
- Batch Size: 先保守
- Gradient Checkpointing:
开启 - Resolutions:
768 + 1024是比直接跳到最大桶更安全的首个目标 - 预览保持合理
不要从这里开始
- 大 batch + GC 关闭
- 直接从最大桶开始
- 稳定性未验证就混合高 batch 和高分辨率
Qwen Image Edit
好的首次训练
- Batch Size:
1 - Gradient Checkpointing:
开启 - 从更小或更简单的桶组合开始
- 控制预览开销
- 如果模型指南推荐,使用模型的低显存路径
不要从这里开始
- GC 关闭
- 首次训练就用大 batch
- 高成本 1024 预览 + 重条件 + 频繁采样
- 基础流水线未稳定就做随意的文本编码器实验
3) 视频模型的安全起步设置
Wan 2.2 14B
好的首次训练
- Batch Size:
1 - Datasets > Num Frames:
21或41 - Datasets > Resolutions: 从
512开始 - 稳定运行后再加
768 - 预览视频保持保守
不要从这里开始
- 81 帧 + Batch Size 2
- 训练中播放长预览视频
- 稳定性未验证就用大桶 + 长片段
LTX-2
好的首次训练
- Batch Size:
1 - Num Frames:
49或81 - Resolution:
512 - 控制预览开销
不要从这里开始
- 121 帧 + Batch Size 4
- 稳定训练未验证就用更大的桶
- 假设图像模型的 batch 习惯可以直接套用在视频上
4) 比大多数用户更安全的预览设置
很多"训练 OOM"实际上是预览 OOM。
首次训练时,使用比你认为需要的更轻量的采样。
在 Sample 面板中
推荐:
- 更低的 Width / Height
- 更低的 Sample Steps
- 更少的 Sample Every
- 如果唯一目标是验证稳定性,打开 Disable Sampling
训练稳定后,可以重新丰富预览设置。
5) 在 Show Advanced 中检查什么
标准 UI 涵盖了许多重要设置,但最可靠的预检仍然是高级 YAML。
首先检查:
train:
batch_size: 1
gradient_checkpointing: true
disable_sampling: false
model:
low_vram: false
sample:
width: 1024
height: 1024
sample_steps: 25
guidance_scale: 4
num_frames: 1
datasets:
- resolution: [512, 768, 1024]
num_frames: 1
为了更安全的首次训练,最常降低的值:
batch_sizeresolutionnum_framessample.widthsample.heightsample.sample_steps
最常需要保持启用的:
gradient_checkpointing: true
6) "不要从这里开始"的组合
以下正是造成可避免 OOM 的典型首次训练选择:
| 高风险组合 | 为什么有风险 |
|---|---|
| 大型图像模型中 Gradient Checkpointing = 关闭 | 立即失去 VRAM 余量的简单方法 |
| FLUX 类图像模型 + Batch Size 8+ | 高风险首次训练,尤其搭配丰富的桶 |
| Wan 2.2 + 81 帧 + Batch Size 2 | 典型的视频显存峰值区域 |
| LTX-2 + 121 帧 + Batch Size 4 | 首次训练极其沉重的组合 |
| 短间隔的高成本 1024 预览 | 即使训练勉强能放下也会预览 OOM |
| 同时添加多个高风险更改 | 无法确定实际导致失败的原因 |
7) 非常实用的首次训练配方
如果只要一条规则:
图像模型
- Batch Size = 1
gradient_checkpointing: true- 先只用小 / 中等桶
- 轻量预览或无预览
- 证明任务能跑
视频模型
- Batch Size = 1
- 保守的 Num Frames
- 先用
512 - 轻量预览
- 证明任务能跑
这是达成真正成功训练的最快路径。
8) 何时提升
只在一次稳定运行之后才提升。
好的顺序:
- 保持相同的显存设置
- 增加 Steps
- 提升预览质量
- 添加更大的桶
- 增加更多帧(视频)
- 最后才测试更大的 batch
一次只改一个变量。
9) 如果任务还是 OOM
直接转到运行时修复指南:
那个页面是给已经失败的任务用的。
本页面是为了从一开始就避免失败。
一句话总结
AI Toolkit 最好的首次训练预设,是那种稍微保守、明确稳定、后续容易扩展的配置。
安全起步。
先跑通一次。
然后再优化。
相关指南
准备好开始训练了吗?
