AI Toolkit LoRA 训练指南

AI Toolkit 避免 OOM 的安全初始设置

AI Toolkit 任务预检指南:在创建任务前检查 Batch Size、分辨率、帧数、Gradient Checkpointing 和预览采样,让首次运行更容易成功。

使用 Ostris AI Toolkit 训练扩散模型

如何避免 AI Toolkit 中的 OOM:首次成功训练的安全设置

本页不是"最快速度"的配置方案。

而是首次成功训练的配置方案。

如果你想减少无效重试、降低 OOM 发生率,更快跑通一次可用的训练,从这里开始。

规则很简单:

先证明稳定性,再追求速度。

本指南适用场景

以下情况请参考本页:

  • 你正准备创建一个新的 AI Toolkit 任务
  • 你需要更安全的起步设置
  • 你宁愿有一次稳定的首次训练,也不想花几小时调 OOM
  • 你需要一份"不要从危险设置开始"的实用清单

如果你已经看到了 CUDA out of memory 错误,请转到:


60 秒 OOM 预检清单

点击 Create Job 之前:

  • ✅ 保持 Batch Size 保守
  • ✅ 在 Datasets 中从保守的 Resolution 开始
  • ✅ 在 Sample 中让预览比最终目标更轻量
  • ✅ 点击 Show Advanced 确认 gradient_checkpointing: true
  • ✅ 视频模型从保守的 Num Frames 开始
  • ✅ 仅在模型指南推荐时使用模型特定的低显存功能
  • ✅ 首次训练不要同时尝试多个高风险更改

RunComfy 在产品层面也提供帮助。保存训练任务时,RunComfy 会检查当前设置是否包含高风险组合——例如过于激进的 batch size、frames、resolution,或过早关闭节省内存的默认设置。目的是在消耗 GPU 时间和预算之前发现风险配置。

不能替代模型特定的判断,但提供了更安全的起点。


1) 最重要的思维转变

大多数失败的首次训练,原因不是"learning rate 不对"。

而是:

  • 分辨率太高
  • 帧数太多
  • batch 太大
  • 预览采样开销太大
  • 过早关闭节省内存的默认设置

你的首次成功训练应该看起来故意很朴素

这是好事。


2) 图像模型的安全起步设置

FLUX-dev / Flex 类大型图像模型

好的首次训练

  • Batch Size: 1
  • Gradient Checkpointing: 开启
  • Datasets > Resolutions: 从 512 + 768 开始
  • 确认稳定后再加 1024
  • Sample: 预览保持适中,或暂时禁用采样

不要从这里开始

  • GC 关闭
  • Batch Size ≥ 8
  • 首次训练就用激进的多桶高分辨率设置
  • 短间隔的频繁重量级预览

Z-Image

好的首次训练

  • Batch Size: 先保守
  • Gradient Checkpointing: 开启
  • Resolutions: 768 + 1024 是比直接跳到最大桶更安全的首个目标
  • 预览保持合理

不要从这里开始

  • 大 batch + GC 关闭
  • 直接从最大桶开始
  • 稳定性未验证就混合高 batch 和高分辨率

Qwen Image Edit

好的首次训练

  • Batch Size: 1
  • Gradient Checkpointing: 开启
  • 从更小或更简单的桶组合开始
  • 控制预览开销
  • 如果模型指南推荐,使用模型的低显存路径

不要从这里开始

  • GC 关闭
  • 首次训练就用大 batch
  • 高成本 1024 预览 + 重条件 + 频繁采样
  • 基础流水线未稳定就做随意的文本编码器实验

3) 视频模型的安全起步设置

Wan 2.2 14B

好的首次训练

  • Batch Size: 1
  • Datasets > Num Frames: 2141
  • Datasets > Resolutions: 从 512 开始
  • 稳定运行后再加 768
  • 预览视频保持保守

不要从这里开始

  • 81 帧 + Batch Size 2
  • 训练中播放长预览视频
  • 稳定性未验证就用大桶 + 长片段

LTX-2

好的首次训练

  • Batch Size: 1
  • Num Frames: 4981
  • Resolution: 512
  • 控制预览开销

不要从这里开始

  • 121 帧 + Batch Size 4
  • 稳定训练未验证就用更大的桶
  • 假设图像模型的 batch 习惯可以直接套用在视频上

4) 比大多数用户更安全的预览设置

很多"训练 OOM"实际上是预览 OOM

首次训练时,使用比你认为需要的更轻量的采样。

在 Sample 面板中

推荐:

  • 更低的 Width / Height
  • 更低的 Sample Steps
  • 更少的 Sample Every
  • 如果唯一目标是验证稳定性,打开 Disable Sampling

训练稳定后,可以重新丰富预览设置。


5) 在 Show Advanced 中检查什么

标准 UI 涵盖了许多重要设置,但最可靠的预检仍然是高级 YAML。

首先检查:

train:
  batch_size: 1
  gradient_checkpointing: true
  disable_sampling: false

model:
  low_vram: false

sample:
  width: 1024
  height: 1024
  sample_steps: 25
  guidance_scale: 4
  num_frames: 1

datasets:
  - resolution: [512, 768, 1024]
    num_frames: 1

为了更安全的首次训练,最常降低的值:

  • batch_size
  • resolution
  • num_frames
  • sample.width
  • sample.height
  • sample.sample_steps

最常需要保持启用的:

  • gradient_checkpointing: true

6) "不要从这里开始"的组合

以下正是造成可避免 OOM 的典型首次训练选择:

高风险组合 为什么有风险
大型图像模型中 Gradient Checkpointing = 关闭 立即失去 VRAM 余量的简单方法
FLUX 类图像模型 + Batch Size 8+ 高风险首次训练,尤其搭配丰富的桶
Wan 2.2 + 81 帧 + Batch Size 2 典型的视频显存峰值区域
LTX-2 + 121 帧 + Batch Size 4 首次训练极其沉重的组合
短间隔的高成本 1024 预览 即使训练勉强能放下也会预览 OOM
同时添加多个高风险更改 无法确定实际导致失败的原因

7) 非常实用的首次训练配方

如果只要一条规则:

图像模型

  1. Batch Size = 1
  2. gradient_checkpointing: true
  3. 先只用小 / 中等桶
  4. 轻量预览或无预览
  5. 证明任务能跑

视频模型

  1. Batch Size = 1
  2. 保守的 Num Frames
  3. 先用 512
  4. 轻量预览
  5. 证明任务能跑

这是达成真正成功训练的最快路径。


8) 何时提升

只在一次稳定运行之后才提升。

好的顺序:

  1. 保持相同的显存设置
  2. 增加 Steps
  3. 提升预览质量
  4. 添加更大的桶
  5. 增加更多帧(视频)
  6. 最后才测试更大的 batch

一次只改一个变量。


9) 如果任务还是 OOM

直接转到运行时修复指南:

那个页面是给已经失败的任务用的。

本页面是为了从一开始就避免失败。


一句话总结

AI Toolkit 最好的首次训练预设,是那种稍微保守、明确稳定、后续容易扩展的配置。

安全起步。

先跑通一次。

然后再优化。


相关指南

准备好开始训练了吗?