AI Toolkit LoRA Training Guides

使用Ostris AI Toolkit进行扩散模型LoRA训练

这篇入门指南带你用Ostris AI Toolkit对图像与视频扩散模型进行LoRA微调:了解工具结构与LoRA适配器机制,掌握核心超参数设置,并学习在本地或RunComfy云端进行训练、采样检查与常见问题排查。

Train Diffusion Models with Ostris AI Toolkit

水平滚动查看完整表单

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

本页是使用 Ostris AI Toolkit 进行 LoRA 微调训练的总览。如果你需要某个模型的专用配方,请直接跳转到这些教程:

读完本指南后,你应该能够:

  • 理解 LoRA 训练背后的核心概念(微调时模型到底发生了什么变化)。
  • 熟悉 AI Toolkit 的整体结构,知道每个面板负责什么。
  • 理解 关键参数(learning rate、rank、steps、noise schedule、DOP 等)的意义与影响,从而能“有目的地”调参。
  • 能在 本地机器或 RunComfy Cloud AI Toolkit 上训练 LoRA,并在日常的生成工作流中复用。

目录

1. 什么是 Ostris AI Toolkit?(扩散模型 LoRA 训练器)

Ostris AI Toolkit 是一个面向 图像与视频扩散模型 的训练套件。它不处理语言或音频模型;它支持的对象要么是传统 DDPM 风格扩散模型(如 SD 1.5、SDXL),要么是 Flux、Wan、Qwen‑Image、Z‑Image、OmniGen2 等现代 diffusion‑transformer(扩散 Transformer)模型。AI Toolkit 的核心是 LoRA 类适配器:实际训练时并不是重训整个网络,而是在冻结的基座模型之上训练一小组 LoRA(或类似的轻量适配器)。

Ostris AI Toolkit 的 LoRA 训练特性

AI Toolkit 为所有支持的模型家族提供统一的训练引擎与配置系统。不同模型(Flux、Z‑Image Turbo、Wan 2.2、Qwen‑Image、SDXL 等)有各自的预设,但都接入同一套结构:模型加载、量化、LoRA/LoKr 定义、训练超参数、数据集处理与采样规则。因此无论你训练 Flux LoRA、Z‑Image Turbo LoRA 还是 Wan 视频 LoRA,Web UI 的思路与布局都高度一致。

AI Toolkit 同时提供 CLI 与完整 Web UI。CLI 直接读取 YAML 配置执行;Web UI 本质上是 YAML 的图形化配置层。在 UI 中,“AI Toolkit”通常指 New Job 页面:选择模型家族、LoRA 类型与 rank,设置 learning rate 与 steps,绑定数据集,并定义训练过程中生成 sample 图片/视频的频率。你会看到 Job、Model、Quantization、Target、Training、Regularization、Datasets、Sample 等面板,通常不需要手动编辑 YAML。无论本地运行还是使用 RunComfy Cloud AI Toolkit,流程一致。


Ostris AI Toolkit 内置的 LoRA 训练工具

AI Toolkit 内置了不少“开箱即用”的功能:

  • 量化与低显存模式 – 可配置 8/6/4 bit(以及带 recovery adapter 的 3 bit)transformer 量化与层级 offload,让 Flux/Wan 等大模型能在 24–48GB 显存上训练,并可在速度/质量间权衡。
  • LoRA / LoKr 适配器 – 同时支持标准 LoRA 与 LoKr(更紧凑但兼容性可能更差),通过 Target Type 选择。
  • DOP(Differential Output Preservation) – 对“正则图像”同时跑 base 与 LoRA 输出,加入惩罚项以抑制不该发生的变化,减少 LoRA “渗漏”(不触发也长得像训练目标)。
  • 面向 turbo 模型的 Differential Guidance – 主要用于 Z‑Image Turbo,让训练更聚焦于“相对 base 该改变的部分”,提升 few‑step/turbo 模型的适配深度。
  • 多阶段噪声训练 – 高噪声/低噪声分阶段训练,以平衡结构学习与细节锐化。
  • Latent 与文本 embedding 缓存Cache Latents / Cache Text Embeddings 用磁盘换速度与显存。
  • EMA – 可选的指数滑动平均权重副本,帮助收敛更稳定(小数据集时尤其可能有用)。

2. Ostris AI Toolkit 支持哪些模型(Flux、Wan、Z‑Image、Qwen‑Image、SDXL)

AI Toolkit 目前支持以下模型家族:

  • IMAGE 模型 – 单图生成(Flux、Z‑Image Turbo、Qwen‑Image、SD 等)
  • INSTRUCTION / EDIT 模型 – 图像编辑/指令跟随(Qwen‑Image‑Edit、Flux Kontext、HiDream E1)
  • VIDEO 模型 – 文生视频与图生视频(Wan 2.x 系列)

2. Ostris AI Toolkit 支持哪些模型(Flux、Wan、Z‑Image、Qwen‑Image、SDXL)

AI Toolkit 目前支持以下模型家族:

  • IMAGE 模型 – 单图生成(Flux、Z‑Image Turbo、Qwen‑Image、SD 等)
  • INSTRUCTION / EDIT 模型 – 图像编辑/指令跟随(Qwen‑Image‑Edit、Flux Kontext、HiDream E1)
  • VIDEO 模型 – 文生视频与图生视频(Wan 2.x 系列)
类别 AI Toolkit UI 中的模型家族 系统要求 / 显存建议
IMAGE FLUX.1 / FLUX.2 VRAM:LoRA 训练最低 24GB。建议:rank(32–64) 与 1024+ bucket 时建议 48GB+。备注:量化 + Low VRAM 常能让 24GB 成立;SSD 有助于缓存。
INSTRUCTION FLUX.1‑Kontext‑dev VRAM:24GB+ 基线;重 conditioning/高分辨率/高 rank 建议 48GB+。
IMAGE Qwen‑Image, Qwen Image 2512 VRAM:建议 24GB+;更舒适为 32GB+。
INSTRUCTION Qwen‑Image‑Edit, Qwen‑Image‑Edit‑2509, Qwen‑Image‑Edit‑2511 VRAM:建议 32GB+。经验值:1024px 往往 ~27–28.5GB;768px ~25–26GB;24GB 通常吃紧。
IMAGE Z‑Image Turbo VRAM:设计上更容易落在 16–24GB备注:rank 常用 8–16,bucket 512/768/1024 更稳。
VIDEO Wan 2.2 (14B), Wan 2.2 T2V (14B), Wan 2.2 I2V (14B) VRAM:24GB 需谨慎设置;建议:48GB+ 更舒适、速度更快。
VIDEO LTX-2 VRAM:量化/offload 下 24–48GB 可行;48GB+ 更顺滑。
IMAGE SD 1.5, SDXL VRAM:SD 1.5 常见从 8GB+ 起;SDXL 常见 12–16GB+。
IMAGE OmniGen2 / Chroma / Lumina2 VRAM:模型相关;24GB 是安全基线,48GB+ 更舒适。
INSTRUCTION HiDream / HiDream E1 VRAM:通常建议 48GB+。
IMAGE Flex.1 / Flex.2 VRAM:相对轻;很多情况下 12–16GB 也可行(取决于分辨率与是否训练文本侧)。

3. 本地安装 Ostris AI Toolkit 与使用 RunComfy Cloud AI Toolkit

3.1 在 Linux / Windows 本地安装 Ostris AI Toolkit

官方 README(GitHub)提供了清晰的安装步骤:

https://github.com/ostris/ai-toolkit

Linux 上:

git clone https://github.com/ostris/ai-toolkit.git
cd ai-toolkit

python3 -m venv venv
source venv/bin/activate

# 安装 CUDA 版 PyTorch(如有需要请调整版本)
pip3 install --no-cache-dir torch==2.7.0 torchvision==0.22.0 torchaudio==2.7.0 \
  --index-url https://download.pytorch.org/whl/cu126

pip3 install -r requirements.txt

依赖安装完成后启动 Web UI:

cd ui
npm run build_and_start

界面地址:http://localhost:8675。如果在远程机器上跑,建议先设置 AI_TOOLKIT_AUTH 作为访问密码。


3.2 使用 RunComfy Cloud AI Toolkit(无需本地安装)

如果你不想处理驱动、CUDA 或本地环境,可以用 RunComfy Cloud AI Toolkit

  • AI Toolkit 全程在云端跑,你只需打开浏览器。
  • 可使用 80GB/141GB VRAM 的强力 GPU。
  • 数据集、配置、checkpoint、历史 job 会保存在 RunComfy 的持久工作区里。

直接打开: RunComfy Cloud AI Toolkit


4. Ostris AI Toolkit Web UI 概览(Dashboard、Datasets、New LoRA Job)

4.1 Dashboard 与 Training Queue

Dashboard 用于快速看状态;Training Queue 是“作业控制中心”,可查看运行状态、打开日志、停止/删除任务、下载 checkpoint 与 sample。


4.2 数据集管理(Datasets)

Datasets 页用于创建可复用的数据集条目:既可以创建主训练集,也可以创建用于 DOP 的正则数据集(Is Regularization)。


4.3 New Job:核心配置页

New Job 里按面板组织:Job / Model / Quantization / Target / Save / Training / Regularization / Datasets / Sample。


5. AI Toolkit 的 LoRA 训练基础与核心超参数

LoRA 训练本质是在冻结权重 W 上叠加低秩更新:W_new = W + alpha A B

rank 决定容量,learning rate 与 steps 决定学习强度与时长,数据集与 captions 决定“学什么”。


6. 将 LoRA 概念映射到 AI Toolkit 参数

实用要点:

  • JOBTrigger Word 可在训练时自动前置到 captions(不改文件)。
  • MODEL:gated 模型需要在 Hugging Face 同意许可,并在 .env 配置 HF_TOKEN
  • QUANTIZATION:24GB 训练 Flux/Wan 常用 Transformer = 6-bit 起步。
  • TARGET:rank 一般从 16 起步,不足再考虑 32。
  • SAVE/SAMPLE:建议 Save Every = Sample Every,便于对照每个 checkpoint 的预览结果。
  • Text EncoderCache Text Embeddings 只适用于 captions 基本静态的场景;如果 DOP/动态 prompt 会导致每 step 文本变化,就不要开。
  • DOP:需要 Is Regularization 的正则数据集,并确保正则 caption 不含 trigger。

7. 快速上手:在 AI Toolkit 里训练一个可用的 LoRA

1) 准备干净且多样的数据,选择独特 trigger token。

2) 创建数据集并检查数量/caption/分辨率。

3) New Job 先只动 5 个高影响项:触发方式、rank、steps、learning rate、bucket。

4) 用 3 个 sample prompt 做诊断:激活(有 trigger)、泛化(有 trigger 但换属性)、泄漏测试(无 trigger)。

5) 调参时一次只改一个旋钮。


8. AI Toolkit LoRA 训练排障:常见错误与修复

  • Dataset 为空/找不到:检查 Datasets 页计数、job 的 Target Dataset、JSONL 格式。
  • Hugging Face 下载错误:gated 先同意许可,再配置 HF_TOKEN
  • CUDA OOM:先降 bucket/分辨率,再降 rank,再开 Low VRAM/更激进量化,最后再降 batch/采样开销。
  • 过拟合/泄漏:用更早 checkpoint、降低 steps/rank、略增 weight decay;需要时加正则数据集并启用 DOP。

Ready to start training?