本页是使用 Ostris AI Toolkit 进行 LoRA 微调训练的总览。如果你需要某个模型的专用配方,请直接跳转到这些教程:
- 用 AI Toolkit 训练 FLUX.2 Dev LoRA
- 用 AI Toolkit 训练 LTX-2 LoRA
- 用 AI Toolkit 训练 Z‑Image Turbo LoRA
- 用 AI Toolkit 训练 Qwen Image 2512 LoRA
- 用 AI Toolkit 训练 Qwen‑Image‑Edit‑2511 LoRA
- 用 AI Toolkit 训练 Qwen‑Image‑Edit‑2509 LoRA
- 用 AI Toolkit 训练 Wan 2.2 I2V 14B LoRA
- 用 AI Toolkit 训练 Wan 2.2 T2V 14B LoRA
读完本指南后,你应该能够:
- 理解 LoRA 训练背后的核心概念(微调时模型到底发生了什么变化)。
- 熟悉 AI Toolkit 的整体结构,知道每个面板负责什么。
- 理解 关键参数(learning rate、rank、steps、noise schedule、DOP 等)的意义与影响,从而能“有目的地”调参。
- 能在 本地机器或 RunComfy Cloud AI Toolkit 上训练 LoRA,并在日常的生成工作流中复用。
目录
- 1. 什么是 Ostris AI Toolkit?(扩散模型 LoRA 训练器)
- 2. Ostris AI Toolkit 支持哪些模型(Flux、Wan、Z‑Image、Qwen‑Image、SDXL)
- 3. 本地安装 Ostris AI Toolkit 与使用 RunComfy Cloud AI Toolkit
- 4. Ostris AI Toolkit Web UI 概览(Dashboard、Datasets、New LoRA Job)
- 5. AI Toolkit 的 LoRA 训练基础与核心超参数
- 6. 将 LoRA 概念映射到 AI Toolkit 参数
- 7. 快速上手:在 AI Toolkit 里训练一个可用的 LoRA
- 8. AI Toolkit LoRA 训练排障:常见错误与修复
1. 什么是 Ostris AI Toolkit?(扩散模型 LoRA 训练器)
Ostris AI Toolkit 是一个面向 图像与视频扩散模型 的训练套件。它不处理语言或音频模型;它支持的对象要么是传统 DDPM 风格扩散模型(如 SD 1.5、SDXL),要么是 Flux、Wan、Qwen‑Image、Z‑Image、OmniGen2 等现代 diffusion‑transformer(扩散 Transformer)模型。AI Toolkit 的核心是 LoRA 类适配器:实际训练时并不是重训整个网络,而是在冻结的基座模型之上训练一小组 LoRA(或类似的轻量适配器)。
Ostris AI Toolkit 的 LoRA 训练特性
AI Toolkit 为所有支持的模型家族提供统一的训练引擎与配置系统。不同模型(Flux、Z‑Image Turbo、Wan 2.2、Qwen‑Image、SDXL 等)有各自的预设,但都接入同一套结构:模型加载、量化、LoRA/LoKr 定义、训练超参数、数据集处理与采样规则。因此无论你训练 Flux LoRA、Z‑Image Turbo LoRA 还是 Wan 视频 LoRA,Web UI 的思路与布局都高度一致。
AI Toolkit 同时提供 CLI 与完整 Web UI。CLI 直接读取 YAML 配置执行;Web UI 本质上是 YAML 的图形化配置层。在 UI 中,“AI Toolkit”通常指 New Job 页面:选择模型家族、LoRA 类型与 rank,设置 learning rate 与 steps,绑定数据集,并定义训练过程中生成 sample 图片/视频的频率。你会看到 Job、Model、Quantization、Target、Training、Regularization、Datasets、Sample 等面板,通常不需要手动编辑 YAML。无论本地运行还是使用 RunComfy Cloud AI Toolkit,流程一致。
Ostris AI Toolkit 内置的 LoRA 训练工具
AI Toolkit 内置了不少“开箱即用”的功能:
- 量化与低显存模式 – 可配置 8/6/4 bit(以及带 recovery adapter 的 3 bit)transformer 量化与层级 offload,让 Flux/Wan 等大模型能在 24–48GB 显存上训练,并可在速度/质量间权衡。
- LoRA / LoKr 适配器 – 同时支持标准 LoRA 与 LoKr(更紧凑但兼容性可能更差),通过
Target Type选择。 - DOP(Differential Output Preservation) – 对“正则图像”同时跑 base 与 LoRA 输出,加入惩罚项以抑制不该发生的变化,减少 LoRA “渗漏”(不触发也长得像训练目标)。
- 面向 turbo 模型的 Differential Guidance – 主要用于 Z‑Image Turbo,让训练更聚焦于“相对 base 该改变的部分”,提升 few‑step/turbo 模型的适配深度。
- 多阶段噪声训练 – 高噪声/低噪声分阶段训练,以平衡结构学习与细节锐化。
- Latent 与文本 embedding 缓存 –
Cache Latents/Cache Text Embeddings用磁盘换速度与显存。 - EMA – 可选的指数滑动平均权重副本,帮助收敛更稳定(小数据集时尤其可能有用)。
2. Ostris AI Toolkit 支持哪些模型(Flux、Wan、Z‑Image、Qwen‑Image、SDXL)
AI Toolkit 目前支持以下模型家族:
- IMAGE 模型 – 单图生成(Flux、Z‑Image Turbo、Qwen‑Image、SD 等)
- INSTRUCTION / EDIT 模型 – 图像编辑/指令跟随(Qwen‑Image‑Edit、Flux Kontext、HiDream E1)
- VIDEO 模型 – 文生视频与图生视频(Wan 2.x 系列)
2. Ostris AI Toolkit 支持哪些模型(Flux、Wan、Z‑Image、Qwen‑Image、SDXL)
AI Toolkit 目前支持以下模型家族:
- IMAGE 模型 – 单图生成(Flux、Z‑Image Turbo、Qwen‑Image、SD 等)
- INSTRUCTION / EDIT 模型 – 图像编辑/指令跟随(Qwen‑Image‑Edit、Flux Kontext、HiDream E1)
- VIDEO 模型 – 文生视频与图生视频(Wan 2.x 系列)
| 类别 | AI Toolkit UI 中的模型家族 | 系统要求 / 显存建议 |
|---|---|---|
| IMAGE | FLUX.1 / FLUX.2 | VRAM:LoRA 训练最低 24GB。建议:rank(32–64) 与 1024+ bucket 时建议 48GB+。备注:量化 + Low VRAM 常能让 24GB 成立;SSD 有助于缓存。 |
| INSTRUCTION | FLUX.1‑Kontext‑dev | VRAM:24GB+ 基线;重 conditioning/高分辨率/高 rank 建议 48GB+。 |
| IMAGE | Qwen‑Image, Qwen Image 2512 | VRAM:建议 24GB+;更舒适为 32GB+。 |
| INSTRUCTION | Qwen‑Image‑Edit, Qwen‑Image‑Edit‑2509, Qwen‑Image‑Edit‑2511 | VRAM:建议 32GB+。经验值:1024px 往往 ~27–28.5GB;768px ~25–26GB;24GB 通常吃紧。 |
| IMAGE | Z‑Image Turbo | VRAM:设计上更容易落在 16–24GB。备注:rank 常用 8–16,bucket 512/768/1024 更稳。 |
| VIDEO | Wan 2.2 (14B), Wan 2.2 T2V (14B), Wan 2.2 I2V (14B) | VRAM:24GB 需谨慎设置;建议:48GB+ 更舒适、速度更快。 |
| VIDEO | LTX-2 | VRAM:量化/offload 下 24–48GB 可行;48GB+ 更顺滑。 |
| IMAGE | SD 1.5, SDXL | VRAM:SD 1.5 常见从 8GB+ 起;SDXL 常见 12–16GB+。 |
| IMAGE | OmniGen2 / Chroma / Lumina2 | VRAM:模型相关;24GB 是安全基线,48GB+ 更舒适。 |
| INSTRUCTION | HiDream / HiDream E1 | VRAM:通常建议 48GB+。 |
| IMAGE | Flex.1 / Flex.2 | VRAM:相对轻;很多情况下 12–16GB 也可行(取决于分辨率与是否训练文本侧)。 |
3. 本地安装 Ostris AI Toolkit 与使用 RunComfy Cloud AI Toolkit
3.1 在 Linux / Windows 本地安装 Ostris AI Toolkit
官方 README(GitHub)提供了清晰的安装步骤:
https://github.com/ostris/ai-toolkit
在 Linux 上:
git clone https://github.com/ostris/ai-toolkit.git
cd ai-toolkit
python3 -m venv venv
source venv/bin/activate
# 安装 CUDA 版 PyTorch(如有需要请调整版本)
pip3 install --no-cache-dir torch==2.7.0 torchvision==0.22.0 torchaudio==2.7.0 \
--index-url https://download.pytorch.org/whl/cu126
pip3 install -r requirements.txt
依赖安装完成后启动 Web UI:
cd ui
npm run build_and_start
界面地址:http://localhost:8675。如果在远程机器上跑,建议先设置 AI_TOOLKIT_AUTH 作为访问密码。
3.2 使用 RunComfy Cloud AI Toolkit(无需本地安装)
如果你不想处理驱动、CUDA 或本地环境,可以用 RunComfy Cloud AI Toolkit:
- AI Toolkit 全程在云端跑,你只需打开浏览器。
- 可使用 80GB/141GB VRAM 的强力 GPU。
- 数据集、配置、checkpoint、历史 job 会保存在 RunComfy 的持久工作区里。
直接打开: RunComfy Cloud AI Toolkit
4. Ostris AI Toolkit Web UI 概览(Dashboard、Datasets、New LoRA Job)
4.1 Dashboard 与 Training Queue
Dashboard 用于快速看状态;Training Queue 是“作业控制中心”,可查看运行状态、打开日志、停止/删除任务、下载 checkpoint 与 sample。
4.2 数据集管理(Datasets)
Datasets 页用于创建可复用的数据集条目:既可以创建主训练集,也可以创建用于 DOP 的正则数据集(Is Regularization)。
4.3 New Job:核心配置页
New Job 里按面板组织:Job / Model / Quantization / Target / Save / Training / Regularization / Datasets / Sample。
5. AI Toolkit 的 LoRA 训练基础与核心超参数
LoRA 训练本质是在冻结权重 W 上叠加低秩更新:W_new = W + alpha A B。
rank 决定容量,learning rate 与 steps 决定学习强度与时长,数据集与 captions 决定“学什么”。
6. 将 LoRA 概念映射到 AI Toolkit 参数
实用要点:
- JOB:
Trigger Word可在训练时自动前置到 captions(不改文件)。 - MODEL:gated 模型需要在 Hugging Face 同意许可,并在
.env配置HF_TOKEN。 - QUANTIZATION:24GB 训练 Flux/Wan 常用
Transformer = 6-bit起步。 - TARGET:rank 一般从 16 起步,不足再考虑 32。
- SAVE/SAMPLE:建议
Save Every = Sample Every,便于对照每个 checkpoint 的预览结果。 - Text Encoder:
Cache Text Embeddings只适用于 captions 基本静态的场景;如果 DOP/动态 prompt 会导致每 step 文本变化,就不要开。 - DOP:需要
Is Regularization的正则数据集,并确保正则 caption 不含 trigger。
7. 快速上手:在 AI Toolkit 里训练一个可用的 LoRA
1) 准备干净且多样的数据,选择独特 trigger token。
2) 创建数据集并检查数量/caption/分辨率。
3) New Job 先只动 5 个高影响项:触发方式、rank、steps、learning rate、bucket。
4) 用 3 个 sample prompt 做诊断:激活(有 trigger)、泛化(有 trigger 但换属性)、泄漏测试(无 trigger)。
5) 调参时一次只改一个旋钮。
8. AI Toolkit LoRA 训练排障:常见错误与修复
- Dataset 为空/找不到:检查 Datasets 页计数、job 的
Target Dataset、JSONL 格式。 - Hugging Face 下载错误:gated 先同意许可,再配置
HF_TOKEN。 - CUDA OOM:先降 bucket/分辨率,再降 rank,再开 Low VRAM/更激进量化,最后再降 batch/采样开销。
- 过拟合/泄漏:用更早 checkpoint、降低 steps/rank、略增 weight decay;需要时加正则数据集并启用 DOP。
Ready to start training?

