AI Toolkit LoRA 训练指南

使用Ostris AI Toolkit训练Z-Image LoRA(Z-Image Turbo + De-Turbo)

本指南讲解如何用Ostris AI Toolkit训练高质量的Z-Image LoRA:先选择合适的底模(Turbo + training adapter vs De-Turbo),再从数据集设计、rank/LR/步数到采样设置逐步调优,以获得稳定且可复现的效果,并降低Turbo漂移风险。

使用 Ostris AI Toolkit 训练扩散模型

水平滚动查看完整表单

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Z‑Image 是由 Tongyi‑MAI 开发的 60亿参数 图像生成模型,基于 Scalable Single‑Stream Diffusion Transformer(S3‑DiT) 架构构建。该模型在同等规模中效率极高,专为在消费级 GPU 上以 1024×1024 分辨率运行而设计。

Z-Image Turbo LoRA训练 指南涵盖了 Z‑Image Turbo LoRA 训练最常见、最实用的两种方法:

1) Z‑Image Turbo(带 Training Adapter) — 当你希望 LoRA 在训练后保持 真正的 8 步 Turbo 速度 时的最佳选择。

2) Z‑Image De‑Turbo(De‑Distilled) — 当你需要一个 去蒸馏 的基础模型来进行 无需 adapter 的训练,或进行更长时间的微调时的最佳选择。

完成本指南后,你将能够:

  • 根据目标选择正确的 Z‑Image 基础模型(Turbo+adapter vs De‑Turbo)。
  • 准备适用于 Turbo 风格蒸馏训练的数据集。
  • 逐面板配置 Ostris AI Toolkit(本地或 RunComfy Cloud AI Toolkit)。
  • 理解每个参数 为什么 重要,从而能够调整而非简单复制粘贴。
本文是 AI Toolkit LoRA 训练系列的一部分。如果你是 Ostris AI Toolkit 新手,请先阅读 AI Toolkit LoRA 训练概述 再深入本指南。

快速开始(推荐基准配置)

选项 A — Turbo + Training Adapter(大多数 LoRA 推荐)

如果你希望进行 Z-Image-Turbo LoRA训练,且训练后 LoRA 保持 Turbo 的快速 8 步行为,请使用此选项。

为什么这很重要:

  • Turbo 是一个蒸馏的"学生"模型:它将较慢的多步扩散过程压缩为 约 8 步
  • 如果你像普通模型一样在 Turbo 上训练,你的更新可能会 撤销蒸馏("Turbo 漂移"),你将需要 更多步数/更高 CFG 才能获得相同质量。
  • Training Adapter 在训练期间临时"去蒸馏"Turbo,使你的 LoRA 能够学习概念 而不破坏 Turbo 的 8 步行为。推理时移除 adapter,只保留你的 LoRA。

基准设置:

  1. MODEL → Model Architecture: Z‑Image Turbo (w/ Training Adapter)
  2. MODEL → Name or Path: Tongyi-MAI/Z-Image-Turbo
  3. MODEL → Training Adapter Path:
    • 如果 UI 自动填充则保持默认(RunComfy 通常默认使用 v2),或明确设置:
      • v1:ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
      • v2:ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
  4. TARGET → Linear Rank: 16
  5. TRAINING → Learning Rate: 0.0001
  6. TRAINING → Steps: 2500–3000(对于 10–30 张图像)
  7. DATASETS → Resolutions: 512 / 768 / 1024 并开启 Cache Latents
  8. SAMPLE(用于预览):
    • 1024×10248 步(如果你的管道将 9 视为"8 DiT forwards"则使用 9
    • Guidance scale = 0(Turbo 已进行 guidance 蒸馏)
    • 250 步采样一次

选项 B — De‑Turbo(去蒸馏基础模型)

如果你想 无需 Training Adapter 进行训练,或计划更长时间的训练,请使用此选项。

与 Turbo 相比的变化:

  • De‑Turbo 在训练和采样时表现得更像"普通"扩散模型。
  • 你通常使用 更多步数较低(但非零)的 CFG 进行采样。
  1. MODEL → Model Architecture: Z‑Image De‑Turbo (De‑Distilled)
  2. MODEL → Name or Path: ostris/Z-Image-De-Turbo(或你的 AI Toolkit 版本预选的内容)
  3. Training Adapter Path: 无(不需要)
  4. 保持相同的 LoRA 设置(rank/LR/steps)作为基准。
  5. SAMPLE(用于预览):
    • 20–30 步
    • CFG(guidance scale)≈ 2–3
    • 250 步采样一次
想要零设置?使用 RunComfy Cloud AI Toolkit 并按照完全相同的面板操作。

目录


1. 应该在哪个 Z‑Image 基础模型上训练?(Turbo+adapter vs De‑Turbo)

AI Toolkit 为 Zimage Turbo LoRA训练 提供了 两个"Model Architecture"选项

1.1 Z‑Image Turbo(带 Training Adapter)

最适合: 典型的 LoRA(角色、风格、产品),其最终目标是在 8 步的 Turbo 上运行推理。

为什么存在:

  • Z‑Image Turbo 是一个 步数蒸馏 模型。如果你在步数蒸馏模型上"正常"训练 LoRA,蒸馏可能会快速崩溃,Turbo 开始表现得像一个较慢的非蒸馏模型(质量变化、需要更多步数等)。
  • Training Adapter 在训练期间充当临时的"去蒸馏 LoRA"。你的 LoRA 学习概念,而 Turbo 的快速 8 步行为保持稳定。
  • 推理时,你移除 Training Adapter,只在真正的 Turbo 基础上保留你的 LoRA。

选择正确路径的实际信号:

  • 你的预览样本在 8 步guidance ≈ 0 时看起来很好。
  • 你的 LoRA 不会突然开始需要 20–30 步 才能看起来干净(Turbo 漂移的常见迹象)。

1.2 Z‑Image De‑Turbo (De‑Distilled)

最适合: 无 adapter 训练,或 Turbo+adapter 最终会漂移的更长微调。

这是什么:

  • De‑Turbo 是 Turbo 的 去蒸馏 版本,设计为在训练时更像普通扩散模型。
  • 可以直接无 adapter 训练,也可用于推理(通常 20–30 步低 CFG)。

1.3 快速决策指南

选择 Turbo + Training Adapter 如果:

  • 你希望 LoRA 在训练后以 Turbo 速度(8 步)运行。
  • 你正在进行正常的 LoRA 训练(几千到几万步)。

选择 De‑Turbo 如果:

  • 你想要训练和采样的"普通模型"行为。
  • 你想训练更长时间,或正在尝试不能很好支持 Training Adapter 的工作流。

2. Z‑Image Training Adapter v1 vs v2(有何变化,何时使用)

在 Training Adapter 仓库中,你通常会看到两个文件:

  • ..._v1.safetensors
  • ..._v2.safetensors

你需要知道的(实际上):

  • v1 是安全的基准。
  • v2 是较新的变体,可能会改变训练动态和结果。

建议: 将其视为 A/B 测试:

  • 保持 数据集、LR、步数、rank 相同
  • 用 v1 训练一次,用 v2 训练一次
  • 在相同检查点比较样本网格

如果你的 RunComfy UI 默认使用 v2 且训练看起来稳定,就保持现状。如果你看到不稳定(噪声、Turbo 漂移、奇怪的伪影),切换到 v1。


3. Z‑Image / Z‑Image‑Turbo 简介(用于 LoRA 训练)

来自官方 Z‑Image 资料:

  • 60亿参数,S3‑DiT 架构 — 文本 token、视觉语义 token 和 VAE latent 被连接成单个 transformer 流。
  • 模型家族 — Z‑Image 系列中存在 Turbo、Base 和 Edit 变体。
  • Turbo 特性 — 针对快速推理优化;Turbo 推理的 guidance 通常为 0

LoRA 训练的有用心智模型:

  • 高噪声时间步 主要控制 构图(布局、姿势、整体色调)。
  • 低噪声时间步 主要控制 细节(面部、手部、纹理)。

这就是为什么时间步设置和偏置可以明显改变 LoRA 感觉像"全局风格"还是"身份/细节"。


4. Z‑Image 训练位置:本地 vs 云端 AI Toolkit

4.1 本地 AI Toolkit

Ostris AI Toolkit 在 GitHub 上开源。它通过统一的 UI 和配置系统支持 ZIT LoRA训练、FLUX、Wan、Qwen 等。

本地训练适合:

  • 你已有 NVIDIA GPU 且不介意 Python / Git 设置。
  • 你想完全控制文件、日志和自定义更改。

仓库:ostris/ai-toolkit


4.2 RunComfy Cloud AI Toolkit

如果你想跳过 CUDA 安装和驱动问题,使用 RunComfy Cloud AI Toolkit

  • 零设置 — 打开浏览器即可训练。
  • 稳定的 VRAM — 更容易按指南操作,无硬件摩擦。
  • 持久存储 — 更容易迭代和检查点管理。

👉 在此打开:RunComfy Cloud AI Toolkit


5. 设计 Z‑Image LoRA 训练数据集

5.1 实际需要多少张图像?

  • 10–30 张图像 对大多数角色或风格 LoRA 来说是个好范围。
  • 超过约 50 张图像,除非你的风格范围很广,否则通常会遇到收益递减。

Z‑Image 从梯度中强烈学习("热学习"),因此数据集质量和多样性比原始图像数量更重要:

  • 太少图像 + 太多训练通常表现为 过拟合的面部、重复的姿势或混乱的背景。
  • 小而多样的数据集(角度、光照、背景)往往比大而重复的数据集泛化得更好。

5.2 角色 vs 风格 LoRA

角色 LoRA

  • 目标是同一主体的 12–30 张图像
  • 混合特写和全身、角度、光照、服装。
  • 描述可以是字面的和一致的;可选的触发词。

风格 LoRA

  • 目标是跨越不同主体(人物、室内、风景、物体)的 15–40 张图像
  • 正常描述场景;除非你想让它只通过触发词激活,否则不要过度描述风格。
    • 这教的是:"用这种风格渲染 任何东西",而不是"只有当我说特殊关键词时才应用风格"。

5.3 描述、触发词和文本文件

  • image_01.pngimage_01.txt
  • 如果没有 .txt,AI Toolkit 使用 Default Caption
  • 你可以在描述中使用 [trigger] 并在 JOB 面板设置 Trigger Word
    • 如果你之后启用 DOP(Differential Output Preservation)使 LoRA 更"可选择性激活",这尤其有用。

6. AI Toolkit 中的 Z‑Image LoRA 配置 – 逐参数详解

本节我们逐个讲解 UI 面板,解释在进行 Z-Image Turbo LoRA微调 时每个重要字段的作用。

6.1 JOB 面板

  • Training Name — 描述性标签如 zimage_char_redhair_v1
  • GPU ID — 本地 GPU 选择器;云端保持默认
  • Trigger Word(可选)zchar_redhair / zstyle_pencil

6.2 MODEL 面板(最重要)

这里是 两个基础模型选择 的关键:

如果选择 Turbo + adapter

  • Model ArchitectureZ‑Image Turbo (w/ Training Adapter)
  • Name or PathTongyi-MAI/Z-Image-Turbo
    • 这是 Hugging Face 模型 id(仓库 id)。在大多数 AI Toolkit 版本中,选择 Model Architecture 会 自动填充 这个;除非有理由更改,否则保持原样。
    • 如果要覆盖,使用 Hugging Face 仓库 id 格式:org-or-user/model-name(可选 org-or-user/model-name@revision)。
  • Training Adapter Path — 保持默认或选择:
    • v1:ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
    • v2:ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
提示:如果你意外地 不使用 adapter 训练 Turbo,最常见的症状是你的 LoRA 只有在提高 steps/CFG 时才"有效",这违背了 Turbo 的意义。

如果选择 De‑Turbo

  • Model ArchitectureZ‑Image De‑Turbo (De‑Distilled)
  • Name or Pathostris/Z-Image-De-Turbo
  • Training Adapter Path — 无

选项:

  • Low VRAM / Layer Offloading — 如果 VRAM 受限则启用

6.3 QUANTIZATION 面板

  • 24GB 以上,优先选择 BF16/none 以获得保真度
  • 16GBfloat8 通常是最佳折衷

6.4 TARGET 面板 – LoRA 配置

  • Target TypeLoRA
  • Linear Rank — 从 8–16 开始
    • 16 用于更强的风格/纹理
    • 8 用于更小、更微妙的 LoRA

6.5 SAVE 面板

  • Data TypeBF16
  • Save Every250
  • Max Step Saves to Keep4–12

6.6 TRAINING 面板 – 核心超参数

  • Batch Size1
  • OptimizerAdamW8Bit
  • Learning Rate — 从 0.0001 开始

    如果不稳定/噪声多,降至 0.00005–0.00008

    避免过高(如 0.0002+)— Turbo 风格模型可能很快变得不稳定。

  • Weight Decay0.0001
  • Steps — 10–30 张图像用 2500–3000

    如果数据集很小(<10 张),考虑 1500–2200 以减少过拟合。

  • Loss TypeMean Squared Error
  • Timestep TypeWeighted
  • Timestep BiasBalanced
    • 如果你想要更强的全局风格/氛围,偏向 High Noise
    • 如果你追求身份/细节,偏向 Low Noise(高级;从 Balanced 开始)。
  • EMA — OFF

Text Encoder:

  • Cache Text Embeddings — 如果描述是静态的且 VRAM 紧张则开启

    (然后将 Caption Dropout 设为 0)

  • Unload TE — 描述驱动训练时保持 OFF

正则化:

  • DOP — 第一次运行保持 OFF;之后为生产级触发词专用 LoRA 添加

    (DOP 很强大但增加复杂性;当你已有稳定基准时最容易使用。)


6.7 DATASETS 面板

  • Caption Dropout Rate
    • 如果不缓存 text embeddings 则 0.05
    • 如果缓存 embeddings 则 0
  • Cache Latents — ON
  • Resolutions512 / 768 / 1024 是强基准

6.8 SAMPLE 面板(匹配你的基础模型!)

如果训练 Turbo:

  • 1024×10248 步guidance = 0,每 250 步采样

如果训练 De‑Turbo:

  • 1024×102420–30 步CFG 2–3,每 250 步采样

使用反映实际使用的 5–10 个提示词;包含几个不带触发词的提示词以检测泄漏。


6.9 ADVANCED 面板 – Differential Guidance(可选)

  • Do Differential Guidance — 如果你想要更快收敛则开启
  • Scale — 从 3 开始

    如果样本早期看起来过于锐利/噪声多,降至 2。如果学习慢,可以之后测试 4


7. Z‑Image LoRA 训练实用配方

Turbo LoRA 的强基准:

  • Turbo + Training Adapter(v1 或 v2)
  • rank=16lr=1e-4steps=2500–3000
  • 512/768/1024 桶,cache latents ON
  • 每 250 步采样,8 步,guidance 0

如果你的 LoRA 感觉"太强":

  • 保持训练相同,但计划以较低的 LoRA 权重(如 0.6–0.8)运行推理。

8. 故障排除

"我的 LoRA 破坏了 Turbo——现在需要更多步数/CFG。"

  • 最常见原因:
    • 在 Turbo 上训练时没有使用 Training Adapter,或
    • LR 过高持续时间过长。
  • 解决方案:
    • 使用 Turbo + Training Adapter 架构
    • 保持 LR ≤ 1e‑4
    • 如果早期看到漂移则减少步数

"风格太强了。"

  • 推理时降低 LoRA 权重(0.6–0.8)
  • 对生产级 LoRA 使用触发词 + DOP(可选择性激活行为)

"手部/背景很乱。"

  • 添加一些包含这些情况的图像
  • 考虑略微偏向低噪声时间步(高级)

"VRAM 不足/太慢。"

  • 禁用高桶(保持 512–1024)
  • 启用 Low VRAM + offloading
  • 量化到 float8
  • 缓存 latents(可选缓存 text embeddings)

9. 使用你的 Z‑Image LoRA


FAQ

Z-Image Turbo LoRA训练应该使用 v1 还是 v2 adapter?

从你的 UI 默认值开始。如果结果不稳定或你看到 Z‑Image Turbo 漂移,在保持所有其他设置相同的情况下测试另一个版本。

应该在 Turbo+adapter 还是 De‑Turbo 上训练 Z‑Image?

对于大多数需要保持 8 步 Turbo 行为的 Z‑Image LoRA 使用 Turbo+adapter。如果你想要无 adapter 训练或更长的微调,使用 De‑Turbo。

训练后应该使用什么 Z‑Image 推理设置?

Z‑Image Turbo 通常使用低/零 CFG 和约 8 步。De‑Turbo 表现得更像普通模型(20–30 步,低 CFG)。始终使你的采样设置与你实际使用的基础模型匹配。


更多 AI Toolkit LoRA 训练指南

准备好开始训练了吗?