Z-Image LoRA训练指南（Z-Image Turbo + De-Turbo）：Ostris AI Toolkit

Z‑Image 是由 Tongyi‑MAI 开发的 60亿参数 图像生成模型，基于 Scalable Single‑Stream Diffusion Transformer（S3‑DiT） 架构构建。该模型在同等规模中效率极高，专为在消费级 GPU 上以 1024×1024 分辨率运行而设计。

本 Z-Image Turbo LoRA训练 指南涵盖了 Z‑Image Turbo LoRA 训练最常见、最实用的两种方法：

1) Z‑Image Turbo（带 Training Adapter） — 当你希望 LoRA 在训练后保持 真正的 8 步 Turbo 速度 时的最佳选择。

2) Z‑Image De‑Turbo（De‑Distilled） — 当你需要一个 去蒸馏 的基础模型来进行无需 adapter 的训练，或进行更长时间的微调时的最佳选择。

完成本指南后，你将能够：

根据目标选择正确的 Z‑Image 基础模型（Turbo+adapter vs De‑Turbo）。
准备适用于 Turbo 风格蒸馏训练的数据集。
逐面板配置 Ostris AI Toolkit（本地或 RunComfy Cloud AI Toolkit）。
理解每个参数 为什么 重要，从而能够调整而非简单复制粘贴。

本文是 AI Toolkit LoRA 训练系列的一部分。如果你是 Ostris AI Toolkit 新手，请先阅读 AI Toolkit LoRA 训练概述再深入本指南。

快速开始（推荐基准配置）

选项 A — Turbo + Training Adapter（大多数 LoRA 推荐）

如果你希望进行 Z-Image-Turbo LoRA训练，且训练后 LoRA 保持 Turbo 的快速 8 步行为，请使用此选项。

为什么这很重要：

Turbo 是一个蒸馏的"学生"模型：它将较慢的多步扩散过程压缩为 约 8 步。
如果你像普通模型一样在 Turbo 上训练，你的更新可能会 撤销蒸馏（"Turbo 漂移"），你将需要 更多步数/更高 CFG 才能获得相同质量。
Training Adapter 在训练期间临时"去蒸馏"Turbo，使你的 LoRA 能够学习概念 而不破坏 Turbo 的 8 步行为。推理时移除 adapter，只保留你的 LoRA。

基准设置：

MODEL → Model Architecture： Z‑Image Turbo (w/ Training Adapter)
MODEL → Name or Path： Tongyi-MAI/Z-Image-Turbo
MODEL → Training Adapter Path：

如果 UI 自动填充则保持默认（RunComfy 通常默认使用 v2），或明确设置：

v1：ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
v2：ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors

TARGET → Linear Rank： 16
TRAINING → Learning Rate： 0.0001
TRAINING → Steps： 2500–3000（对于 10–30 张图像）
DATASETS → Resolutions： 512 / 768 / 1024 并开启 Cache Latents
SAMPLE（用于预览）：

1024×1024，8 步（如果你的管道将 9 视为"8 DiT forwards"则使用 9）
Guidance scale = 0（Turbo 已进行 guidance 蒸馏）
每 250 步采样一次

选项 B — De‑Turbo（去蒸馏基础模型）

如果你想无需 Training Adapter 进行训练，或计划更长时间的训练，请使用此选项。

与 Turbo 相比的变化：

De‑Turbo 在训练和采样时表现得更像"普通"扩散模型。
你通常使用 更多步数 和 较低（但非零）的 CFG 进行采样。

MODEL → Model Architecture： Z‑Image De‑Turbo (De‑Distilled)
MODEL → Name or Path： ostris/Z-Image-De-Turbo（或你的 AI Toolkit 版本预选的内容）
Training Adapter Path： 无（不需要）
保持相同的 LoRA 设置（rank/LR/steps）作为基准。
SAMPLE（用于预览）：

20–30 步
CFG（guidance scale）≈ 2–3
每 250 步采样一次

想要零设置？使用 RunComfy Cloud AI Toolkit 并按照完全相同的面板操作。

1. 应该在哪个 Z‑Image 基础模型上训练？（Turbo+adapter vs De‑Turbo）
2. Z‑Image Training Adapter v1 vs v2（有何变化，何时使用）
3. Z‑Image / Z‑Image‑Turbo 简介（用于 LoRA 训练）
4. Z‑Image 训练位置：本地 vs 云端 AI Toolkit
5. 设计 Z‑Image LoRA 训练数据集
6. AI Toolkit 中的 Z‑Image LoRA 配置 – 逐参数详解
7. Z‑Image LoRA 训练实用配方
8. 故障排除（Turbo 漂移、过拟合、VRAM、采样）
9. 导出和使用你的 Z‑Image LoRA
FAQ

1. 应该在哪个 Z‑Image 基础模型上训练？（Turbo+adapter vs De‑Turbo）

AI Toolkit 为 Zimage Turbo LoRA训练 提供了 两个"Model Architecture"选项：

1.1 Z‑Image Turbo（带 Training Adapter）

最适合： 典型的 LoRA（角色、风格、产品），其最终目标是在 8 步的 Turbo 上运行推理。

为什么存在：

Z‑Image Turbo 是一个 步数蒸馏 模型。如果你在步数蒸馏模型上"正常"训练 LoRA，蒸馏可能会快速崩溃，Turbo 开始表现得像一个较慢的非蒸馏模型（质量变化、需要更多步数等）。
Training Adapter 在训练期间充当临时的"去蒸馏 LoRA"。你的 LoRA 学习概念，而 Turbo 的快速 8 步行为保持稳定。
推理时，你移除 Training Adapter，只在真正的 Turbo 基础上保留你的 LoRA。

选择正确路径的实际信号：

你的预览样本在 8 步、guidance ≈ 0 时看起来很好。
你的 LoRA 不会突然开始需要 20–30 步 才能看起来干净（Turbo 漂移的常见迹象）。

1.2 Z‑Image De‑Turbo (De‑Distilled)

最适合： 无 adapter 训练，或 Turbo+adapter 最终会漂移的更长微调。

这是什么：

De‑Turbo 是 Turbo 的 去蒸馏 版本，设计为在训练时更像普通扩散模型。
可以直接无 adapter 训练，也可用于推理（通常 20–30 步，低 CFG）。

1.3 快速决策指南

选择 Turbo + Training Adapter 如果：

你希望 LoRA 在训练后以 Turbo 速度（8 步）运行。
你正在进行正常的 LoRA 训练（几千到几万步）。

选择 De‑Turbo 如果：

你想要训练和采样的"普通模型"行为。
你想训练更长时间，或正在尝试不能很好支持 Training Adapter 的工作流。

2. Z‑Image Training Adapter v1 vs v2（有何变化，何时使用）

在 Training Adapter 仓库中，你通常会看到两个文件：

..._v1.safetensors
..._v2.safetensors

你需要知道的（实际上）：

v1 是安全的基准。
v2 是较新的变体，可能会改变训练动态和结果。

建议： 将其视为 A/B 测试：

保持 数据集、LR、步数、rank 相同
用 v1 训练一次，用 v2 训练一次
在相同检查点比较样本网格

如果你的 RunComfy UI 默认使用 v2 且训练看起来稳定，就保持现状。如果你看到不稳定（噪声、Turbo 漂移、奇怪的伪影），切换到 v1。

3. Z‑Image / Z‑Image‑Turbo 简介（用于 LoRA 训练）

来自官方 Z‑Image 资料：

60亿参数，S3‑DiT 架构 — 文本 token、视觉语义 token 和 VAE latent 被连接成单个 transformer 流。
模型家族 — Z‑Image 系列中存在 Turbo、Base 和 Edit 变体。
Turbo 特性 — 针对快速推理优化；Turbo 推理的 guidance 通常为 0。

LoRA 训练的有用心智模型：

高噪声时间步 主要控制构图（布局、姿势、整体色调）。
低噪声时间步 主要控制细节（面部、手部、纹理）。

这就是为什么时间步设置和偏置可以明显改变 LoRA 感觉像"全局风格"还是"身份/细节"。

4. Z‑Image 训练位置：本地 vs 云端 AI Toolkit

4.1 本地 AI Toolkit

Ostris AI Toolkit 在 GitHub 上开源。它通过统一的 UI 和配置系统支持 ZIT LoRA训练、FLUX、Wan、Qwen 等。

本地训练适合：

你已有 NVIDIA GPU 且不介意 Python / Git 设置。
你想完全控制文件、日志和自定义更改。

仓库：ostris/ai-toolkit

4.2 RunComfy Cloud AI Toolkit

如果你想跳过 CUDA 安装和驱动问题，使用 RunComfy Cloud AI Toolkit：

零设置 — 打开浏览器即可训练。
稳定的 VRAM — 更容易按指南操作，无硬件摩擦。
持久存储 — 更容易迭代和检查点管理。

👉 在此打开：RunComfy Cloud AI Toolkit

5. 设计 Z‑Image LoRA 训练数据集

5.1 实际需要多少张图像？

10–30 张图像 对大多数角色或风格 LoRA 来说是个好范围。
超过约 50 张图像，除非你的风格范围很广，否则通常会遇到收益递减。

Z‑Image 从梯度中强烈学习（"热学习"），因此数据集质量和多样性比原始图像数量更重要：

太少图像 + 太多训练通常表现为 过拟合的面部、重复的姿势或混乱的背景。
小而多样的数据集（角度、光照、背景）往往比大而重复的数据集泛化得更好。

5.2 角色 vs 风格 LoRA

角色 LoRA

目标是同一主体的 12–30 张图像。
混合特写和全身、角度、光照、服装。
描述可以是字面的和一致的；可选的触发词。

风格 LoRA

目标是跨越不同主体（人物、室内、风景、物体）的 15–40 张图像。
正常描述场景；除非你想让它只通过触发词激活，否则不要过度描述风格。

这教的是："用这种风格渲染 任何东西"，而不是"只有当我说特殊关键词时才应用风格"。

5.3 描述、触发词和文本文件

image_01.png → image_01.txt
如果没有 .txt，AI Toolkit 使用 Default Caption。
你可以在描述中使用 [trigger] 并在 JOB 面板设置 Trigger Word。

如果你之后启用 DOP（Differential Output Preservation）使 LoRA 更"可选择性激活"，这尤其有用。

6. AI Toolkit 中的 Z‑Image LoRA 配置 – 逐参数详解

本节我们逐个讲解 UI 面板，解释在进行 Z-Image Turbo LoRA微调 时每个重要字段的作用。

6.1 JOB 面板

Training Name — 描述性标签如 zimage_char_redhair_v1
GPU ID — 本地 GPU 选择器；云端保持默认
Trigger Word（可选） — zchar_redhair / zstyle_pencil

6.2 MODEL 面板（最重要）

这里是 两个基础模型选择 的关键：

如果选择 Turbo + adapter

Model Architecture — Z‑Image Turbo (w/ Training Adapter)
Name or Path — Tongyi-MAI/Z-Image-Turbo

这是 Hugging Face 模型 id（仓库 id）。在大多数 AI Toolkit 版本中，选择 Model Architecture 会 自动填充 这个；除非有理由更改，否则保持原样。
如果要覆盖，使用 Hugging Face 仓库 id 格式：org-or-user/model-name（可选 org-or-user/model-name@revision）。

Training Adapter Path — 保持默认或选择：

v1：ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
v2：ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors

提示：如果你意外地 不使用 adapter 训练 Turbo，最常见的症状是你的 LoRA 只有在提高 steps/CFG 时才"有效"，这违背了 Turbo 的意义。

如果选择 De‑Turbo

Model Architecture — Z‑Image De‑Turbo (De‑Distilled)
Name or Path — ostris/Z-Image-De-Turbo
Training Adapter Path — 无

选项：

Low VRAM / Layer Offloading — 如果 VRAM 受限则启用

6.3 QUANTIZATION 面板

24GB 以上，优先选择 BF16/none 以获得保真度
16GB，float8 通常是最佳折衷

6.4 TARGET 面板 – LoRA 配置

Target Type — LoRA
Linear Rank — 从 8–16 开始

16 用于更强的风格/纹理
8 用于更小、更微妙的 LoRA

6.5 SAVE 面板

Data Type — BF16
Save Every — 250
Max Step Saves to Keep — 4–12

6.6 TRAINING 面板 – 核心超参数

Batch Size — 1
Optimizer — AdamW8Bit
Learning Rate — 从 0.0001 开始
如果不稳定/噪声多，降至 0.00005–0.00008。

避免过高（如 0.0002+）— Turbo 风格模型可能很快变得不稳定。
Weight Decay — 0.0001
Steps — 10–30 张图像用 2500–3000
如果数据集很小（<10 张），考虑 1500–2200 以减少过拟合。
Loss Type — Mean Squared Error
Timestep Type — Weighted
Timestep Bias — Balanced

如果你想要更强的全局风格/氛围，偏向 High Noise。
如果你追求身份/细节，偏向 Low Noise（高级；从 Balanced 开始）。

EMA — OFF

Text Encoder：

Cache Text Embeddings — 如果描述是静态的且 VRAM 紧张则开启
（然后将 Caption Dropout 设为 0）
Unload TE — 描述驱动训练时保持 OFF

正则化：

DOP — 第一次运行保持 OFF；之后为生产级触发词专用 LoRA 添加
（DOP 很强大但增加复杂性；当你已有稳定基准时最容易使用。）

6.7 DATASETS 面板

Caption Dropout Rate

如果不缓存 text embeddings 则 0.05
如果缓存 embeddings 则 0

Cache Latents — ON
Resolutions — 512 / 768 / 1024 是强基准

6.8 SAMPLE 面板（匹配你的基础模型！）

如果训练 Turbo：

1024×1024，8 步，guidance = 0，每 250 步采样

如果训练 De‑Turbo：

1024×1024，20–30 步，CFG 2–3，每 250 步采样

使用反映实际使用的 5–10 个提示词；包含几个不带触发词的提示词以检测泄漏。

6.9 ADVANCED 面板 – Differential Guidance（可选）

Do Differential Guidance — 如果你想要更快收敛则开启
Scale — 从 3 开始
如果样本早期看起来过于锐利/噪声多，降至 2。如果学习慢，可以之后测试 4。

7. Z‑Image LoRA 训练实用配方

Turbo LoRA 的强基准：

Turbo + Training Adapter（v1 或 v2）
rank=16，lr=1e-4，steps=2500–3000
512/768/1024 桶，cache latents ON
每 250 步采样，8 步，guidance 0

如果你的 LoRA 感觉"太强"：

保持训练相同，但计划以较低的 LoRA 权重（如 0.6–0.8）运行推理。

8. 故障排除

"我的 LoRA 破坏了 Turbo——现在需要更多步数/CFG。"

最常见原因：

在 Turbo 上训练时没有使用 Training Adapter，或
LR 过高持续时间过长。

解决方案：

使用 Turbo + Training Adapter 架构
保持 LR ≤ 1e‑4
如果早期看到漂移则减少步数

"风格太强了。"

推理时降低 LoRA 权重（0.6–0.8）
对生产级 LoRA 使用触发词 + DOP（可选择性激活行为）

"手部/背景很乱。"

添加一些包含这些情况的图像
考虑略微偏向低噪声时间步（高级）

"VRAM 不足/太慢。"

禁用高桶（保持 512–1024）
启用 Low VRAM + offloading
量化到 float8
缓存 latents（可选缓存 text embeddings）

FAQ

Z-Image Turbo LoRA训练应该使用 v1 还是 v2 adapter？

从你的 UI 默认值开始。如果结果不稳定或你看到 Z‑Image Turbo 漂移，在保持所有其他设置相同的情况下测试另一个版本。

应该在 Turbo+adapter 还是 De‑Turbo 上训练 Z‑Image？

对于大多数需要保持 8 步 Turbo 行为的 Z‑Image LoRA 使用 Turbo+adapter。如果你想要无 adapter 训练或更长的微调，使用 De‑Turbo。

训练后应该使用什么 Z‑Image 推理设置？

Z‑Image Turbo 通常使用低/零 CFG 和约 8 步。De‑Turbo 表现得更像普通模型（20–30 步，低 CFG）。始终使你的采样设置与你实际使用的基础模型匹配。

9. 使用你的 Z‑Image LoRA

Run LoRA — 打开 Z‑Image Turbo Run LoRA 页面。在这个基础模型的推理页面里，你可以直接选择你在 RunComfy 上训练出来的 LoRA 资产，也可以 import 你用 AI Toolkit 训练好的 LoRA 文件，然后通过 playground 或 API 进行推理。RunComfy 会使用与你训练配置一致的 base model，并复用训练配置里的完整 AI Toolkit pipeline 定义，所以训练时看到什么，推理就得到什么；这种 training/inference 的强对齐能特别保证推理效果与训练采样的一致。
ComfyUI 工作流 — 将你的 LoRA 加载到工作流如 ComfyUI 中的 Z‑Image 工作流

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample