Z‑Image 是由 Tongyi‑MAI 开发的 60亿参数 图像生成模型,基于 Scalable Single‑Stream Diffusion Transformer(S3‑DiT) 架构构建。该模型在同等规模中效率极高,专为在消费级 GPU 上以 1024×1024 分辨率运行而设计。
本 Z-Image Turbo LoRA训练 指南涵盖了 Z‑Image Turbo LoRA 训练最常见、最实用的两种方法:
1) Z‑Image Turbo(带 Training Adapter) — 当你希望 LoRA 在训练后保持 真正的 8 步 Turbo 速度 时的最佳选择。
2) Z‑Image De‑Turbo(De‑Distilled) — 当你需要一个 去蒸馏 的基础模型来进行 无需 adapter 的训练,或进行更长时间的微调时的最佳选择。
完成本指南后,你将能够:
- 根据目标选择正确的 Z‑Image 基础模型(Turbo+adapter vs De‑Turbo)。
- 准备适用于 Turbo 风格蒸馏训练的数据集。
- 逐面板配置 Ostris AI Toolkit(本地或 RunComfy Cloud AI Toolkit)。
- 理解每个参数 为什么 重要,从而能够调整而非简单复制粘贴。
本文是 AI Toolkit LoRA 训练系列的一部分。如果你是 Ostris AI Toolkit 新手,请先阅读 AI Toolkit LoRA 训练概述 再深入本指南。
快速开始(推荐基准配置)
选项 A — Turbo + Training Adapter(大多数 LoRA 推荐)
如果你希望进行 Z-Image-Turbo LoRA训练,且训练后 LoRA 保持 Turbo 的快速 8 步行为,请使用此选项。
为什么这很重要:
- Turbo 是一个蒸馏的"学生"模型:它将较慢的多步扩散过程压缩为 约 8 步。
- 如果你像普通模型一样在 Turbo 上训练,你的更新可能会 撤销蒸馏("Turbo 漂移"),你将需要 更多步数/更高 CFG 才能获得相同质量。
- Training Adapter 在训练期间临时"去蒸馏"Turbo,使你的 LoRA 能够学习概念 而不破坏 Turbo 的 8 步行为。推理时移除 adapter,只保留你的 LoRA。
基准设置:
- MODEL → Model Architecture:
Z‑Image Turbo (w/ Training Adapter) - MODEL → Name or Path:
Tongyi-MAI/Z-Image-Turbo - MODEL → Training Adapter Path:
- 如果 UI 自动填充则保持默认(RunComfy 通常默认使用 v2),或明确设置:
- v1:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors - TARGET → Linear Rank:
16 - TRAINING → Learning Rate:
0.0001 - TRAINING → Steps:
2500–3000(对于 10–30 张图像) - DATASETS → Resolutions:
512 / 768 / 1024并开启 Cache Latents - SAMPLE(用于预览):
1024×1024,8 步(如果你的管道将 9 视为"8 DiT forwards"则使用9)- Guidance scale = 0(Turbo 已进行 guidance 蒸馏)
- 每
250步采样一次
选项 B — De‑Turbo(去蒸馏基础模型)
如果你想 无需 Training Adapter 进行训练,或计划更长时间的训练,请使用此选项。
与 Turbo 相比的变化:
- De‑Turbo 在训练和采样时表现得更像"普通"扩散模型。
- 你通常使用 更多步数 和 较低(但非零)的 CFG 进行采样。
- MODEL → Model Architecture:
Z‑Image De‑Turbo (De‑Distilled) - MODEL → Name or Path:
ostris/Z-Image-De-Turbo(或你的 AI Toolkit 版本预选的内容) - Training Adapter Path: 无(不需要)
- 保持相同的 LoRA 设置(rank/LR/steps)作为基准。
- SAMPLE(用于预览):
- 20–30 步
- CFG(guidance scale)≈ 2–3
- 每
250步采样一次
想要零设置?使用 RunComfy Cloud AI Toolkit 并按照完全相同的面板操作。
目录
- 1. 应该在哪个 Z‑Image 基础模型上训练?(Turbo+adapter vs De‑Turbo)
- 2. Z‑Image Training Adapter v1 vs v2(有何变化,何时使用)
- 3. Z‑Image / Z‑Image‑Turbo 简介(用于 LoRA 训练)
- 4. Z‑Image 训练位置:本地 vs 云端 AI Toolkit
- 5. 设计 Z‑Image LoRA 训练数据集
- 6. AI Toolkit 中的 Z‑Image LoRA 配置 – 逐参数详解
- 7. Z‑Image LoRA 训练实用配方
- 8. 故障排除(Turbo 漂移、过拟合、VRAM、采样)
- 9. 导出和使用你的 Z‑Image LoRA
- FAQ
1. 应该在哪个 Z‑Image 基础模型上训练?(Turbo+adapter vs De‑Turbo)
AI Toolkit 为 Zimage Turbo LoRA训练 提供了 两个"Model Architecture"选项:
1.1 Z‑Image Turbo(带 Training Adapter)
最适合: 典型的 LoRA(角色、风格、产品),其最终目标是在 8 步的 Turbo 上运行推理。
为什么存在:
- Z‑Image Turbo 是一个 步数蒸馏 模型。如果你在步数蒸馏模型上"正常"训练 LoRA,蒸馏可能会快速崩溃,Turbo 开始表现得像一个较慢的非蒸馏模型(质量变化、需要更多步数等)。
- Training Adapter 在训练期间充当临时的"去蒸馏 LoRA"。你的 LoRA 学习概念,而 Turbo 的快速 8 步行为保持稳定。
- 推理时,你移除 Training Adapter,只在真正的 Turbo 基础上保留你的 LoRA。
选择正确路径的实际信号:
- 你的预览样本在 8 步、guidance ≈ 0 时看起来很好。
- 你的 LoRA 不会突然开始需要 20–30 步 才能看起来干净(Turbo 漂移的常见迹象)。
1.2 Z‑Image De‑Turbo (De‑Distilled)
最适合: 无 adapter 训练,或 Turbo+adapter 最终会漂移的更长微调。
这是什么:
- De‑Turbo 是 Turbo 的 去蒸馏 版本,设计为在训练时更像普通扩散模型。
- 可以直接无 adapter 训练,也可用于推理(通常 20–30 步,低 CFG)。
1.3 快速决策指南
选择 Turbo + Training Adapter 如果:
- 你希望 LoRA 在训练后以 Turbo 速度(8 步)运行。
- 你正在进行正常的 LoRA 训练(几千到几万步)。
选择 De‑Turbo 如果:
- 你想要训练和采样的"普通模型"行为。
- 你想训练更长时间,或正在尝试不能很好支持 Training Adapter 的工作流。
2. Z‑Image Training Adapter v1 vs v2(有何变化,何时使用)
在 Training Adapter 仓库中,你通常会看到两个文件:
..._v1.safetensors..._v2.safetensors
你需要知道的(实际上):
- v1 是安全的基准。
- v2 是较新的变体,可能会改变训练动态和结果。
建议: 将其视为 A/B 测试:
- 保持 数据集、LR、步数、rank 相同
- 用 v1 训练一次,用 v2 训练一次
- 在相同检查点比较样本网格
如果你的 RunComfy UI 默认使用 v2 且训练看起来稳定,就保持现状。如果你看到不稳定(噪声、Turbo 漂移、奇怪的伪影),切换到 v1。
3. Z‑Image / Z‑Image‑Turbo 简介(用于 LoRA 训练)
来自官方 Z‑Image 资料:
- 60亿参数,S3‑DiT 架构 — 文本 token、视觉语义 token 和 VAE latent 被连接成单个 transformer 流。
- 模型家族 — Z‑Image 系列中存在 Turbo、Base 和 Edit 变体。
- Turbo 特性 — 针对快速推理优化;Turbo 推理的 guidance 通常为 0。
LoRA 训练的有用心智模型:
- 高噪声时间步 主要控制 构图(布局、姿势、整体色调)。
- 低噪声时间步 主要控制 细节(面部、手部、纹理)。
这就是为什么时间步设置和偏置可以明显改变 LoRA 感觉像"全局风格"还是"身份/细节"。
4. Z‑Image 训练位置:本地 vs 云端 AI Toolkit
4.1 本地 AI Toolkit
Ostris AI Toolkit 在 GitHub 上开源。它通过统一的 UI 和配置系统支持 ZIT LoRA训练、FLUX、Wan、Qwen 等。
本地训练适合:
- 你已有 NVIDIA GPU 且不介意 Python / Git 设置。
- 你想完全控制文件、日志和自定义更改。
4.2 RunComfy Cloud AI Toolkit
如果你想跳过 CUDA 安装和驱动问题,使用 RunComfy Cloud AI Toolkit:
- 零设置 — 打开浏览器即可训练。
- 稳定的 VRAM — 更容易按指南操作,无硬件摩擦。
- 持久存储 — 更容易迭代和检查点管理。
👉 在此打开:RunComfy Cloud AI Toolkit
5. 设计 Z‑Image LoRA 训练数据集
5.1 实际需要多少张图像?
- 10–30 张图像 对大多数角色或风格 LoRA 来说是个好范围。
- 超过约 50 张图像,除非你的风格范围很广,否则通常会遇到收益递减。
Z‑Image 从梯度中强烈学习("热学习"),因此数据集质量和多样性比原始图像数量更重要:
- 太少图像 + 太多训练通常表现为 过拟合的面部、重复的姿势或混乱的背景。
- 小而多样的数据集(角度、光照、背景)往往比大而重复的数据集泛化得更好。
5.2 角色 vs 风格 LoRA
角色 LoRA
- 目标是同一主体的 12–30 张图像。
- 混合特写和全身、角度、光照、服装。
- 描述可以是字面的和一致的;可选的触发词。
风格 LoRA
- 目标是跨越不同主体(人物、室内、风景、物体)的 15–40 张图像。
- 正常描述场景;除非你想让它只通过触发词激活,否则不要过度描述风格。
- 这教的是:"用这种风格渲染 任何东西",而不是"只有当我说特殊关键词时才应用风格"。
5.3 描述、触发词和文本文件
image_01.png→image_01.txt- 如果没有
.txt,AI Toolkit 使用 Default Caption。 - 你可以在描述中使用
[trigger]并在 JOB 面板设置 Trigger Word。 - 如果你之后启用 DOP(Differential Output Preservation)使 LoRA 更"可选择性激活",这尤其有用。
6. AI Toolkit 中的 Z‑Image LoRA 配置 – 逐参数详解
本节我们逐个讲解 UI 面板,解释在进行 Z-Image Turbo LoRA微调 时每个重要字段的作用。
6.1 JOB 面板
- Training Name — 描述性标签如
zimage_char_redhair_v1 - GPU ID — 本地 GPU 选择器;云端保持默认
- Trigger Word(可选) —
zchar_redhair/zstyle_pencil
6.2 MODEL 面板(最重要)
这里是 两个基础模型选择 的关键:
如果选择 Turbo + adapter
- Model Architecture —
Z‑Image Turbo (w/ Training Adapter) - Name or Path —
Tongyi-MAI/Z-Image-Turbo - 这是 Hugging Face 模型 id(仓库 id)。在大多数 AI Toolkit 版本中,选择 Model Architecture 会 自动填充 这个;除非有理由更改,否则保持原样。
- 如果要覆盖,使用 Hugging Face 仓库 id 格式:
org-or-user/model-name(可选org-or-user/model-name@revision)。 - Training Adapter Path — 保持默认或选择:
- v1:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
提示:如果你意外地 不使用 adapter 训练 Turbo,最常见的症状是你的 LoRA 只有在提高 steps/CFG 时才"有效",这违背了 Turbo 的意义。
如果选择 De‑Turbo
- Model Architecture —
Z‑Image De‑Turbo (De‑Distilled) - Name or Path —
ostris/Z-Image-De-Turbo - Training Adapter Path — 无
选项:
- Low VRAM / Layer Offloading — 如果 VRAM 受限则启用
6.3 QUANTIZATION 面板
- 24GB 以上,优先选择
BF16/none以获得保真度 - 16GB,
float8通常是最佳折衷
6.4 TARGET 面板 – LoRA 配置
- Target Type —
LoRA - Linear Rank — 从
8–16开始 16用于更强的风格/纹理8用于更小、更微妙的 LoRA
6.5 SAVE 面板
- Data Type —
BF16 - Save Every —
250 - Max Step Saves to Keep —
4–12
6.6 TRAINING 面板 – 核心超参数
- Batch Size —
1 - Optimizer —
AdamW8Bit - Learning Rate — 从
0.0001开始如果不稳定/噪声多,降至
0.00005–0.00008。避免过高(如
0.0002+)— Turbo 风格模型可能很快变得不稳定。 - Weight Decay —
0.0001 - Steps — 10–30 张图像用
2500–3000如果数据集很小(<10 张),考虑
1500–2200以减少过拟合。 - Loss Type —
Mean Squared Error - Timestep Type —
Weighted - Timestep Bias —
Balanced - 如果你想要更强的全局风格/氛围,偏向 High Noise。
- 如果你追求身份/细节,偏向 Low Noise(高级;从 Balanced 开始)。
- EMA — OFF
Text Encoder:
- Cache Text Embeddings — 如果描述是静态的且 VRAM 紧张则开启
(然后将 Caption Dropout 设为 0)
- Unload TE — 描述驱动训练时保持 OFF
正则化:
- DOP — 第一次运行保持 OFF;之后为生产级触发词专用 LoRA 添加
(DOP 很强大但增加复杂性;当你已有稳定基准时最容易使用。)
6.7 DATASETS 面板
- Caption Dropout Rate
- 如果不缓存 text embeddings 则
0.05 - 如果缓存 embeddings 则
0 - Cache Latents — ON
- Resolutions —
512 / 768 / 1024是强基准
6.8 SAMPLE 面板(匹配你的基础模型!)
如果训练 Turbo:
1024×1024,8 步,guidance = 0,每250步采样
如果训练 De‑Turbo:
1024×1024,20–30 步,CFG 2–3,每250步采样
使用反映实际使用的 5–10 个提示词;包含几个不带触发词的提示词以检测泄漏。
6.9 ADVANCED 面板 – Differential Guidance(可选)
- Do Differential Guidance — 如果你想要更快收敛则开启
- Scale — 从
3开始如果样本早期看起来过于锐利/噪声多,降至
2。如果学习慢,可以之后测试4。
7. Z‑Image LoRA 训练实用配方
Turbo LoRA 的强基准:
- Turbo + Training Adapter(v1 或 v2)
rank=16,lr=1e-4,steps=2500–3000512/768/1024桶,cache latents ON- 每 250 步采样,8 步,guidance 0
如果你的 LoRA 感觉"太强":
- 保持训练相同,但计划以较低的 LoRA 权重(如
0.6–0.8)运行推理。
8. 故障排除
"我的 LoRA 破坏了 Turbo——现在需要更多步数/CFG。"
- 最常见原因:
- 在 Turbo 上训练时没有使用 Training Adapter,或
- LR 过高持续时间过长。
- 解决方案:
- 使用 Turbo + Training Adapter 架构
- 保持 LR ≤ 1e‑4
- 如果早期看到漂移则减少步数
"风格太强了。"
- 推理时降低 LoRA 权重(0.6–0.8)
- 对生产级 LoRA 使用触发词 + DOP(可选择性激活行为)
"手部/背景很乱。"
- 添加一些包含这些情况的图像
- 考虑略微偏向低噪声时间步(高级)
"VRAM 不足/太慢。"
- 禁用高桶(保持 512–1024)
- 启用 Low VRAM + offloading
- 量化到 float8
- 缓存 latents(可选缓存 text embeddings)
9. 使用你的 Z‑Image LoRA
- Model playground — 通过 Z‑Image Turbo LoRA playground 在基础模型上试用你的 LoRA
- ComfyUI 工作流 — 将你的 LoRA 加载到工作流如 ComfyUI 中的 Z‑Image 工作流
FAQ
Z-Image Turbo LoRA训练应该使用 v1 还是 v2 adapter?
从你的 UI 默认值开始。如果结果不稳定或你看到 Z‑Image Turbo 漂移,在保持所有其他设置相同的情况下测试另一个版本。
应该在 Turbo+adapter 还是 De‑Turbo 上训练 Z‑Image?
对于大多数需要保持 8 步 Turbo 行为的 Z‑Image LoRA 使用 Turbo+adapter。如果你想要无 adapter 训练或更长的微调,使用 De‑Turbo。
训练后应该使用什么 Z‑Image 推理设置?
Z‑Image Turbo 通常使用低/零 CFG 和约 8 步。De‑Turbo 表现得更像普通模型(20–30 步,低 CFG)。始终使你的采样设置与你实际使用的基础模型匹配。
更多 AI Toolkit LoRA 训练指南
准备好开始训练了吗?

