使用 Ostris AI Toolkit 进行 Z‑Image（Base）LoRA 训练

Z‑Image（Base）是 Z‑Image 的完整版 checkpoint（不是 8 步 Turbo）。它面向高质量文生图（text‑to‑image）而设计，支持 CFG + 负向提示词，并且通常需要更多采样步数；如果你的目标是做一个干净、可完全控制的 LoRA（角色、风格、产品、文字/排版重度概念），Z‑Image（Base）也是最合适的底座选择。

在本篇 Z‑Image LoRA 训练教程结束后，你将能够：

使用 Ostris AI Toolkit（本地或云端）完成一次 Z‑Image LoRA 训练。
选择真正匹配 Z‑Image Base 推理行为的默认设置（steps + CFG + 分辨率）。
避开 Z‑Image Base LoRA 训练最常见的坑（Turbo 采样设置、 “LoRA 没效果”、Base↔Turbo 不匹配）。
导出可以立刻在推理 UI 中使用的 checkpoint。

本文是 AI Toolkit LoRA 训练系列的一部分。如果你是 Ostris AI Toolkit 新手，建议先阅读 AI Toolkit LoRA 训练概述 再进入本篇 Z‑Image LoRA 训练：

https://www.runcomfy.com/zh-CN/trainer/ai-toolkit/getting-started

1. Z‑Image 概览：它能做什么（以及与 Turbo 的区别）
2. 环境选择：本地 AI Toolkit vs RunComfy 云端 AI Toolkit
3. Z‑Image Base LoRA 训练的硬件与 VRAM 要求
4. 构建 Z‑Image Base LoRA 训练数据集
5. 逐步操作：在 AI Toolkit 中进行 Z‑Image LoRA 训练
6. 按 VRAM 档位推荐的 Z‑Image LoRA 训练配置
7. Z‑Image Base 训练常见问题与解决方案
8. 训练完成后如何使用你的 Z‑Image Base LoRA

1. Z‑Image 概览：它能做什么（以及与 Turbo 的区别）

1.1 “Z‑Image Base”是什么意思

“Z‑Image Base”指的是 非蒸馏（non‑distilled） 的 Z‑Image checkpoint。实际表现上：

需要更多采样步数（通常 ~30–50，而不是 8）。
能有效利用 CFG 和 负向提示词。
如果你想要更强的可控性和更高的画质，它是 LoRA 微调（备选关键词出现 1 次）以及 Z‑Image LoRA 训练的更优目标。

1.2 Base vs Turbo（对训练最重要的影响）

在 Z‑Image LoRA 训练里，一个很常见的错误是：用 Turbo 的方式来训练（或评估）Base。

Turbo 设置（8 步、低/无 CFG）会让 Base 输出看起来没熟/细节不足，从而让你误以为 LoRA “没有生效”。
Base 设置（30–50 步 + 正常 CFG）才是判断 checkpoint 的正确方式。

经验法则：

如果你训练的是 Base LoRA，就用 Base + Base 风格采样来评估它。

2. 环境选择：本地 AI Toolkit vs RunComfy 云端 AI Toolkit

你可以用两种方式完成本篇 Z‑Image LoRA 训练：

本地 AI Toolkit（你的 GPU）
从 GitHub 仓库安装 AI Toolkit，然后运行 Web UI。本地 Z‑Image LoRA 训练适合：你有 NVIDIA GPU、愿意自己管理 CUDA/驱动、并且想要一个便于反复迭代 LoRA 的长期环境。

https://github.com/ostris/ai-toolkit
RunComfy 云端 AI Toolkit（H100 / H200）
在浏览器里直接使用大显存 GPU 运行 AI Toolkit：

无需安装（打开 UI 即可）
更大的 VRAM，支持更高分辨率桶（1280 / 1536）
持久化工作区，方便保存数据集、配置与历史训练记录

两种环境的 Z‑Image LoRA 训练流程一致，区别只在于 GPU 的位置。

3. Z‑Image Base LoRA 训练的硬件与 VRAM 要求

Z‑Image 推理本身可以在相对一般的 GPU 上运行，但 Z‑Image LoRA 训练仍会随着以下因素显著变化：

分辨率桶（768 vs 1024 vs 1536）
量化（float8）
LoRA rank
训练期间的采样设置（预览分辨率 + 预览步数）

一个更实用的理解方式（面向 Z‑Image LoRA 训练）：

12–16GB VRAM：在谨慎设置下可做 512/768
24GB VRAM：更适合做 1024 的 LoRA 训练
48GB+ VRAM：最轻松的路径，可支持 1280/1536 桶并更快迭代

如果你的目标是排版/文字重度概念或产品细节一致性，请尽量使用更高分辨率并接受 VRAM 需求会迅速上涨。

4. 构建 Z‑Image Base LoRA 训练数据集

Z‑Image Base 对数据集格式并没有“特殊要求”——但它对你如何评估质量很敏感。因此，你的 Z‑Image LoRA 训练数据集应该围绕你在推理阶段想要的行为来设计（CFG + 更高步数）。

4.1 先明确目标（以及数据集形态）

角色 / 相似度：15–50 张
混合特写 + 半身 + 多种光照。
风格：30–200 张
尽量扩大主体多样性，让模型学到“风格线索”，而不是单一场景。
产品 / 概念：20–80 张
构图一致，并用清晰 caption 标注关键特征（材质、标签文字、形状）。

4.2 描述 + 触发词（保持简单）

如果你希望 LoRA 有清晰的“开/关”触发（推荐角色/产品类 Z‑Image LoRA 训练），使用 trigger。
caption 尽量短且一致。过长 caption 容易产生意外绑定（发型/背景被“绑定”为 trigger 的一部分）。

快速模板

Character:
[trigger]

or photo of [trigger], portrait, natural lighting
Style:
in a [style] illustration style, soft shading, muted palette
Product:
product photo of [trigger], studio lighting, clean background

5. 逐步操作：在 AI Toolkit 中进行 Z‑Image LoRA 训练

这一节会尽量对齐你在创建训练任务时看到的 AI Toolkit UI 面板，便于你按面板一步步完成 Z‑Image LoRA 训练。

5.1 JOB 面板（Training Name, GPU ID, Trigger Word）

Training Name：描述性的运行名称（例如 zimage_base_character_v1）
GPU ID：本地选择你的 GPU；云端保持默认即可
Trigger Word（可选，但角色/产品类 Z‑Image LoRA 训练推荐）：
例如 zimgAlice

5.2 MODEL 面板（Model Architecture, Name or Path, Options）

Model Architecture：选择 Z‑Image
Name or Path：设置 base model repo，通常为：
Tongyi-MAI/Z-Image
Options

Low VRAM：如果是 ≤ 24GB，建议 ON
Layer Offloading：默认 OFF；只有在你降低分辨率/rank 后仍 OOM 才考虑打开

5.3 QUANTIZATION 面板（Transformer, Text Encoder）

Transformer：float8 (default) 是很强的默认选择，有利于更高分辨率桶。
Text Encoder：如果你需要 VRAM 余量，也可以用 float8 (default)。

如果你有很大的 VRAM，也可以降低量化以简化流程；但对 Z‑Image LoRA 训练来说，float8 通常是安全基线。

5.4 TARGET 面板（Target Type, Linear Rank）

Target Type：LoRA
Linear Rank（Z‑Image LoRA 训练的实用默认值）

16：风格 LoRA、低 VRAM 运行
32：角色/产品 LoRA，更高保真度
48+：仅在你有足够 VRAM 且确定欠拟合时再用

5.5 SAVE 面板（Data Type, Save Every, Max Step Saves to Keep）

Data Type：BF16
Save Every：250（足够多的 checkpoint 方便挑最好的一版）
Max Step Saves to Keep：4（防止磁盘膨胀）

5.6 TRAINING 面板（Batch Size, Steps, Optimizer, LR, Timesteps）

稳定基线（推荐用于 Z‑Image LoRA 训练）

Batch Size：1
Gradient Accumulation：1（想要更大有效 batch 但 VRAM 不够时再提高）
Steps：见下方建议范围
Optimizer：AdamW8Bit
Learning Rate：0.0001（不稳定时降到 0.00005）
Weight Decay：0.0001
Timestep Type：Weighted
Timestep Bias：Balanced
Loss Type：Mean Squared Error
EMA：多数 LoRA 训练建议 OFF

Steps：更适合 Z‑Image Base 的建议

Z‑Image Base 往往比 Turbo 风格蒸馏模型更能承受更长训练，但仍需要在提示词遵循度崩塌前停止。

角色 / 相似度：3000–7000 steps（甜点区取决于数据集大小）
风格：2000–6000 steps
产品 / 概念：2500–6500 steps

如果你想先快速验证 Z‑Image LoRA 训练是否走在正确方向，可以先跑 1000–1500 steps 做 smoke test，观察样图后再跑完整训练。

5.7 Text Encoder 优化 + 正则化（右侧）

Unload TE：除非你明确想要仅 trigger 行为且不依赖 caption，否则保持 OFF
Cache Text Embeddings：仅在你使用静态 caption 且不使用 caption dropout 时开启

Differential Output Preservation (DOP)

如果你的 UI build 支持：

当你希望 “LoRA 只在被提示时才激活” 时启用 Differential Output Preservation
DOP 开启时不要缓存 text embeddings（概念上冲突）

5.8 ADVANCED 面板

Do Differential Guidance：除非你在常规工作流中已经使用且清楚调参目标，否则保持 OFF。

5.9 DATASETS 面板（Target Dataset, Caption Dropout, Cache Latents, Resolutions）

按 UI 面板配置你的 Z‑Image LoRA 训练数据集：

Target Dataset：选择你的 dataset
Default Caption：可选的短模板（如果每张图都有 .txt，也可以留空）
Caption Dropout Rate：0.05（如果缓存 text embeddings 则设为 0）
Cache Latents：ON（更快）
Is Regularization：主数据集保持 OFF
Flip X / Flip Y：默认 OFF（尤其是 logo/文字）
Resolutions（Z‑Image Base LoRA 训练的最关键杠杆）

低 VRAM：启用 512 + 768
24GB：启用 768 + 1024（如果数据集很一致，也可以只用 1024）
高 VRAM：加入 1280 / 1536，获得更好的产品/文字保真

5.10 SAMPLE 面板（Base vs Turbo 最容易出错的地方）

这是 Z‑Image Base 在 Z‑Image LoRA 训练中最容易被错误配置的地方。

推荐的 Base 采样默认值

Sample Every：250
Sampler：FlowMatch（匹配训练调度器家族）
Guidance Scale：4（Base 常见范围 ~3–5；按喜好调整）
Sample Steps：30–50（先从 30 开始）
Width / Height：与主分辨率桶一致（1024×1024 是不错的基线）
准备一组能覆盖以下内容的提示词：

trigger（如果你用了）
不同构图
至少一个“难题”提示词（压测身份/风格/产品几何一致性）

可选负向提示词（Base 支持得很好）

预览图可以使用短负向提示词减少伪影，例如：

low quality, blurry, deformed, bad anatomy, watermark, text artifacts

5.11 启动训练并监控

启动任务后，在 Z‑Image LoRA 训练过程中重点观察：

每个 checkpoint 间隔（250 steps）的 samples
提示词遵循度（prompts 是否仍被尊重）
过拟合信号（同一张脸/纹理到处出现，背景崩塌）

选择那个 LoRA 足够强、但不会变成永远开启滤镜的 checkpoint。

6. 按 VRAM 档位推荐的 Z‑Image LoRA 训练配置

Tier 1 — 12–16GB（紧张 VRAM）

Low VRAM：ON
Quantization：Transformer + Text Encoder 都用 float8
Linear Rank：16
Resolutions：512 + 768
Sample Steps：30（必要时把预览分辨率保持在 768）
Steps：按数据集大小 2000–5000

Tier 2 — 24GB（最实用的本地档）

Low VRAM：ON（稳定后可尝试 OFF）
Quantization：float8
Linear Rank：32（角色/产品），16–32（风格）
Resolutions：768 + 1024（或一致性高时只用 1024）
Sample Steps：30–40
Steps：按目标 3000–7000

Tier 3 — 48GB+（或云端 H100/H200）

Low VRAM：OFF（可选）
Quantization：可选（float8 也完全 OK）
Linear Rank：32–48
Resolutions：1024 + 1280 + 1536（如果数据集支持）
Sample Steps：40–50（预览质量更好）
Steps：仍按目标范围；只是迭代更快

7. Z‑Image Base 训练常见问题与解决方案

这些是 Z‑Image Base 特有的问题（不是通用 AI Toolkit 错误）。

“Base 看起来没熟 / 细节不足”

可能原因： 采样步数太少和/或分辨率太低。

解决

将 sample steps 提高到 40–50
如果 VRAM 允许，尝试更高分辨率桶（1280/1536）
如果你的推理工作流有 “shift” 参数：有用户反馈在中等 shift（如 ~4–6）下连贯性更好。请只在 steps/CFG 正确后再把它当作微调旋钮使用。

“Base LoRA 在 Base 上有效，但在 Turbo 上没效果”

很多情况下这是正常现象：

Turbo 是蒸馏模型，行为不同（尤其是 CFG/负向提示词，以及 LoRA 的“咬合强度”）。

解决

如果你的部署目标是 Turbo，不要默认 Base↔Turbo 会 1:1 转移；建议使用 Turbo 取向的训练工作流。
为获得最佳效果，训练与部署尽量使用同一模型家族（Base→Base）。

“文字/Logo 不稳定”

Z‑Image Base 的文字能力可以很强，但在 Z‑Image LoRA 训练中它对分辨率和采样非常敏感。

解决

尽量在 1024+ 训练（可能的话考虑 1280/1536）
评估时使用 40–50 steps
如果文字很重要，避免 Flip X
用 caption 一致地描述关键文字特征（不要指望 trigger 自动包含它）

8. 训练完成后如何使用你的 Z‑Image Base LoRA

Run LoRA — 打开 Z‑Image Run LoRA 页面。在这个 base model 推理页面里，你可以选择你在 RunComfy 上训练的 LoRA 资产，或导入你用 AI Toolkit 训练得到的 LoRA 文件，然后通过 playground 或 API 运行推理。RunComfy 会使用同一 base model，并复用你训练配置中的完整 AI Toolkit pipeline 定义，因此训练时看到的效果更容易在推理中复现；这种 training/inference 的强对齐能帮助推理结果与 Z‑Image LoRA 训练样图保持一致。你也可以通过 Deployments 页面 将 LoRA 部署为独立 endpoint。

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample