使用 Ostris AI Toolkit 进行 Z‑Image(Base)LoRA 训练
Z‑Image(Base)是 Z‑Image 的完整版 checkpoint(不是 8 步 Turbo)。它面向高质量文生图(text‑to‑image)而设计,支持 CFG + 负向提示词,并且通常需要更多采样步数;如果你的目标是做一个干净、可完全控制的 LoRA(角色、风格、产品、文字/排版重度概念),Z‑Image(Base)也是最合适的底座选择。
在本篇 Z‑Image LoRA 训练教程结束后,你将能够:
- 使用 Ostris AI Toolkit(本地或云端)完成一次 Z‑Image LoRA 训练。
- 选择真正匹配 Z‑Image Base 推理行为的默认设置(steps + CFG + 分辨率)。
- 避开 Z‑Image Base LoRA 训练最常见的坑(Turbo 采样设置、 “LoRA 没效果”、Base↔Turbo 不匹配)。
- 导出可以立刻在推理 UI 中使用的 checkpoint。
本文是 AI Toolkit LoRA 训练系列的一部分。如果你是 Ostris AI Toolkit 新手,建议先阅读 AI Toolkit LoRA 训练概述 再进入本篇 Z‑Image LoRA 训练:
https://www.runcomfy.com/zh-CN/trainer/ai-toolkit/getting-started
目录
- 1. Z‑Image 概览:它能做什么(以及与 Turbo 的区别)
- 2. 环境选择:本地 AI Toolkit vs RunComfy 云端 AI Toolkit
- 3. Z‑Image Base LoRA 训练的硬件与 VRAM 要求
- 4. 构建 Z‑Image Base LoRA 训练数据集
- 5. 逐步操作:在 AI Toolkit 中进行 Z‑Image LoRA 训练
- 6. 按 VRAM 档位推荐的 Z‑Image LoRA 训练配置
- 7. Z‑Image Base 训练常见问题与解决方案
- 8. 训练完成后如何使用你的 Z‑Image Base LoRA
1. Z‑Image 概览:它能做什么(以及与 Turbo 的区别)
1.1 “Z‑Image Base”是什么意思
“Z‑Image Base”指的是 非蒸馏(non‑distilled) 的 Z‑Image checkpoint。实际表现上:
- 需要更多采样步数(通常 ~30–50,而不是 8)。
- 能有效利用 CFG 和 负向提示词。
- 如果你想要更强的可控性和更高的画质,它是 LoRA 微调(备选关键词出现 1 次)以及 Z‑Image LoRA 训练的更优目标。
1.2 Base vs Turbo(对训练最重要的影响)
在 Z‑Image LoRA 训练里,一个很常见的错误是:用 Turbo 的方式来训练(或评估)Base。
- Turbo 设置(8 步、低/无 CFG)会让 Base 输出看起来没熟/细节不足,从而让你误以为 LoRA “没有生效”。
- Base 设置(30–50 步 + 正常 CFG)才是判断 checkpoint 的正确方式。
经验法则:
如果你训练的是 Base LoRA,就用 Base + Base 风格采样来评估它。
2. 环境选择:本地 AI Toolkit vs RunComfy 云端 AI Toolkit
你可以用两种方式完成本篇 Z‑Image LoRA 训练:
- 本地 AI Toolkit(你的 GPU)
从 GitHub 仓库安装 AI Toolkit,然后运行 Web UI。本地 Z‑Image LoRA 训练适合:你有 NVIDIA GPU、愿意自己管理 CUDA/驱动、并且想要一个便于反复迭代 LoRA 的长期环境。
https://github.com/ostris/ai-toolkit
- RunComfy 云端 AI Toolkit(H100 / H200)
在浏览器里直接使用大显存 GPU 运行 AI Toolkit:
- 无需安装(打开 UI 即可)
- 更大的 VRAM,支持更高分辨率桶(1280 / 1536)
- 持久化工作区,方便保存数据集、配置与历史训练记录
两种环境的 Z‑Image LoRA 训练流程一致,区别只在于 GPU 的位置。
3. Z‑Image Base LoRA 训练的硬件与 VRAM 要求
Z‑Image 推理本身可以在相对一般的 GPU 上运行,但 Z‑Image LoRA 训练仍会随着以下因素显著变化:
- 分辨率桶(768 vs 1024 vs 1536)
- 量化(float8)
- LoRA rank
- 训练期间的采样设置(预览分辨率 + 预览步数)
一个更实用的理解方式(面向 Z‑Image LoRA 训练):
- 12–16GB VRAM:在谨慎设置下可做 512/768
- 24GB VRAM:更适合做 1024 的 LoRA 训练
- 48GB+ VRAM:最轻松的路径,可支持 1280/1536 桶并更快迭代
如果你的目标是排版/文字重度概念或产品细节一致性,请尽量使用更高分辨率并接受 VRAM 需求会迅速上涨。
4. 构建 Z‑Image Base LoRA 训练数据集
Z‑Image Base 对数据集格式并没有“特殊要求”——但它对你如何评估质量很敏感。因此,你的 Z‑Image LoRA 训练数据集应该围绕你在推理阶段想要的行为来设计(CFG + 更高步数)。
4.1 先明确目标(以及数据集形态)
- 角色 / 相似度:15–50 张
混合特写 + 半身 + 多种光照。
- 风格:30–200 张
尽量扩大主体多样性,让模型学到“风格线索”,而不是单一场景。
- 产品 / 概念:20–80 张
构图一致,并用清晰 caption 标注关键特征(材质、标签文字、形状)。
4.2 描述 + 触发词(保持简单)
- 如果你希望 LoRA 有清晰的“开/关”触发(推荐角色/产品类 Z‑Image LoRA 训练),使用 trigger。
- caption 尽量短且一致。过长 caption 容易产生意外绑定(发型/背景被“绑定”为 trigger 的一部分)。
快速模板
- Character:
[trigger]or
photo of [trigger], portrait, natural lighting - Style:
in a [style] illustration style, soft shading, muted palette - Product:
product photo of [trigger], studio lighting, clean background
5. 逐步操作:在 AI Toolkit 中进行 Z‑Image LoRA 训练
这一节会尽量对齐你在创建训练任务时看到的 AI Toolkit UI 面板,便于你按面板一步步完成 Z‑Image LoRA 训练。
5.1 JOB 面板(Training Name, GPU ID, Trigger Word)
- Training Name:描述性的运行名称(例如
zimage_base_character_v1) - GPU ID:本地选择你的 GPU;云端保持默认即可
- Trigger Word(可选,但角色/产品类 Z‑Image LoRA 训练推荐):
例如
zimgAlice
5.2 MODEL 面板(Model Architecture, Name or Path, Options)
- Model Architecture:选择 Z‑Image
- Name or Path:设置 base model repo,通常为:
Tongyi-MAI/Z-Image - Options
- Low VRAM:如果是 ≤ 24GB,建议 ON
- Layer Offloading:默认 OFF;只有在你降低分辨率/rank 后仍 OOM 才考虑打开
5.3 QUANTIZATION 面板(Transformer, Text Encoder)
- Transformer:
float8 (default)是很强的默认选择,有利于更高分辨率桶。 - Text Encoder:如果你需要 VRAM 余量,也可以用
float8 (default)。
如果你有很大的 VRAM,也可以降低量化以简化流程;但对 Z‑Image LoRA 训练来说,float8 通常是安全基线。
5.4 TARGET 面板(Target Type, Linear Rank)
- Target Type:
LoRA - Linear Rank(Z‑Image LoRA 训练的实用默认值)
- 16:风格 LoRA、低 VRAM 运行
- 32:角色/产品 LoRA,更高保真度
- 48+:仅在你有足够 VRAM 且确定欠拟合时再用
5.5 SAVE 面板(Data Type, Save Every, Max Step Saves to Keep)
- Data Type:
BF16 - Save Every:
250(足够多的 checkpoint 方便挑最好的一版) - Max Step Saves to Keep:
4(防止磁盘膨胀)
5.6 TRAINING 面板(Batch Size, Steps, Optimizer, LR, Timesteps)
稳定基线(推荐用于 Z‑Image LoRA 训练)
- Batch Size:
1 - Gradient Accumulation:
1(想要更大有效 batch 但 VRAM 不够时再提高) - Steps:见下方建议范围
- Optimizer:
AdamW8Bit - Learning Rate:
0.0001(不稳定时降到0.00005) - Weight Decay:
0.0001 - Timestep Type:
Weighted - Timestep Bias:
Balanced - Loss Type:
Mean Squared Error - EMA:多数 LoRA 训练建议 OFF
Steps:更适合 Z‑Image Base 的建议
Z‑Image Base 往往比 Turbo 风格蒸馏模型更能承受更长训练,但仍需要在提示词遵循度崩塌前停止。
- 角色 / 相似度:3000–7000 steps(甜点区取决于数据集大小)
- 风格:2000–6000 steps
- 产品 / 概念:2500–6500 steps
如果你想先快速验证 Z‑Image LoRA 训练是否走在正确方向,可以先跑 1000–1500 steps 做 smoke test,观察样图后再跑完整训练。
5.7 Text Encoder 优化 + 正则化(右侧)
- Unload TE:除非你明确想要仅 trigger 行为且不依赖 caption,否则保持 OFF
- Cache Text Embeddings:仅在你使用静态 caption 且不使用 caption dropout 时开启
Differential Output Preservation (DOP)
如果你的 UI build 支持:
- 当你希望 “LoRA 只在被提示时才激活” 时启用 Differential Output Preservation
- DOP 开启时不要缓存 text embeddings(概念上冲突)
5.8 ADVANCED 面板
- Do Differential Guidance:除非你在常规工作流中已经使用且清楚调参目标,否则保持 OFF。
5.9 DATASETS 面板(Target Dataset, Caption Dropout, Cache Latents, Resolutions)
按 UI 面板配置你的 Z‑Image LoRA 训练数据集:
- Target Dataset:选择你的 dataset
- Default Caption:可选的短模板(如果每张图都有
.txt,也可以留空) - Caption Dropout Rate:
0.05(如果缓存 text embeddings 则设为0) - Cache Latents:ON(更快)
- Is Regularization:主数据集保持 OFF
- Flip X / Flip Y:默认 OFF(尤其是 logo/文字)
- Resolutions(Z‑Image Base LoRA 训练的最关键杠杆)
- 低 VRAM:启用 512 + 768
- 24GB:启用 768 + 1024(如果数据集很一致,也可以只用 1024)
- 高 VRAM:加入 1280 / 1536,获得更好的产品/文字保真
5.10 SAMPLE 面板(Base vs Turbo 最容易出错的地方)
这是 Z‑Image Base 在 Z‑Image LoRA 训练中最容易被错误配置的地方。
推荐的 Base 采样默认值
- Sample Every:
250 - Sampler:
FlowMatch(匹配训练调度器家族) - Guidance Scale:
4(Base 常见范围 ~3–5;按喜好调整) - Sample Steps:30–50(先从 30 开始)
- Width / Height:与主分辨率桶一致(1024×1024 是不错的基线)
- 准备一组能覆盖以下内容的提示词:
- trigger(如果你用了)
- 不同构图
- 至少一个“难题”提示词(压测身份/风格/产品几何一致性)
可选负向提示词(Base 支持得很好)
预览图可以使用短负向提示词减少伪影,例如:
low quality, blurry, deformed, bad anatomy, watermark, text artifacts
5.11 启动训练并监控
启动任务后,在 Z‑Image LoRA 训练过程中重点观察:
- 每个 checkpoint 间隔(250 steps)的 samples
- 提示词遵循度(prompts 是否仍被尊重)
- 过拟合信号(同一张脸/纹理到处出现,背景崩塌)
选择那个 LoRA 足够强、但不会变成永远开启滤镜的 checkpoint。
6. 按 VRAM 档位推荐的 Z‑Image LoRA 训练配置
Tier 1 — 12–16GB(紧张 VRAM)
- Low VRAM:ON
- Quantization:Transformer + Text Encoder 都用 float8
- Linear Rank:16
- Resolutions:512 + 768
- Sample Steps:30(必要时把预览分辨率保持在 768)
- Steps:按数据集大小 2000–5000
Tier 2 — 24GB(最实用的本地档)
- Low VRAM:ON(稳定后可尝试 OFF)
- Quantization:float8
- Linear Rank:32(角色/产品),16–32(风格)
- Resolutions:768 + 1024(或一致性高时只用 1024)
- Sample Steps:30–40
- Steps:按目标 3000–7000
Tier 3 — 48GB+(或云端 H100/H200)
- Low VRAM:OFF(可选)
- Quantization:可选(float8 也完全 OK)
- Linear Rank:32–48
- Resolutions:1024 + 1280 + 1536(如果数据集支持)
- Sample Steps:40–50(预览质量更好)
- Steps:仍按目标范围;只是迭代更快
7. Z‑Image Base 训练常见问题与解决方案
这些是 Z‑Image Base 特有的问题(不是通用 AI Toolkit 错误)。
“Base 看起来没熟 / 细节不足”
可能原因: 采样步数太少和/或分辨率太低。
解决
- 将 sample steps 提高到 40–50
- 如果 VRAM 允许,尝试更高分辨率桶(1280/1536)
- 如果你的推理工作流有 “shift” 参数:有用户反馈在中等 shift(如 ~4–6)下连贯性更好。请只在 steps/CFG 正确后再把它当作微调旋钮使用。
“Base LoRA 在 Base 上有效,但在 Turbo 上没效果”
很多情况下这是正常现象:
- Turbo 是蒸馏模型,行为不同(尤其是 CFG/负向提示词,以及 LoRA 的“咬合强度”)。
解决
- 如果你的部署目标是 Turbo,不要默认 Base↔Turbo 会 1:1 转移;建议使用 Turbo 取向的训练工作流。
- 为获得最佳效果,训练与部署尽量使用同一模型家族(Base→Base)。
“文字/Logo 不稳定”
Z‑Image Base 的文字能力可以很强,但在 Z‑Image LoRA 训练中它对分辨率和采样非常敏感。
解决
- 尽量在 1024+ 训练(可能的话考虑 1280/1536)
- 评估时使用 40–50 steps
- 如果文字很重要,避免 Flip X
- 用 caption 一致地描述关键文字特征(不要指望 trigger 自动包含它)
8. 训练完成后如何使用你的 Z‑Image Base LoRA
Run LoRA — 打开 Z‑Image Run LoRA 页面。在这个 base model 推理页面里,你可以选择你在 RunComfy 上训练的 LoRA 资产,或导入你用 AI Toolkit 训练得到的 LoRA 文件,然后通过 playground 或 API 运行推理。RunComfy 会使用同一 base model,并复用你训练配置中的完整 AI Toolkit pipeline 定义,因此训练时看到的效果更容易在推理中复现;这种 training/inference 的强对齐能帮助推理结果与 Z‑Image LoRA 训练样图保持一致。你也可以通过 Deployments 页面 将 LoRA 部署为独立 endpoint。
更多 AI Toolkit LoRA 训练指南
准备好开始训练了吗?

