AI Toolkit LoRA 训练指南

用 Ostris AI Toolkit 训练 Z‑Image Base LoRA

本文介绍如何在 Ostris AI Toolkit 中训练高质量的 Z‑Image Base LoRA,通过优化数据集、rank/LR/steps 与 Base 风格采样(30–50 步 + CFG)获得更稳定的训练与推理效果。

使用 Ostris AI Toolkit 训练扩散模型

水平滚动查看完整表单

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Use a Hugging Face repo ID (e.g. owner/model-name).
⚠️ full URLs, .safetensors files, and local files are not supported.

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

使用 Ostris AI Toolkit 进行 Z‑Image(Base)LoRA 训练

Z‑Image(Base)是 Z‑Image 的完整版 checkpoint(不是 8 步 Turbo)。它面向高质量文生图(text‑to‑image)而设计,支持 CFG + 负向提示词,并且通常需要更多采样步数;如果你的目标是做一个干净、可完全控制的 LoRA(角色、风格、产品、文字/排版重度概念),Z‑Image(Base)也是最合适的底座选择。

在本篇 Z‑Image LoRA 训练教程结束后,你将能够:

  • 使用 Ostris AI Toolkit(本地或云端)完成一次 Z‑Image LoRA 训练
  • 选择真正匹配 Z‑Image Base 推理行为的默认设置(steps + CFG + 分辨率)。
  • 避开 Z‑Image Base LoRA 训练最常见的坑(Turbo 采样设置、 “LoRA 没效果”、Base↔Turbo 不匹配)。
  • 导出可以立刻在推理 UI 中使用的 checkpoint。
本文是 AI Toolkit LoRA 训练系列的一部分。如果你是 Ostris AI Toolkit 新手,建议先阅读 AI Toolkit LoRA 训练概述 再进入本篇 Z‑Image LoRA 训练:
https://www.runcomfy.com/zh-CN/trainer/ai-toolkit/getting-started

目录


1. Z‑Image 概览:它能做什么(以及与 Turbo 的区别)

1.1 “Z‑Image Base”是什么意思

“Z‑Image Base”指的是 非蒸馏(non‑distilled) 的 Z‑Image checkpoint。实际表现上:

  • 需要更多采样步数(通常 ~30–50,而不是 8)。
  • 能有效利用 CFG负向提示词
  • 如果你想要更强的可控性和更高的画质,它是 LoRA 微调(备选关键词出现 1 次)以及 Z‑Image LoRA 训练的更优目标。

1.2 Base vs Turbo(对训练最重要的影响)

在 Z‑Image LoRA 训练里,一个很常见的错误是:用 Turbo 的方式来训练(或评估)Base。

  • Turbo 设置(8 步、低/无 CFG)会让 Base 输出看起来没熟/细节不足,从而让你误以为 LoRA “没有生效”。
  • Base 设置(30–50 步 + 正常 CFG)才是判断 checkpoint 的正确方式。

经验法则:

如果你训练的是 Base LoRA,就用 Base + Base 风格采样来评估它。


2. 环境选择:本地 AI Toolkit vs RunComfy 云端 AI Toolkit

你可以用两种方式完成本篇 Z‑Image LoRA 训练:

  • 本地 AI Toolkit(你的 GPU)

    从 GitHub 仓库安装 AI Toolkit,然后运行 Web UI。本地 Z‑Image LoRA 训练适合:你有 NVIDIA GPU、愿意自己管理 CUDA/驱动、并且想要一个便于反复迭代 LoRA 的长期环境。

    https://github.com/ostris/ai-toolkit

  • RunComfy 云端 AI Toolkit(H100 / H200)

    在浏览器里直接使用大显存 GPU 运行 AI Toolkit:

    • 无需安装(打开 UI 即可)
    • 更大的 VRAM,支持更高分辨率桶(1280 / 1536)
    • 持久化工作区,方便保存数据集、配置与历史训练记录

两种环境的 Z‑Image LoRA 训练流程一致,区别只在于 GPU 的位置。


3. Z‑Image Base LoRA 训练的硬件与 VRAM 要求

Z‑Image 推理本身可以在相对一般的 GPU 上运行,但 Z‑Image LoRA 训练仍会随着以下因素显著变化:

  • 分辨率桶(768 vs 1024 vs 1536)
  • 量化(float8)
  • LoRA rank
  • 训练期间的采样设置(预览分辨率 + 预览步数)

一个更实用的理解方式(面向 Z‑Image LoRA 训练):

  • 12–16GB VRAM:在谨慎设置下可做 512/768
  • 24GB VRAM:更适合做 1024 的 LoRA 训练
  • 48GB+ VRAM:最轻松的路径,可支持 1280/1536 桶并更快迭代
如果你的目标是排版/文字重度概念或产品细节一致性,请尽量使用更高分辨率并接受 VRAM 需求会迅速上涨。

4. 构建 Z‑Image Base LoRA 训练数据集

Z‑Image Base 对数据集格式并没有“特殊要求”——但它对你如何评估质量很敏感。因此,你的 Z‑Image LoRA 训练数据集应该围绕你在推理阶段想要的行为来设计(CFG + 更高步数)。

4.1 先明确目标(以及数据集形态)

  • 角色 / 相似度:15–50 张

    混合特写 + 半身 + 多种光照。

  • 风格:30–200 张

    尽量扩大主体多样性,让模型学到“风格线索”,而不是单一场景。

  • 产品 / 概念:20–80 张

    构图一致,并用清晰 caption 标注关键特征(材质、标签文字、形状)。

4.2 描述 + 触发词(保持简单)

  • 如果你希望 LoRA 有清晰的“开/关”触发(推荐角色/产品类 Z‑Image LoRA 训练),使用 trigger
  • caption 尽量短且一致。过长 caption 容易产生意外绑定(发型/背景被“绑定”为 trigger 的一部分)。

快速模板

  • Character:

    [trigger]

    or photo of [trigger], portrait, natural lighting

  • Style:

    in a [style] illustration style, soft shading, muted palette

  • Product:

    product photo of [trigger], studio lighting, clean background


5. 逐步操作:在 AI Toolkit 中进行 Z‑Image LoRA 训练

这一节会尽量对齐你在创建训练任务时看到的 AI Toolkit UI 面板,便于你按面板一步步完成 Z‑Image LoRA 训练。

5.1 JOB 面板(Training Name, GPU ID, Trigger Word)

  • Training Name:描述性的运行名称(例如 zimage_base_character_v1
  • GPU ID:本地选择你的 GPU;云端保持默认即可
  • Trigger Word(可选,但角色/产品类 Z‑Image LoRA 训练推荐):

    例如 zimgAlice

5.2 MODEL 面板(Model Architecture, Name or Path, Options)

  • Model Architecture:选择 Z‑Image
  • Name or Path:设置 base model repo,通常为:

    Tongyi-MAI/Z-Image

  • Options
    • Low VRAM:如果是 ≤ 24GB,建议 ON
    • Layer Offloading:默认 OFF;只有在你降低分辨率/rank 后仍 OOM 才考虑打开

5.3 QUANTIZATION 面板(Transformer, Text Encoder)

  • Transformerfloat8 (default) 是很强的默认选择,有利于更高分辨率桶。
  • Text Encoder:如果你需要 VRAM 余量,也可以用 float8 (default)

如果你有很大的 VRAM,也可以降低量化以简化流程;但对 Z‑Image LoRA 训练来说,float8 通常是安全基线。

5.4 TARGET 面板(Target Type, Linear Rank)

  • Target TypeLoRA
  • Linear Rank(Z‑Image LoRA 训练的实用默认值)
    • 16:风格 LoRA、低 VRAM 运行
    • 32:角色/产品 LoRA,更高保真度
    • 48+:仅在你有足够 VRAM 且确定欠拟合时再用

5.5 SAVE 面板(Data Type, Save Every, Max Step Saves to Keep)

  • Data TypeBF16
  • Save Every250(足够多的 checkpoint 方便挑最好的一版)
  • Max Step Saves to Keep4(防止磁盘膨胀)

5.6 TRAINING 面板(Batch Size, Steps, Optimizer, LR, Timesteps)

稳定基线(推荐用于 Z‑Image LoRA 训练)

  • Batch Size1
  • Gradient Accumulation1(想要更大有效 batch 但 VRAM 不够时再提高)
  • Steps:见下方建议范围
  • OptimizerAdamW8Bit
  • Learning Rate0.0001(不稳定时降到 0.00005
  • Weight Decay0.0001
  • Timestep TypeWeighted
  • Timestep BiasBalanced
  • Loss TypeMean Squared Error
  • EMA:多数 LoRA 训练建议 OFF

Steps:更适合 Z‑Image Base 的建议

Z‑Image Base 往往比 Turbo 风格蒸馏模型更能承受更长训练,但仍需要在提示词遵循度崩塌前停止。

  • 角色 / 相似度3000–7000 steps(甜点区取决于数据集大小)
  • 风格2000–6000 steps
  • 产品 / 概念2500–6500 steps

如果你想先快速验证 Z‑Image LoRA 训练是否走在正确方向,可以先跑 1000–1500 steps 做 smoke test,观察样图后再跑完整训练。

5.7 Text Encoder 优化 + 正则化(右侧)

  • Unload TE:除非你明确想要仅 trigger 行为且不依赖 caption,否则保持 OFF
  • Cache Text Embeddings:仅在你使用静态 caption 且不使用 caption dropout 时开启

Differential Output Preservation (DOP)

如果你的 UI build 支持:

  • 当你希望 “LoRA 只在被提示时才激活” 时启用 Differential Output Preservation
  • DOP 开启时不要缓存 text embeddings(概念上冲突)

5.8 ADVANCED 面板

  • Do Differential Guidance:除非你在常规工作流中已经使用且清楚调参目标,否则保持 OFF。

5.9 DATASETS 面板(Target Dataset, Caption Dropout, Cache Latents, Resolutions)

按 UI 面板配置你的 Z‑Image LoRA 训练数据集:

  • Target Dataset:选择你的 dataset
  • Default Caption:可选的短模板(如果每张图都有 .txt,也可以留空)
  • Caption Dropout Rate0.05(如果缓存 text embeddings 则设为 0
  • Cache Latents:ON(更快)
  • Is Regularization:主数据集保持 OFF
  • Flip X / Flip Y:默认 OFF(尤其是 logo/文字)
  • Resolutions(Z‑Image Base LoRA 训练的最关键杠杆)
    • 低 VRAM:启用 512 + 768
    • 24GB:启用 768 + 1024(如果数据集很一致,也可以只用 1024)
    • 高 VRAM:加入 1280 / 1536,获得更好的产品/文字保真

5.10 SAMPLE 面板(Base vs Turbo 最容易出错的地方)

这是 Z‑Image Base 在 Z‑Image LoRA 训练中最容易被错误配置的地方。

推荐的 Base 采样默认值

  • Sample Every250
  • SamplerFlowMatch(匹配训练调度器家族)
  • Guidance Scale4(Base 常见范围 ~3–5;按喜好调整)
  • Sample Steps30–50(先从 30 开始)
  • Width / Height:与主分辨率桶一致(1024×1024 是不错的基线)
  • 准备一组能覆盖以下内容的提示词:
    • trigger(如果你用了)
    • 不同构图
    • 至少一个“难题”提示词(压测身份/风格/产品几何一致性)

可选负向提示词(Base 支持得很好)

预览图可以使用短负向提示词减少伪影,例如:

low quality, blurry, deformed, bad anatomy, watermark, text artifacts

5.11 启动训练并监控

启动任务后,在 Z‑Image LoRA 训练过程中重点观察:

  • 每个 checkpoint 间隔(250 steps)的 samples
  • 提示词遵循度(prompts 是否仍被尊重)
  • 过拟合信号(同一张脸/纹理到处出现,背景崩塌)

选择那个 LoRA 足够强、但不会变成永远开启滤镜的 checkpoint。


6. 按 VRAM 档位推荐的 Z‑Image LoRA 训练配置

Tier 1 — 12–16GB(紧张 VRAM)

  • Low VRAM:ON
  • Quantization:Transformer + Text Encoder 都用 float8
  • Linear Rank:16
  • Resolutions:512 + 768
  • Sample Steps:30(必要时把预览分辨率保持在 768)
  • Steps:按数据集大小 2000–5000

Tier 2 — 24GB(最实用的本地档)

  • Low VRAM:ON(稳定后可尝试 OFF)
  • Quantization:float8
  • Linear Rank:32(角色/产品),16–32(风格)
  • Resolutions:768 + 1024(或一致性高时只用 1024)
  • Sample Steps:30–40
  • Steps:按目标 3000–7000

Tier 3 — 48GB+(或云端 H100/H200)

  • Low VRAM:OFF(可选)
  • Quantization:可选(float8 也完全 OK)
  • Linear Rank:32–48
  • Resolutions:1024 + 1280 + 1536(如果数据集支持)
  • Sample Steps:40–50(预览质量更好)
  • Steps:仍按目标范围;只是迭代更快

7. Z‑Image Base 训练常见问题与解决方案

这些是 Z‑Image Base 特有的问题(不是通用 AI Toolkit 错误)。

“Base 看起来没熟 / 细节不足”

可能原因: 采样步数太少和/或分辨率太低。

解决

  • 将 sample steps 提高到 40–50
  • 如果 VRAM 允许,尝试更高分辨率桶(1280/1536)
  • 如果你的推理工作流有 “shift” 参数:有用户反馈在中等 shift(如 ~4–6)下连贯性更好。请只在 steps/CFG 正确后再把它当作微调旋钮使用。

“Base LoRA 在 Base 上有效,但在 Turbo 上没效果”

很多情况下这是正常现象:

  • Turbo 是蒸馏模型,行为不同(尤其是 CFG/负向提示词,以及 LoRA 的“咬合强度”)。

解决

  • 如果你的部署目标是 Turbo,不要默认 Base↔Turbo 会 1:1 转移;建议使用 Turbo 取向的训练工作流。
  • 为获得最佳效果,训练与部署尽量使用同一模型家族(Base→Base)。

“文字/Logo 不稳定”

Z‑Image Base 的文字能力可以很强,但在 Z‑Image LoRA 训练中它对分辨率和采样非常敏感。

解决

  • 尽量在 1024+ 训练(可能的话考虑 1280/1536)
  • 评估时使用 40–50 steps
  • 如果文字很重要,避免 Flip X
  • 用 caption 一致地描述关键文字特征(不要指望 trigger 自动包含它)

8. 训练完成后如何使用你的 Z‑Image Base LoRA

Run LoRA — 打开 Z‑Image Run LoRA 页面。在这个 base model 推理页面里,你可以选择你在 RunComfy 上训练的 LoRA 资产,或导入你用 AI Toolkit 训练得到的 LoRA 文件,然后通过 playground 或 API 运行推理。RunComfy 会使用同一 base model,并复用你训练配置中的完整 AI Toolkit pipeline 定义,因此训练时看到的效果更容易在推理中复现;这种 training/inference 的强对齐能帮助推理结果与 Z‑Image LoRA 训练样图保持一致。你也可以通过 Deployments 页面 将 LoRA 部署为独立 endpoint。


更多 AI Toolkit LoRA 训练指南

准备好开始训练了吗?