Z-Image LoRA訓練指南（Z-Image Turbo + De-Turbo）：Ostris AI Toolkit

Z‑Image 是由 Tongyi‑MAI 開發的 60億參數 圖像生成模型，基於 Scalable Single‑Stream Diffusion Transformer（S3‑DiT） 架構構建。該模型在同等規模中效率極高，專為在消費級 GPU 上以 1024×1024 解析度運行而設計。

本 Z-Image Turbo LoRA 訓練 指南涵蓋了 Z‑Image Turbo LoRA 訓練最常見、最實用的兩種方法：

1) Z‑Image Turbo（帶 Training Adapter） — 當你希望 LoRA 在訓練後保持 真正的 8 步 Turbo 速度 時的最佳選擇。

2) Z‑Image De‑Turbo（De‑Distilled） — 當你需要一個 去蒸餾 的基礎模型來進行無需 adapter 的訓練，或進行更長時間的微調時的最佳選擇。

完成本指南後，你將能夠：

根據目標選擇正確的 Z‑Image 基礎模型（Turbo+adapter vs De‑Turbo）。
準備適用於 Turbo 風格蒸餾訓練的資料集。
逐面板配置 Ostris AI Toolkit（本機或 RunComfy Cloud AI Toolkit）。
理解每個參數 為什麼 重要，從而能夠調整而非簡單複製貼上。

本文是 AI Toolkit LoRA 訓練系列的一部分。如果你是 Ostris AI Toolkit 新手，請先閱讀 AI Toolkit LoRA 訓練概述再深入本指南。

快速開始（建議基準配置）

選項 A — Turbo + Training Adapter（大多數 LoRA 建議）

如果你希望進行 Z-Image-Turbo LoRA 訓練，且訓練後 LoRA 保持 Turbo 的快速 8 步行為，請使用此選項。

為什麼這很重要：

Turbo 是一個蒸餾的「學生」模型：它將較慢的多步擴散過程壓縮為 約 8 步。
如果你像普通模型一樣在 Turbo 上訓練，你的更新可能會 撤銷蒸餾（「Turbo 漂移」），你將需要 更多步數/更高 CFG 才能獲得相同品質。
Training Adapter 在訓練期間暫時「去蒸餾」Turbo，使你的 LoRA 能夠學習概念 而不破壞 Turbo 的 8 步行為。推論時移除 adapter，只保留你的 LoRA。

基準設定：

MODEL → Model Architecture： Z‑Image Turbo (w/ Training Adapter)
MODEL → Name or Path： Tongyi-MAI/Z-Image-Turbo
MODEL → Training Adapter Path：

如果 UI 自動填充則保持預設（RunComfy 通常預設使用 v2），或明確設定：

v1：ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
v2：ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors

TARGET → Linear Rank： 16
TRAINING → Learning Rate： 0.0001
TRAINING → Steps： 2500–3000（對於 10–30 張圖像）
DATASETS → Resolutions： 512 / 768 / 1024 並開啟 Cache Latents
SAMPLE（用於預覽）：

1024×1024，8 步（如果你的管線將 9 視為「8 DiT forwards」則使用 9）
Guidance scale = 0（Turbo 已進行 guidance 蒸餾）
每 250 步取樣一次

選項 B — De‑Turbo（去蒸餾基礎模型）

如果你想無需 Training Adapter 進行訓練，或計劃更長時間的訓練，請使用此選項。

與 Turbo 相比的變化：

De‑Turbo 在訓練和取樣時表現得更像「普通」擴散模型。
你通常使用 更多步數 和 較低（但非零）的 CFG 進行取樣。

MODEL → Model Architecture： Z‑Image De‑Turbo (De‑Distilled)
MODEL → Name or Path： ostris/Z-Image-De-Turbo（或你的 AI Toolkit 版本預選的內容）
Training Adapter Path： 無（不需要）
保持相同的 LoRA 設定（rank/LR/steps）作為基準。
SAMPLE（用於預覽）：

20–30 步
CFG（guidance scale）≈ 2–3
每 250 步取樣一次

想要零設定？使用 RunComfy Cloud AI Toolkit 並按照完全相同的面板操作。

1. 應該在哪個 Z‑Image 基礎模型上訓練？（Turbo+adapter vs De‑Turbo）
2. Z‑Image Training Adapter v1 vs v2（有何變化，何時使用）
3. Z‑Image / Z‑Image‑Turbo 簡介（用於 LoRA 訓練）
4. Z‑Image 訓練位置：本機 vs 雲端 AI Toolkit
5. 設計 Z‑Image LoRA 訓練資料集
6. AI Toolkit 中的 Z‑Image LoRA 配置 – 逐參數詳解
7. Z‑Image LoRA 訓練實用配方
8. 故障排除（Turbo 漂移、過擬合、VRAM、取樣）
9. 匯出和使用你的 Z‑Image LoRA
FAQ

1. 應該在哪個 Z‑Image 基礎模型上訓練？（Turbo+adapter vs De‑Turbo）

AI Toolkit 為 Zimage Turbo LoRA 訓練 提供了 兩個「Model Architecture」選項：

1.1 Z‑Image Turbo（帶 Training Adapter）

最適合： 典型的 LoRA（角色、風格、產品），其最終目標是在 8 步的 Turbo 上運行推論。

為什麼存在：

Z‑Image Turbo 是一個 步數蒸餾 模型。如果你在步數蒸餾模型上「正常」訓練 LoRA，蒸餾可能會快速崩潰，Turbo 開始表現得像一個較慢的非蒸餾模型（品質變化、需要更多步數等）。
Training Adapter 在訓練期間充當暫時的「去蒸餾 LoRA」。你的 LoRA 學習概念，而 Turbo 的快速 8 步行為保持穩定。
推論時，你移除 Training Adapter，只在真正的 Turbo 基礎上保留你的 LoRA。

選擇正確路徑的實際信號：

你的預覽樣本在 8 步、guidance ≈ 0 時看起來很好。
你的 LoRA 不會突然開始需要 20–30 步 才能看起來乾淨（Turbo 漂移的常見跡象）。

1.2 Z‑Image De‑Turbo (De‑Distilled)

最適合： 無 adapter 訓練，或 Turbo+adapter 最終會漂移的更長微調。

這是什麼：

De‑Turbo 是 Turbo 的 去蒸餾 版本，設計為在訓練時更像普通擴散模型。
可以直接無 adapter 訓練，也可用於推論（通常 20–30 步，低 CFG）。

1.3 快速決策指南

選擇 Turbo + Training Adapter 如果：

你希望 LoRA 在訓練後以 Turbo 速度（8 步）運行。
你正在進行正常的 LoRA 訓練（幾千到幾萬步）。

選擇 De‑Turbo 如果：

你想要訓練和取樣的「普通模型」行為。
你想訓練更長時間，或正在嘗試不能很好支援 Training Adapter 的工作流程。

2. Z‑Image Training Adapter v1 vs v2（有何變化，何時使用）

在 Training Adapter 儲存庫中，你通常會看到兩個檔案：

..._v1.safetensors
..._v2.safetensors

你需要知道的（實際上）：

v1 是安全的基準。
v2 是較新的變體，可能會改變訓練動態和結果。

建議： 將其視為 A/B 測試：

保持 資料集、LR、步數、rank 相同
用 v1 訓練一次，用 v2 訓練一次
在相同檢查點比較樣本網格

如果你的 RunComfy UI 預設使用 v2 且訓練看起來穩定，就保持現狀。如果你看到不穩定（雜訊、Turbo 漂移、奇怪的偽影），切換到 v1。

3. Z‑Image / Z‑Image‑Turbo 簡介（用於 LoRA 訓練）

來自官方 Z‑Image 資料：

60億參數，S3‑DiT 架構 — 文字 token、視覺語義 token 和 VAE latent 被連接成單個 transformer 流。
模型家族 — Z‑Image 系列中存在 Turbo、Base 和 Edit 變體。
Turbo 特性 — 針對快速推論最佳化；Turbo 推論的 guidance 通常為 0。

LoRA 訓練的有用心智模型：

高雜訊時間步 主要控制構圖（佈局、姿勢、整體色調）。
低雜訊時間步 主要控制細節（面部、手部、紋理）。

這就是為什麼時間步設定和偏置可以明顯改變 LoRA 感覺像「全域風格」還是「身份/細節」。

4. Z‑Image 訓練位置：本機 vs 雲端 AI Toolkit

4.1 本機 AI Toolkit

Ostris AI Toolkit 在 GitHub 上開源。它透過統一的 UI 和配置系統支援 ZIT LoRA 訓練、FLUX、Wan、Qwen 等。

本機訓練適合：

你已有 NVIDIA GPU 且不介意 Python / Git 設定。
你想完全控制檔案、日誌和自訂更改。

儲存庫：ostris/ai-toolkit

4.2 RunComfy Cloud AI Toolkit

如果你想跳過 CUDA 安裝和驅動程式問題，使用 RunComfy Cloud AI Toolkit：

零設定 — 開啟瀏覽器即可訓練。
穩定的 VRAM — 更容易按指南操作，無硬體摩擦。
持久儲存 — 更容易迭代和檢查點管理。

👉 在此開啟：RunComfy Cloud AI Toolkit

5. 設計 Z‑Image LoRA 訓練資料集

5.1 實際需要多少張圖像？

10–30 張圖像 對大多數角色或風格 LoRA 來說是個好範圍。
超過約 50 張圖像，除非你的風格範圍很廣，否則通常會遇到收益遞減。

Z‑Image 從梯度中強烈學習（「熱學習」），因此資料集品質和多樣性比原始圖像數量更重要：

太少圖像 + 太多訓練通常表現為 過擬合的面部、重複的姿勢或混亂的背景。
小而多樣的資料集（角度、光照、背景）往往比大而重複的資料集泛化得更好。

5.2 角色 vs 風格 LoRA

角色 LoRA

目標是同一主體的 12–30 張圖像。
混合特寫和全身、角度、光照、服裝。
描述可以是字面的和一致的；可選的觸發詞。

風格 LoRA

目標是跨越不同主體（人物、室內、風景、物體）的 15–40 張圖像。
正常描述場景；除非你想讓它只透過觸發詞啟動，否則不要過度描述風格。

這教的是：「用這種風格渲染 任何東西」，而不是「只有當我說特殊關鍵詞時才應用風格」。

5.3 描述、觸發詞和文字檔案

image_01.png → image_01.txt
如果沒有 .txt，AI Toolkit 使用 Default Caption。
你可以在描述中使用 [trigger] 並在 JOB 面板設定 Trigger Word。

如果你之後啟用 DOP（Differential Output Preservation）使 LoRA 更「可選擇性啟動」，這尤其有用。

6. AI Toolkit 中的 Z‑Image LoRA 配置 – 逐參數詳解

本節我們逐個講解 UI 面板，解釋在進行 Z-Image Turbo LoRA 微調 時每個重要欄位的作用。

6.1 JOB 面板

Training Name — 描述性標籤如 zimage_char_redhair_v1
GPU ID — 本機 GPU 選擇器；雲端保持預設
Trigger Word（可選） — zchar_redhair / zstyle_pencil

6.2 MODEL 面板（最重要）

這裡是 兩個基礎模型選擇 的關鍵：

如果選擇 Turbo + adapter

Model Architecture — Z‑Image Turbo (w/ Training Adapter)
Name or Path — Tongyi-MAI/Z-Image-Turbo

這是 Hugging Face 模型 id（儲存庫 id）。在大多數 AI Toolkit 版本中，選擇 Model Architecture 會 自動填充 這個；除非有理由更改，否則保持原樣。
如果要覆蓋，使用 Hugging Face 儲存庫 id 格式：org-or-user/model-name（可選 org-or-user/model-name@revision）。

Training Adapter Path — 保持預設或選擇：

v1：ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
v2：ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors

提示：如果你意外地 不使用 adapter 訓練 Turbo，最常見的症狀是你的 LoRA 只有在提高 steps/CFG 時才「有效」，這違背了 Turbo 的意義。

如果選擇 De‑Turbo

Model Architecture — Z‑Image De‑Turbo (De‑Distilled)
Name or Path — ostris/Z-Image-De-Turbo
Training Adapter Path — 無

選項：

Low VRAM / Layer Offloading — 如果 VRAM 受限則啟用

6.3 QUANTIZATION 面板

24GB 以上，優先選擇 BF16/none 以獲得保真度
16GB，float8 通常是最佳折衷

6.4 TARGET 面板 – LoRA 配置

Target Type — LoRA
Linear Rank — 從 8–16 開始

16 用於更強的風格/紋理
8 用於更小、更微妙的 LoRA

6.5 SAVE 面板

Data Type — BF16
Save Every — 250
Max Step Saves to Keep — 4–12

6.6 TRAINING 面板 – 核心超參數

Batch Size — 1
Optimizer — AdamW8Bit
Learning Rate — 從 0.0001 開始
如果不穩定/雜訊多，降至 0.00005–0.00008。

避免過高（如 0.0002+）— Turbo 風格模型可能很快變得不穩定。
Weight Decay — 0.0001
Steps — 10–30 張圖像用 2500–3000
如果資料集很小（<10 張），考慮 1500–2200 以減少過擬合。
Loss Type — Mean Squared Error
Timestep Type — Weighted
Timestep Bias — Balanced

如果你想要更強的全域風格/氛圍，偏向 High Noise。
如果你追求身份/細節，偏向 Low Noise（進階；從 Balanced 開始）。

EMA — OFF

Text Encoder：

Cache Text Embeddings — 如果描述是靜態的且 VRAM 緊張則開啟
（然後將 Caption Dropout 設為 0）
Unload TE — 描述驅動訓練時保持 OFF

正則化：

DOP — 第一次運行保持 OFF；之後為生產級觸發詞專用 LoRA 添加
（DOP 很強大但增加複雜性；當你已有穩定基準時最容易使用。）

6.7 DATASETS 面板

Caption Dropout Rate

如果不快取 text embeddings 則 0.05
如果快取 embeddings 則 0

Cache Latents — ON
Resolutions — 512 / 768 / 1024 是強基準

6.8 SAMPLE 面板（匹配你的基礎模型！）

如果訓練 Turbo：

1024×1024，8 步，guidance = 0，每 250 步取樣

如果訓練 De‑Turbo：

1024×1024，20–30 步，CFG 2–3，每 250 步取樣

使用反映實際使用的 5–10 個提示詞；包含幾個不帶觸發詞的提示詞以檢測洩漏。

6.9 ADVANCED 面板 – Differential Guidance（可選）

Do Differential Guidance — 如果你想要更快收斂則開啟
Scale — 從 3 開始
如果樣本早期看起來過於銳利/雜訊多，降至 2。如果學習慢，可以之後測試 4。

7. Z‑Image LoRA 訓練實用配方

Turbo LoRA 的強基準：

Turbo + Training Adapter（v1 或 v2）
rank=16，lr=1e-4，steps=2500–3000
512/768/1024 桶，cache latents ON
每 250 步取樣，8 步，guidance 0

如果你的 LoRA 感覺「太強」：

保持訓練相同，但計劃以較低的 LoRA 權重（如 0.6–0.8）運行推論。

8. 故障排除

「我的 LoRA 破壞了 Turbo——現在需要更多步數/CFG。」

最常見原因：

在 Turbo 上訓練時沒有使用 Training Adapter，或
LR 過高持續時間過長。

解決方案：

使用 Turbo + Training Adapter 架構
保持 LR ≤ 1e‑4
如果早期看到漂移則減少步數

「風格太強了。」

推論時降低 LoRA 權重（0.6–0.8）
對生產級 LoRA 使用觸發詞 + DOP（可選擇性啟動行為）

「手部/背景很亂。」

添加一些包含這些情況的圖像
考慮略微偏向低雜訊時間步（進階）

「VRAM 不足/太慢。」

停用高桶（保持 512–1024）
啟用 Low VRAM + offloading
量化到 float8
快取 latents（可選快取 text embeddings）

FAQ

Z-Image Turbo LoRA 訓練應該使用 v1 還是 v2 adapter？

從你的 UI 預設值開始。如果結果不穩定或你看到 Z‑Image Turbo 漂移，在保持所有其他設定相同的情況下測試另一個版本。

應該在 Turbo+adapter 還是 De‑Turbo 上訓練 Z‑Image？

對於大多數需要保持 8 步 Turbo 行為的 Z‑Image LoRA 使用 Turbo+adapter。如果你想要無 adapter 訓練或更長的微調，使用 De‑Turbo。

訓練後應該使用什麼 Z‑Image 推論設定？

Z‑Image Turbo 通常使用低/零 CFG 和約 8 步。De‑Turbo 表現得更像普通模型（20–30 步，低 CFG）。始終使你的取樣設定與你實際使用的基礎模型匹配。

9. 使用你的 Z‑Image LoRA

Run LoRA — 開啟 Z‑Image Turbo Run LoRA 頁面。在這個基礎模型的推論頁面裡，你可以直接選擇你在 RunComfy 上訓練出來的 LoRA 資產，也可以 import 你用 AI Toolkit 訓練好的 LoRA 檔案，接著透過 playground 或 API 進行推論。RunComfy 會使用與你訓練設定一致的 base model，並復用訓練設定裡完整的 AI Toolkit pipeline 定義，所以訓練時看到什麼，推論就得到什麼；這種 training/inference 的強對齊能特別保證推論效果與訓練採樣的一致。
ComfyUI 工作流程 — 將你的 LoRA 載入到工作流程如 ComfyUI 中的 Z‑Image 工作流程

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample