Z‑Image 是由 Tongyi‑MAI 開發的 60億參數 圖像生成模型,基於 Scalable Single‑Stream Diffusion Transformer(S3‑DiT) 架構構建。該模型在同等規模中效率極高,專為在消費級 GPU 上以 1024×1024 解析度運行而設計。
本 Z-Image Turbo LoRA 訓練 指南涵蓋了 Z‑Image Turbo LoRA 訓練最常見、最實用的兩種方法:
1) Z‑Image Turbo(帶 Training Adapter) — 當你希望 LoRA 在訓練後保持 真正的 8 步 Turbo 速度 時的最佳選擇。
2) Z‑Image De‑Turbo(De‑Distilled) — 當你需要一個 去蒸餾 的基礎模型來進行 無需 adapter 的訓練,或進行更長時間的微調時的最佳選擇。
完成本指南後,你將能夠:
- 根據目標選擇正確的 Z‑Image 基礎模型(Turbo+adapter vs De‑Turbo)。
- 準備適用於 Turbo 風格蒸餾訓練的資料集。
- 逐面板配置 Ostris AI Toolkit(本機或 RunComfy Cloud AI Toolkit)。
- 理解每個參數 為什麼 重要,從而能夠調整而非簡單複製貼上。
本文是 AI Toolkit LoRA 訓練系列的一部分。如果你是 Ostris AI Toolkit 新手,請先閱讀 AI Toolkit LoRA 訓練概述 再深入本指南。
快速開始(建議基準配置)
選項 A — Turbo + Training Adapter(大多數 LoRA 建議)
如果你希望進行 Z-Image-Turbo LoRA 訓練,且訓練後 LoRA 保持 Turbo 的快速 8 步行為,請使用此選項。
為什麼這很重要:
- Turbo 是一個蒸餾的「學生」模型:它將較慢的多步擴散過程壓縮為 約 8 步。
- 如果你像普通模型一樣在 Turbo 上訓練,你的更新可能會 撤銷蒸餾(「Turbo 漂移」),你將需要 更多步數/更高 CFG 才能獲得相同品質。
- Training Adapter 在訓練期間暫時「去蒸餾」Turbo,使你的 LoRA 能夠學習概念 而不破壞 Turbo 的 8 步行為。推論時移除 adapter,只保留你的 LoRA。
基準設定:
- MODEL → Model Architecture:
Z‑Image Turbo (w/ Training Adapter) - MODEL → Name or Path:
Tongyi-MAI/Z-Image-Turbo - MODEL → Training Adapter Path:
- 如果 UI 自動填充則保持預設(RunComfy 通常預設使用 v2),或明確設定:
- v1:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors - TARGET → Linear Rank:
16 - TRAINING → Learning Rate:
0.0001 - TRAINING → Steps:
2500–3000(對於 10–30 張圖像) - DATASETS → Resolutions:
512 / 768 / 1024並開啟 Cache Latents - SAMPLE(用於預覽):
1024×1024,8 步(如果你的管線將 9 視為「8 DiT forwards」則使用9)- Guidance scale = 0(Turbo 已進行 guidance 蒸餾)
- 每
250步取樣一次
選項 B — De‑Turbo(去蒸餾基礎模型)
如果你想 無需 Training Adapter 進行訓練,或計劃更長時間的訓練,請使用此選項。
與 Turbo 相比的變化:
- De‑Turbo 在訓練和取樣時表現得更像「普通」擴散模型。
- 你通常使用 更多步數 和 較低(但非零)的 CFG 進行取樣。
- MODEL → Model Architecture:
Z‑Image De‑Turbo (De‑Distilled) - MODEL → Name or Path:
ostris/Z-Image-De-Turbo(或你的 AI Toolkit 版本預選的內容) - Training Adapter Path: 無(不需要)
- 保持相同的 LoRA 設定(rank/LR/steps)作為基準。
- SAMPLE(用於預覽):
- 20–30 步
- CFG(guidance scale)≈ 2–3
- 每
250步取樣一次
想要零設定?使用 RunComfy Cloud AI Toolkit 並按照完全相同的面板操作。
目錄
- 1. 應該在哪個 Z‑Image 基礎模型上訓練?(Turbo+adapter vs De‑Turbo)
- 2. Z‑Image Training Adapter v1 vs v2(有何變化,何時使用)
- 3. Z‑Image / Z‑Image‑Turbo 簡介(用於 LoRA 訓練)
- 4. Z‑Image 訓練位置:本機 vs 雲端 AI Toolkit
- 5. 設計 Z‑Image LoRA 訓練資料集
- 6. AI Toolkit 中的 Z‑Image LoRA 配置 – 逐參數詳解
- 7. Z‑Image LoRA 訓練實用配方
- 8. 故障排除(Turbo 漂移、過擬合、VRAM、取樣)
- 9. 匯出和使用你的 Z‑Image LoRA
- FAQ
1. 應該在哪個 Z‑Image 基礎模型上訓練?(Turbo+adapter vs De‑Turbo)
AI Toolkit 為 Zimage Turbo LoRA 訓練 提供了 兩個「Model Architecture」選項:
1.1 Z‑Image Turbo(帶 Training Adapter)
最適合: 典型的 LoRA(角色、風格、產品),其最終目標是在 8 步的 Turbo 上運行推論。
為什麼存在:
- Z‑Image Turbo 是一個 步數蒸餾 模型。如果你在步數蒸餾模型上「正常」訓練 LoRA,蒸餾可能會快速崩潰,Turbo 開始表現得像一個較慢的非蒸餾模型(品質變化、需要更多步數等)。
- Training Adapter 在訓練期間充當暫時的「去蒸餾 LoRA」。你的 LoRA 學習概念,而 Turbo 的快速 8 步行為保持穩定。
- 推論時,你移除 Training Adapter,只在真正的 Turbo 基礎上保留你的 LoRA。
選擇正確路徑的實際信號:
- 你的預覽樣本在 8 步、guidance ≈ 0 時看起來很好。
- 你的 LoRA 不會突然開始需要 20–30 步 才能看起來乾淨(Turbo 漂移的常見跡象)。
1.2 Z‑Image De‑Turbo (De‑Distilled)
最適合: 無 adapter 訓練,或 Turbo+adapter 最終會漂移的更長微調。
這是什麼:
- De‑Turbo 是 Turbo 的 去蒸餾 版本,設計為在訓練時更像普通擴散模型。
- 可以直接無 adapter 訓練,也可用於推論(通常 20–30 步,低 CFG)。
1.3 快速決策指南
選擇 Turbo + Training Adapter 如果:
- 你希望 LoRA 在訓練後以 Turbo 速度(8 步)運行。
- 你正在進行正常的 LoRA 訓練(幾千到幾萬步)。
選擇 De‑Turbo 如果:
- 你想要訓練和取樣的「普通模型」行為。
- 你想訓練更長時間,或正在嘗試不能很好支援 Training Adapter 的工作流程。
2. Z‑Image Training Adapter v1 vs v2(有何變化,何時使用)
在 Training Adapter 儲存庫中,你通常會看到兩個檔案:
..._v1.safetensors..._v2.safetensors
你需要知道的(實際上):
- v1 是安全的基準。
- v2 是較新的變體,可能會改變訓練動態和結果。
建議: 將其視為 A/B 測試:
- 保持 資料集、LR、步數、rank 相同
- 用 v1 訓練一次,用 v2 訓練一次
- 在相同檢查點比較樣本網格
如果你的 RunComfy UI 預設使用 v2 且訓練看起來穩定,就保持現狀。如果你看到不穩定(雜訊、Turbo 漂移、奇怪的偽影),切換到 v1。
3. Z‑Image / Z‑Image‑Turbo 簡介(用於 LoRA 訓練)
來自官方 Z‑Image 資料:
- 60億參數,S3‑DiT 架構 — 文字 token、視覺語義 token 和 VAE latent 被連接成單個 transformer 流。
- 模型家族 — Z‑Image 系列中存在 Turbo、Base 和 Edit 變體。
- Turbo 特性 — 針對快速推論最佳化;Turbo 推論的 guidance 通常為 0。
LoRA 訓練的有用心智模型:
- 高雜訊時間步 主要控制 構圖(佈局、姿勢、整體色調)。
- 低雜訊時間步 主要控制 細節(面部、手部、紋理)。
這就是為什麼時間步設定和偏置可以明顯改變 LoRA 感覺像「全域風格」還是「身份/細節」。
4. Z‑Image 訓練位置:本機 vs 雲端 AI Toolkit
4.1 本機 AI Toolkit
Ostris AI Toolkit 在 GitHub 上開源。它透過統一的 UI 和配置系統支援 ZIT LoRA 訓練、FLUX、Wan、Qwen 等。
本機訓練適合:
- 你已有 NVIDIA GPU 且不介意 Python / Git 設定。
- 你想完全控制檔案、日誌和自訂更改。
4.2 RunComfy Cloud AI Toolkit
如果你想跳過 CUDA 安裝和驅動程式問題,使用 RunComfy Cloud AI Toolkit:
- 零設定 — 開啟瀏覽器即可訓練。
- 穩定的 VRAM — 更容易按指南操作,無硬體摩擦。
- 持久儲存 — 更容易迭代和檢查點管理。
👉 在此開啟:RunComfy Cloud AI Toolkit
5. 設計 Z‑Image LoRA 訓練資料集
5.1 實際需要多少張圖像?
- 10–30 張圖像 對大多數角色或風格 LoRA 來說是個好範圍。
- 超過約 50 張圖像,除非你的風格範圍很廣,否則通常會遇到收益遞減。
Z‑Image 從梯度中強烈學習(「熱學習」),因此資料集品質和多樣性比原始圖像數量更重要:
- 太少圖像 + 太多訓練通常表現為 過擬合的面部、重複的姿勢或混亂的背景。
- 小而多樣的資料集(角度、光照、背景)往往比大而重複的資料集泛化得更好。
5.2 角色 vs 風格 LoRA
角色 LoRA
- 目標是同一主體的 12–30 張圖像。
- 混合特寫和全身、角度、光照、服裝。
- 描述可以是字面的和一致的;可選的觸發詞。
風格 LoRA
- 目標是跨越不同主體(人物、室內、風景、物體)的 15–40 張圖像。
- 正常描述場景;除非你想讓它只透過觸發詞啟動,否則不要過度描述風格。
- 這教的是:「用這種風格渲染 任何東西」,而不是「只有當我說特殊關鍵詞時才應用風格」。
5.3 描述、觸發詞和文字檔案
image_01.png→image_01.txt- 如果沒有
.txt,AI Toolkit 使用 Default Caption。 - 你可以在描述中使用
[trigger]並在 JOB 面板設定 Trigger Word。 - 如果你之後啟用 DOP(Differential Output Preservation)使 LoRA 更「可選擇性啟動」,這尤其有用。
6. AI Toolkit 中的 Z‑Image LoRA 配置 – 逐參數詳解
本節我們逐個講解 UI 面板,解釋在進行 Z-Image Turbo LoRA 微調 時每個重要欄位的作用。
6.1 JOB 面板
- Training Name — 描述性標籤如
zimage_char_redhair_v1 - GPU ID — 本機 GPU 選擇器;雲端保持預設
- Trigger Word(可選) —
zchar_redhair/zstyle_pencil
6.2 MODEL 面板(最重要)
這裡是 兩個基礎模型選擇 的關鍵:
如果選擇 Turbo + adapter
- Model Architecture —
Z‑Image Turbo (w/ Training Adapter) - Name or Path —
Tongyi-MAI/Z-Image-Turbo - 這是 Hugging Face 模型 id(儲存庫 id)。在大多數 AI Toolkit 版本中,選擇 Model Architecture 會 自動填充 這個;除非有理由更改,否則保持原樣。
- 如果要覆蓋,使用 Hugging Face 儲存庫 id 格式:
org-or-user/model-name(可選org-or-user/model-name@revision)。 - Training Adapter Path — 保持預設或選擇:
- v1:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
提示:如果你意外地 不使用 adapter 訓練 Turbo,最常見的症狀是你的 LoRA 只有在提高 steps/CFG 時才「有效」,這違背了 Turbo 的意義。
如果選擇 De‑Turbo
- Model Architecture —
Z‑Image De‑Turbo (De‑Distilled) - Name or Path —
ostris/Z-Image-De-Turbo - Training Adapter Path — 無
選項:
- Low VRAM / Layer Offloading — 如果 VRAM 受限則啟用
6.3 QUANTIZATION 面板
- 24GB 以上,優先選擇
BF16/none以獲得保真度 - 16GB,
float8通常是最佳折衷
6.4 TARGET 面板 – LoRA 配置
- Target Type —
LoRA - Linear Rank — 從
8–16開始 16用於更強的風格/紋理8用於更小、更微妙的 LoRA
6.5 SAVE 面板
- Data Type —
BF16 - Save Every —
250 - Max Step Saves to Keep —
4–12
6.6 TRAINING 面板 – 核心超參數
- Batch Size —
1 - Optimizer —
AdamW8Bit - Learning Rate — 從
0.0001開始如果不穩定/雜訊多,降至
0.00005–0.00008。避免過高(如
0.0002+)— Turbo 風格模型可能很快變得不穩定。 - Weight Decay —
0.0001 - Steps — 10–30 張圖像用
2500–3000如果資料集很小(<10 張),考慮
1500–2200以減少過擬合。 - Loss Type —
Mean Squared Error - Timestep Type —
Weighted - Timestep Bias —
Balanced - 如果你想要更強的全域風格/氛圍,偏向 High Noise。
- 如果你追求身份/細節,偏向 Low Noise(進階;從 Balanced 開始)。
- EMA — OFF
Text Encoder:
- Cache Text Embeddings — 如果描述是靜態的且 VRAM 緊張則開啟
(然後將 Caption Dropout 設為 0)
- Unload TE — 描述驅動訓練時保持 OFF
正則化:
- DOP — 第一次運行保持 OFF;之後為生產級觸發詞專用 LoRA 添加
(DOP 很強大但增加複雜性;當你已有穩定基準時最容易使用。)
6.7 DATASETS 面板
- Caption Dropout Rate
- 如果不快取 text embeddings 則
0.05 - 如果快取 embeddings 則
0 - Cache Latents — ON
- Resolutions —
512 / 768 / 1024是強基準
6.8 SAMPLE 面板(匹配你的基礎模型!)
如果訓練 Turbo:
1024×1024,8 步,guidance = 0,每250步取樣
如果訓練 De‑Turbo:
1024×1024,20–30 步,CFG 2–3,每250步取樣
使用反映實際使用的 5–10 個提示詞;包含幾個不帶觸發詞的提示詞以檢測洩漏。
6.9 ADVANCED 面板 – Differential Guidance(可選)
- Do Differential Guidance — 如果你想要更快收斂則開啟
- Scale — 從
3開始如果樣本早期看起來過於銳利/雜訊多,降至
2。如果學習慢,可以之後測試4。
7. Z‑Image LoRA 訓練實用配方
Turbo LoRA 的強基準:
- Turbo + Training Adapter(v1 或 v2)
rank=16,lr=1e-4,steps=2500–3000512/768/1024桶,cache latents ON- 每 250 步取樣,8 步,guidance 0
如果你的 LoRA 感覺「太強」:
- 保持訓練相同,但計劃以較低的 LoRA 權重(如
0.6–0.8)運行推論。
8. 故障排除
「我的 LoRA 破壞了 Turbo——現在需要更多步數/CFG。」
- 最常見原因:
- 在 Turbo 上訓練時沒有使用 Training Adapter,或
- LR 過高持續時間過長。
- 解決方案:
- 使用 Turbo + Training Adapter 架構
- 保持 LR ≤ 1e‑4
- 如果早期看到漂移則減少步數
「風格太強了。」
- 推論時降低 LoRA 權重(0.6–0.8)
- 對生產級 LoRA 使用觸發詞 + DOP(可選擇性啟動行為)
「手部/背景很亂。」
- 添加一些包含這些情況的圖像
- 考慮略微偏向低雜訊時間步(進階)
「VRAM 不足/太慢。」
- 停用高桶(保持 512–1024)
- 啟用 Low VRAM + offloading
- 量化到 float8
- 快取 latents(可選快取 text embeddings)
FAQ
Z-Image Turbo LoRA 訓練應該使用 v1 還是 v2 adapter?
從你的 UI 預設值開始。如果結果不穩定或你看到 Z‑Image Turbo 漂移,在保持所有其他設定相同的情況下測試另一個版本。
應該在 Turbo+adapter 還是 De‑Turbo 上訓練 Z‑Image?
對於大多數需要保持 8 步 Turbo 行為的 Z‑Image LoRA 使用 Turbo+adapter。如果你想要無 adapter 訓練或更長的微調,使用 De‑Turbo。
訓練後應該使用什麼 Z‑Image 推論設定?
Z‑Image Turbo 通常使用低/零 CFG 和約 8 步。De‑Turbo 表現得更像普通模型(20–30 步,低 CFG)。始終使你的取樣設定與你實際使用的基礎模型匹配。
9. 使用你的 Z‑Image LoRA
- Run LoRA — 開啟 Z‑Image Turbo Run LoRA 頁面。在這個基礎模型的推論頁面裡,你可以直接選擇你在 RunComfy 上訓練出來的 LoRA 資產,也可以 import 你用 AI Toolkit 訓練好的 LoRA 檔案,接著透過 playground 或 API 進行推論。RunComfy 會使用與你訓練設定一致的 base model,並復用訓練設定裡完整的 AI Toolkit pipeline 定義,所以訓練時看到什麼,推論就得到什麼;這種 training/inference 的強對齊能特別保證推論效果與訓練採樣的一致。
- ComfyUI 工作流程 — 將你的 LoRA 載入到工作流程如 ComfyUI 中的 Z‑Image 工作流程
更多 AI Toolkit LoRA 訓練指南
準備好開始訓練了嗎?

