使用 Ostris AI Toolkit 進行 Z‑Image（Base）LoRA 訓練

Z‑Image（Base）是 Z‑Image 的完整版 checkpoint（不是 8 步 Turbo）。它面向高品質文生圖（text‑to‑image）而設計，支援 CFG + 負向提示詞，並且通常需要更多採樣步數；如果你的目標是做一個乾淨、可完全控制的 LoRA（角色、風格、產品、文字/排版重度概念），Z‑Image（Base）也是最合適的底座選擇。

在本篇 Z‑Image LoRA 訓練教學結束後，你將能夠：

使用 Ostris AI Toolkit（本機或雲端）完成一次 Z‑Image LoRA 訓練。
選擇真正匹配 Z‑Image Base 推論行為的預設設定（steps + CFG + 解析度）。
避開 Z‑Image Base LoRA 訓練最常見的坑（Turbo 採樣設定、「LoRA 沒效果」、Base↔Turbo 不匹配）。
匯出可以立刻在推論 UI 中使用的 checkpoint。

本文是 AI Toolkit LoRA 訓練系列的一部分。如果你是 Ostris AI Toolkit 新手，建議先閱讀 AI Toolkit LoRA 訓練概述 再進入本篇 Z‑Image LoRA 訓練：

https://www.runcomfy.com/zh-TW/trainer/ai-toolkit/getting-started

1. Z‑Image 概覽：它能做什麼（以及與 Turbo 的差異）
2. 環境選擇：本機 AI Toolkit vs RunComfy 雲端 AI Toolkit
3. Z‑Image Base LoRA 訓練的硬體與 VRAM 要求
4. 建立 Z‑Image Base LoRA 訓練資料集
5. 逐步操作：在 AI Toolkit 中進行 Z‑Image LoRA 訓練
6. 按 VRAM 檔位推薦的 Z‑Image LoRA 訓練配置
7. Z‑Image Base 訓練常見問題與解決方案
8. 訓練完成後如何使用你的 Z‑Image Base LoRA

1. Z‑Image 概覽：它能做什麼（以及與 Turbo 的差異）

1.1 「Z‑Image Base」是什麼意思

「Z‑Image Base」指的是 非蒸餾（non‑distilled） 的 Z‑Image checkpoint。實際表現上：

需要更多採樣步數（通常 ~30–50，而不是 8）。
能有效利用 CFG 和 負向提示詞。
如果你想要更強的可控性和更高的畫質，它是 LoRA 微調（備選關鍵字出現 1 次）以及 Z‑Image LoRA 訓練的更佳目標。

1.2 Base vs Turbo（對訓練最重要的影響）

在 Z‑Image LoRA 訓練裡，一個很常見的錯誤是：用 Turbo 的方式來訓練（或評估）Base。

Turbo 設定（8 步、低/無 CFG）會讓 Base 輸出看起來沒熟/細節不足，從而讓你誤以為 LoRA「沒有生效」。
Base 設定（30–50 步 + 正常 CFG）才是判斷 checkpoint 的正確方式。

經驗法則：

如果你訓練的是 Base LoRA，就用 Base + Base 風格採樣來評估它。

2. 環境選擇：本機 AI Toolkit vs RunComfy 雲端 AI Toolkit

你可以用兩種方式完成本篇 Z‑Image LoRA 訓練：

本機 AI Toolkit（你的 GPU）
從 GitHub 倉庫安裝 AI Toolkit，然後運行 Web UI。本機 Z‑Image LoRA 訓練適合：你有 NVIDIA GPU、願意自行管理 CUDA/驅動、並且想要一個便於反覆迭代 LoRA 的長期環境。

https://github.com/ostris/ai-toolkit
RunComfy 雲端 AI Toolkit（H100 / H200）
在瀏覽器裡直接使用大顯存 GPU 運行 AI Toolkit：

無需安裝（打開 UI 即可）
更大的 VRAM，支援更高解析度桶（1280 / 1536）
持久化工作區，方便保存資料集、配置與歷史訓練記錄

兩種環境的 Z‑Image LoRA 訓練流程一致，差別只在於 GPU 的位置。

3. Z‑Image Base LoRA 訓練的硬體與 VRAM 要求

Z‑Image 推論本身可以在相對一般的 GPU 上運行，但 Z‑Image LoRA 訓練仍會隨以下因素顯著變化：

解析度桶（768 vs 1024 vs 1536）
量化（float8）
LoRA rank
訓練期間的採樣設定（預覽解析度 + 預覽步數）

一個更實用的理解方式（面向 Z‑Image LoRA 訓練）：

12–16GB VRAM：在謹慎設定下可做 512/768
24GB VRAM：更適合做 1024 的 LoRA 訓練
48GB+ VRAM：最輕鬆的路徑，可支援 1280/1536 桶並更快迭代

如果你的目標是排版/文字重度概念或產品細節一致性，請盡量使用更高解析度並接受 VRAM 需求會迅速上升。

4. 建立 Z‑Image Base LoRA 訓練資料集

Z‑Image Base 對資料集格式並沒有「特殊要求」——但它對你如何評估品質很敏感。因此，你的 Z‑Image LoRA 訓練資料集應該圍繞你在推論階段想要的行為來設計（CFG + 更高步數）。

4.1 先明確目標（以及資料集形態）

角色 / 相似度：15–50 張
混合特寫 + 半身 + 多種光照。
風格：30–200 張
盡量擴大主體多樣性，讓模型學到「風格線索」，而不是單一場景。
產品 / 概念：20–80 張
構圖一致，並用清晰 caption 標註關鍵特徵（材質、標籤文字、形狀）。

4.2 描述 + 觸發詞（保持簡單）

如果你希望 LoRA 有清晰的「開/關」觸發（建議角色/產品類 Z‑Image LoRA 訓練），使用 trigger。
caption 盡量短且一致。過長 caption 容易產生意外綁定（髮型/背景被「綁定」為 trigger 的一部分）。

快速模板

Character:
[trigger]

or photo of [trigger], portrait, natural lighting
Style:
in a [style] illustration style, soft shading, muted palette
Product:
product photo of [trigger], studio lighting, clean background

5. 逐步操作：在 AI Toolkit 中進行 Z‑Image LoRA 訓練

這一節會盡量對齊你在建立訓練任務時看到的 AI Toolkit UI 面板，方便你按面板一步步完成 Z‑Image LoRA 訓練。

5.1 JOB 面板（Training Name, GPU ID, Trigger Word）

Training Name：描述性的運行名稱（例如 zimage_base_character_v1）
GPU ID：本機選擇你的 GPU；雲端保持預設即可
Trigger Word（可選，但角色/產品類 Z‑Image LoRA 訓練建議）：
例如 zimgAlice

5.2 MODEL 面板（Model Architecture, Name or Path, Options）

Model Architecture：選擇 Z‑Image
Name or Path：設定 base model repo，通常為：
Tongyi-MAI/Z-Image
Options

Low VRAM：如果是 ≤ 24GB，建議 ON
Layer Offloading：預設 OFF；只有在你降低解析度/rank 後仍 OOM 才考慮開啟

5.3 QUANTIZATION 面板（Transformer, Text Encoder）

Transformer：float8 (default) 是很強的預設選擇，有利於更高解析度桶。
Text Encoder：如果你需要 VRAM 餘量，也可以用 float8 (default)。

如果你有很大的 VRAM，也可以降低量化以簡化流程；但對 Z‑Image LoRA 訓練來說，float8 通常是安全基線。

5.4 TARGET 面板（Target Type, Linear Rank）

Target Type：LoRA
Linear Rank（Z‑Image LoRA 訓練的實用預設值）

16：風格 LoRA、低 VRAM 運行
32：角色/產品 LoRA，更高保真度
48+：僅在你有足夠 VRAM 且確定欠擬合時再用

5.5 SAVE 面板（Data Type, Save Every, Max Step Saves to Keep）

Data Type：BF16
Save Every：250（足夠多的 checkpoint 方便挑最好的一版）
Max Step Saves to Keep：4（避免磁碟膨脹）

5.6 TRAINING 面板（Batch Size, Steps, Optimizer, LR, Timesteps）

穩定基線（建議用於 Z‑Image LoRA 訓練）

Batch Size：1
Gradient Accumulation：1（想要更大有效 batch 但 VRAM 不夠時再提高）
Steps：見下方建議範圍
Optimizer：AdamW8Bit
Learning Rate：0.0001（不穩定時降到 0.00005）
Weight Decay：0.0001
Timestep Type：Weighted
Timestep Bias：Balanced
Loss Type：Mean Squared Error
EMA：多數 LoRA 訓練建議 OFF

Steps：更適合 Z‑Image Base 的建議

Z‑Image Base 往往比 Turbo 風格蒸餾模型更能承受更長訓練，但仍需要在提示詞遵循度崩塌前停止。

角色 / 相似度：3000–7000 steps（甜點區取決於資料集大小）
風格：2000–6000 steps
產品 / 概念：2500–6500 steps

如果你想先快速驗證 Z‑Image LoRA 訓練是否走在正確方向，可以先跑 1000–1500 steps 做 smoke test，觀察樣圖後再跑完整訓練。

5.7 Text Encoder 優化 + 正則化（右側）

Unload TE：除非你明確想要僅 trigger 行為且不依賴 caption，否則保持 OFF
Cache Text Embeddings：僅在你使用靜態 caption 且不使用 caption dropout 時開啟

Differential Output Preservation (DOP)

如果你的 UI build 支援：

當你希望「LoRA 只在被提示時才啟動」時啟用 Differential Output Preservation
DOP 開啟時不要快取 text embeddings（概念上衝突）

5.8 ADVANCED 面板

Do Differential Guidance：除非你在常規工作流中已使用且清楚調參目標，否則保持 OFF。

5.9 DATASETS 面板（Target Dataset, Caption Dropout, Cache Latents, Resolutions）

按 UI 面板配置你的 Z‑Image LoRA 訓練資料集：

Target Dataset：選擇你的 dataset
Default Caption：可選的短模板（如果每張圖都有 .txt，也可以留空）
Caption Dropout Rate：0.05（如果快取 text embeddings 則設為 0）
Cache Latents：ON（更快）
Is Regularization：主資料集保持 OFF
Flip X / Flip Y：預設 OFF（尤其是 logo/文字）
Resolutions（Z‑Image Base LoRA 訓練的最關鍵槓桿）

低 VRAM：啟用 512 + 768
24GB：啟用 768 + 1024（如果資料集很一致，也可以只用 1024）
高 VRAM：加入 1280 / 1536，獲得更好的產品/文字保真

5.10 SAMPLE 面板（Base vs Turbo 最容易出錯的地方）

這是 Z‑Image Base 在 Z‑Image LoRA 訓練中最容易被錯誤配置的地方。

推薦的 Base 採樣預設值

Sample Every：250
Sampler：FlowMatch（匹配訓練調度器家族）
Guidance Scale：4（Base 常見範圍 ~3–5；按喜好調整）
Sample Steps：30–50（先從 30 開始）
Width / Height：與主解析度桶一致（1024×1024 是不錯的基線）
準備一組能覆蓋以下內容的提示詞：

trigger（如果你用了）
不同構圖
至少一個「難題」提示詞（壓測身份/風格/產品幾何一致性）

可選負向提示詞（Base 支援得很好）

預覽圖可以使用短負向提示詞減少偽影，例如：

low quality, blurry, deformed, bad anatomy, watermark, text artifacts

5.11 啟動訓練並監控

啟動任務後，在 Z‑Image LoRA 訓練過程中重點觀察：

每個 checkpoint 間隔（250 steps）的 samples
提示詞遵循度（prompts 是否仍被尊重）
過擬合信號（同一張臉/紋理到處出現，背景崩塌）

選擇那個 LoRA 足夠強、但不會變成永遠開啟濾鏡的 checkpoint。

6. 按 VRAM 檔位推薦的 Z‑Image LoRA 訓練配置

Tier 1 — 12–16GB（緊張 VRAM）

Low VRAM：ON
Quantization：Transformer + Text Encoder 都用 float8
Linear Rank：16
Resolutions：512 + 768
Sample Steps：30（必要時把預覽解析度保持在 768）
Steps：按資料集大小 2000–5000

Tier 2 — 24GB（最實用的本機檔）

Low VRAM：ON（穩定後可嘗試 OFF）
Quantization：float8
Linear Rank：32（角色/產品），16–32（風格）
Resolutions：768 + 1024（或一致性高時只用 1024）
Sample Steps：30–40
Steps：按目標 3000–7000

Tier 3 — 48GB+（或雲端 H100/H200）

Low VRAM：OFF（可選）
Quantization：可選（float8 也完全 OK）
Linear Rank：32–48
Resolutions：1024 + 1280 + 1536（如果資料集支援）
Sample Steps：40–50（預覽品質更好）
Steps：仍按目標範圍；只是迭代更快

7. Z‑Image Base 訓練常見問題與解決方案

這些是 Z‑Image Base 特有的問題（不是通用 AI Toolkit 錯誤）。

「Base 看起來沒熟 / 細節不足」

可能原因： 採樣步數太少和/或解析度太低。

解決

將 sample steps 提高到 40–50
如果 VRAM 允許，嘗試更高解析度桶（1280/1536）
如果你的推論工作流有「shift」參數：有使用者回饋在中等 shift（如 ~4–6）下連貫性更好。請只在 steps/CFG 正確後再把它當作微調旋鈕使用。

「Base LoRA 在 Base 上有效，但在 Turbo 上沒效果」

很多情況下這是正常現象：

Turbo 是蒸餾模型，行為不同（尤其是 CFG/負向提示詞，以及 LoRA 的「咬合強度」）。

解決

若你的部署目標是 Turbo，不要預設 Base↔Turbo 會 1:1 轉移；建議使用 Turbo 取向的訓練工作流。
為取得最佳效果，訓練與部署盡量使用同一模型家族（Base→Base）。

「文字/Logo 不穩定」

Z‑Image Base 的文字能力可以很強，但在 Z‑Image LoRA 訓練中它對解析度和採樣非常敏感。

解決

盡量在 1024+ 訓練（可能的話考慮 1280/1536）
評估時使用 40–50 steps
若文字很重要，避免 Flip X
用 caption 一致地描述關鍵文字特徵（不要指望 trigger 自動包含它）

8. 訓練完成後如何使用你的 Z‑Image Base LoRA

Run LoRA — 打開 Z‑Image Run LoRA 頁面。在這個 base model 推論頁面裡，你可以選擇你在 RunComfy 上訓練的 LoRA 資產，或匯入你用 AI Toolkit 訓練得到的 LoRA 檔案，然後透過 playground 或 API 執行推論。RunComfy 會使用同一 base model，並復用你訓練配置中的完整 AI Toolkit pipeline 定義，因此訓練時看到的效果更容易在推論中重現；這種 training/inference 的強對齊能幫助推論結果與 Z‑Image LoRA 訓練樣圖保持一致。你也可以透過 Deployments 頁面 將 LoRA 部署為獨立 endpoint。

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample