使用 Ostris AI Toolkit 進行 Z‑Image(Base)LoRA 訓練
Z‑Image(Base)是 Z‑Image 的完整版 checkpoint(不是 8 步 Turbo)。它面向高品質文生圖(text‑to‑image)而設計,支援 CFG + 負向提示詞,並且通常需要更多採樣步數;如果你的目標是做一個乾淨、可完全控制的 LoRA(角色、風格、產品、文字/排版重度概念),Z‑Image(Base)也是最合適的底座選擇。
在本篇 Z‑Image LoRA 訓練教學結束後,你將能夠:
- 使用 Ostris AI Toolkit(本機或雲端)完成一次 Z‑Image LoRA 訓練。
- 選擇真正匹配 Z‑Image Base 推論行為的預設設定(steps + CFG + 解析度)。
- 避開 Z‑Image Base LoRA 訓練最常見的坑(Turbo 採樣設定、 「LoRA 沒效果」、Base↔Turbo 不匹配)。
- 匯出可以立刻在推論 UI 中使用的 checkpoint。
本文是 AI Toolkit LoRA 訓練系列的一部分。如果你是 Ostris AI Toolkit 新手,建議先閱讀 AI Toolkit LoRA 訓練概述 再進入本篇 Z‑Image LoRA 訓練:
https://www.runcomfy.com/zh-TW/trainer/ai-toolkit/getting-started
目錄
- 1. Z‑Image 概覽:它能做什麼(以及與 Turbo 的差異)
- 2. 環境選擇:本機 AI Toolkit vs RunComfy 雲端 AI Toolkit
- 3. Z‑Image Base LoRA 訓練的硬體與 VRAM 要求
- 4. 建立 Z‑Image Base LoRA 訓練資料集
- 5. 逐步操作:在 AI Toolkit 中進行 Z‑Image LoRA 訓練
- 6. 按 VRAM 檔位推薦的 Z‑Image LoRA 訓練配置
- 7. Z‑Image Base 訓練常見問題與解決方案
- 8. 訓練完成後如何使用你的 Z‑Image Base LoRA
1. Z‑Image 概覽:它能做什麼(以及與 Turbo 的差異)
1.1 「Z‑Image Base」是什麼意思
「Z‑Image Base」指的是 非蒸餾(non‑distilled) 的 Z‑Image checkpoint。實際表現上:
- 需要更多採樣步數(通常 ~30–50,而不是 8)。
- 能有效利用 CFG 和 負向提示詞。
- 如果你想要更強的可控性和更高的畫質,它是 LoRA 微調(備選關鍵字出現 1 次)以及 Z‑Image LoRA 訓練的更佳目標。
1.2 Base vs Turbo(對訓練最重要的影響)
在 Z‑Image LoRA 訓練裡,一個很常見的錯誤是:用 Turbo 的方式來訓練(或評估)Base。
- Turbo 設定(8 步、低/無 CFG)會讓 Base 輸出看起來沒熟/細節不足,從而讓你誤以為 LoRA「沒有生效」。
- Base 設定(30–50 步 + 正常 CFG)才是判斷 checkpoint 的正確方式。
經驗法則:
如果你訓練的是 Base LoRA,就用 Base + Base 風格採樣來評估它。
2. 環境選擇:本機 AI Toolkit vs RunComfy 雲端 AI Toolkit
你可以用兩種方式完成本篇 Z‑Image LoRA 訓練:
- 本機 AI Toolkit(你的 GPU)
從 GitHub 倉庫安裝 AI Toolkit,然後運行 Web UI。本機 Z‑Image LoRA 訓練適合:你有 NVIDIA GPU、願意自行管理 CUDA/驅動、並且想要一個便於反覆迭代 LoRA 的長期環境。
https://github.com/ostris/ai-toolkit
- RunComfy 雲端 AI Toolkit(H100 / H200)
在瀏覽器裡直接使用大顯存 GPU 運行 AI Toolkit:
- 無需安裝(打開 UI 即可)
- 更大的 VRAM,支援更高解析度桶(1280 / 1536)
- 持久化工作區,方便保存資料集、配置與歷史訓練記錄
兩種環境的 Z‑Image LoRA 訓練流程一致,差別只在於 GPU 的位置。
3. Z‑Image Base LoRA 訓練的硬體與 VRAM 要求
Z‑Image 推論本身可以在相對一般的 GPU 上運行,但 Z‑Image LoRA 訓練仍會隨以下因素顯著變化:
- 解析度桶(768 vs 1024 vs 1536)
- 量化(float8)
- LoRA rank
- 訓練期間的採樣設定(預覽解析度 + 預覽步數)
一個更實用的理解方式(面向 Z‑Image LoRA 訓練):
- 12–16GB VRAM:在謹慎設定下可做 512/768
- 24GB VRAM:更適合做 1024 的 LoRA 訓練
- 48GB+ VRAM:最輕鬆的路徑,可支援 1280/1536 桶並更快迭代
如果你的目標是排版/文字重度概念或產品細節一致性,請盡量使用更高解析度並接受 VRAM 需求會迅速上升。
4. 建立 Z‑Image Base LoRA 訓練資料集
Z‑Image Base 對資料集格式並沒有「特殊要求」——但它對你如何評估品質很敏感。因此,你的 Z‑Image LoRA 訓練資料集應該圍繞你在推論階段想要的行為來設計(CFG + 更高步數)。
4.1 先明確目標(以及資料集形態)
- 角色 / 相似度:15–50 張
混合特寫 + 半身 + 多種光照。
- 風格:30–200 張
盡量擴大主體多樣性,讓模型學到「風格線索」,而不是單一場景。
- 產品 / 概念:20–80 張
構圖一致,並用清晰 caption 標註關鍵特徵(材質、標籤文字、形狀)。
4.2 描述 + 觸發詞(保持簡單)
- 如果你希望 LoRA 有清晰的「開/關」觸發(建議角色/產品類 Z‑Image LoRA 訓練),使用 trigger。
- caption 盡量短且一致。過長 caption 容易產生意外綁定(髮型/背景被「綁定」為 trigger 的一部分)。
快速模板
- Character:
[trigger]or
photo of [trigger], portrait, natural lighting - Style:
in a [style] illustration style, soft shading, muted palette - Product:
product photo of [trigger], studio lighting, clean background
5. 逐步操作:在 AI Toolkit 中進行 Z‑Image LoRA 訓練
這一節會盡量對齊你在建立訓練任務時看到的 AI Toolkit UI 面板,方便你按面板一步步完成 Z‑Image LoRA 訓練。
5.1 JOB 面板(Training Name, GPU ID, Trigger Word)
- Training Name:描述性的運行名稱(例如
zimage_base_character_v1) - GPU ID:本機選擇你的 GPU;雲端保持預設即可
- Trigger Word(可選,但角色/產品類 Z‑Image LoRA 訓練建議):
例如
zimgAlice
5.2 MODEL 面板(Model Architecture, Name or Path, Options)
- Model Architecture:選擇 Z‑Image
- Name or Path:設定 base model repo,通常為:
Tongyi-MAI/Z-Image - Options
- Low VRAM:如果是 ≤ 24GB,建議 ON
- Layer Offloading:預設 OFF;只有在你降低解析度/rank 後仍 OOM 才考慮開啟
5.3 QUANTIZATION 面板(Transformer, Text Encoder)
- Transformer:
float8 (default)是很強的預設選擇,有利於更高解析度桶。 - Text Encoder:如果你需要 VRAM 餘量,也可以用
float8 (default)。
如果你有很大的 VRAM,也可以降低量化以簡化流程;但對 Z‑Image LoRA 訓練來說,float8 通常是安全基線。
5.4 TARGET 面板(Target Type, Linear Rank)
- Target Type:
LoRA - Linear Rank(Z‑Image LoRA 訓練的實用預設值)
- 16:風格 LoRA、低 VRAM 運行
- 32:角色/產品 LoRA,更高保真度
- 48+:僅在你有足夠 VRAM 且確定欠擬合時再用
5.5 SAVE 面板(Data Type, Save Every, Max Step Saves to Keep)
- Data Type:
BF16 - Save Every:
250(足夠多的 checkpoint 方便挑最好的一版) - Max Step Saves to Keep:
4(避免磁碟膨脹)
5.6 TRAINING 面板(Batch Size, Steps, Optimizer, LR, Timesteps)
穩定基線(建議用於 Z‑Image LoRA 訓練)
- Batch Size:
1 - Gradient Accumulation:
1(想要更大有效 batch 但 VRAM 不夠時再提高) - Steps:見下方建議範圍
- Optimizer:
AdamW8Bit - Learning Rate:
0.0001(不穩定時降到0.00005) - Weight Decay:
0.0001 - Timestep Type:
Weighted - Timestep Bias:
Balanced - Loss Type:
Mean Squared Error - EMA:多數 LoRA 訓練建議 OFF
Steps:更適合 Z‑Image Base 的建議
Z‑Image Base 往往比 Turbo 風格蒸餾模型更能承受更長訓練,但仍需要在提示詞遵循度崩塌前停止。
- 角色 / 相似度:3000–7000 steps(甜點區取決於資料集大小)
- 風格:2000–6000 steps
- 產品 / 概念:2500–6500 steps
如果你想先快速驗證 Z‑Image LoRA 訓練是否走在正確方向,可以先跑 1000–1500 steps 做 smoke test,觀察樣圖後再跑完整訓練。
5.7 Text Encoder 優化 + 正則化(右側)
- Unload TE:除非你明確想要僅 trigger 行為且不依賴 caption,否則保持 OFF
- Cache Text Embeddings:僅在你使用靜態 caption 且不使用 caption dropout 時開啟
Differential Output Preservation (DOP)
如果你的 UI build 支援:
- 當你希望「LoRA 只在被提示時才啟動」時啟用 Differential Output Preservation
- DOP 開啟時不要快取 text embeddings(概念上衝突)
5.8 ADVANCED 面板
- Do Differential Guidance:除非你在常規工作流中已使用且清楚調參目標,否則保持 OFF。
5.9 DATASETS 面板(Target Dataset, Caption Dropout, Cache Latents, Resolutions)
按 UI 面板配置你的 Z‑Image LoRA 訓練資料集:
- Target Dataset:選擇你的 dataset
- Default Caption:可選的短模板(如果每張圖都有
.txt,也可以留空) - Caption Dropout Rate:
0.05(如果快取 text embeddings 則設為0) - Cache Latents:ON(更快)
- Is Regularization:主資料集保持 OFF
- Flip X / Flip Y:預設 OFF(尤其是 logo/文字)
- Resolutions(Z‑Image Base LoRA 訓練的最關鍵槓桿)
- 低 VRAM:啟用 512 + 768
- 24GB:啟用 768 + 1024(如果資料集很一致,也可以只用 1024)
- 高 VRAM:加入 1280 / 1536,獲得更好的產品/文字保真
5.10 SAMPLE 面板(Base vs Turbo 最容易出錯的地方)
這是 Z‑Image Base 在 Z‑Image LoRA 訓練中最容易被錯誤配置的地方。
推薦的 Base 採樣預設值
- Sample Every:
250 - Sampler:
FlowMatch(匹配訓練調度器家族) - Guidance Scale:
4(Base 常見範圍 ~3–5;按喜好調整) - Sample Steps:30–50(先從 30 開始)
- Width / Height:與主解析度桶一致(1024×1024 是不錯的基線)
- 準備一組能覆蓋以下內容的提示詞:
- trigger(如果你用了)
- 不同構圖
- 至少一個「難題」提示詞(壓測身份/風格/產品幾何一致性)
可選負向提示詞(Base 支援得很好)
預覽圖可以使用短負向提示詞減少偽影,例如:
low quality, blurry, deformed, bad anatomy, watermark, text artifacts
5.11 啟動訓練並監控
啟動任務後,在 Z‑Image LoRA 訓練過程中重點觀察:
- 每個 checkpoint 間隔(250 steps)的 samples
- 提示詞遵循度(prompts 是否仍被尊重)
- 過擬合信號(同一張臉/紋理到處出現,背景崩塌)
選擇那個 LoRA 足夠強、但不會變成永遠開啟濾鏡的 checkpoint。
6. 按 VRAM 檔位推薦的 Z‑Image LoRA 訓練配置
Tier 1 — 12–16GB(緊張 VRAM)
- Low VRAM:ON
- Quantization:Transformer + Text Encoder 都用 float8
- Linear Rank:16
- Resolutions:512 + 768
- Sample Steps:30(必要時把預覽解析度保持在 768)
- Steps:按資料集大小 2000–5000
Tier 2 — 24GB(最實用的本機檔)
- Low VRAM:ON(穩定後可嘗試 OFF)
- Quantization:float8
- Linear Rank:32(角色/產品),16–32(風格)
- Resolutions:768 + 1024(或一致性高時只用 1024)
- Sample Steps:30–40
- Steps:按目標 3000–7000
Tier 3 — 48GB+(或雲端 H100/H200)
- Low VRAM:OFF(可選)
- Quantization:可選(float8 也完全 OK)
- Linear Rank:32–48
- Resolutions:1024 + 1280 + 1536(如果資料集支援)
- Sample Steps:40–50(預覽品質更好)
- Steps:仍按目標範圍;只是迭代更快
7. Z‑Image Base 訓練常見問題與解決方案
這些是 Z‑Image Base 特有的問題(不是通用 AI Toolkit 錯誤)。
「Base 看起來沒熟 / 細節不足」
可能原因: 採樣步數太少和/或解析度太低。
解決
- 將 sample steps 提高到 40–50
- 如果 VRAM 允許,嘗試更高解析度桶(1280/1536)
- 如果你的推論工作流有「shift」參數:有使用者回饋在中等 shift(如 ~4–6)下連貫性更好。請只在 steps/CFG 正確後再把它當作微調旋鈕使用。
「Base LoRA 在 Base 上有效,但在 Turbo 上沒效果」
很多情況下這是正常現象:
- Turbo 是蒸餾模型,行為不同(尤其是 CFG/負向提示詞,以及 LoRA 的「咬合強度」)。
解決
- 若你的部署目標是 Turbo,不要預設 Base↔Turbo 會 1:1 轉移;建議使用 Turbo 取向的訓練工作流。
- 為取得最佳效果,訓練與部署盡量使用同一模型家族(Base→Base)。
「文字/Logo 不穩定」
Z‑Image Base 的文字能力可以很強,但在 Z‑Image LoRA 訓練中它對解析度和採樣非常敏感。
解決
- 盡量在 1024+ 訓練(可能的話考慮 1280/1536)
- 評估時使用 40–50 steps
- 若文字很重要,避免 Flip X
- 用 caption 一致地描述關鍵文字特徵(不要指望 trigger 自動包含它)
8. 訓練完成後如何使用你的 Z‑Image Base LoRA
Run LoRA — 打開 Z‑Image Run LoRA 頁面。在這個 base model 推論頁面裡,你可以選擇你在 RunComfy 上訓練的 LoRA 資產,或匯入你用 AI Toolkit 訓練得到的 LoRA 檔案,然後透過 playground 或 API 執行推論。RunComfy 會使用同一 base model,並復用你訓練配置中的完整 AI Toolkit pipeline 定義,因此訓練時看到的效果更容易在推論中重現;這種 training/inference 的強對齊能幫助推論結果與 Z‑Image LoRA 訓練樣圖保持一致。你也可以透過 Deployments 頁面 將 LoRA 部署為獨立 endpoint。
更多 AI Toolkit LoRA 訓練指南
Ready to start training?

