AI Toolkit LoRA Training Guides

用 Ostris AI Toolkit 訓練 Z‑Image Base LoRA

本文介紹如何在 Ostris AI Toolkit 中訓練高品質的 Z‑Image Base LoRA,透過最佳化資料集、rank/LR/steps 與 Base 風格採樣(30–50 步 + CFG)獲得更穩定的訓練與推論效果。

Train Diffusion Models with Ostris AI Toolkit

水平滾動查看完整表單

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Use a Hugging Face repo ID (e.g. owner/model-name).
⚠️ full URLs, .safetensors files, and local files are not supported.

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

使用 Ostris AI Toolkit 進行 Z‑Image(Base)LoRA 訓練

Z‑Image(Base)是 Z‑Image 的完整版 checkpoint(不是 8 步 Turbo)。它面向高品質文生圖(text‑to‑image)而設計,支援 CFG + 負向提示詞,並且通常需要更多採樣步數;如果你的目標是做一個乾淨、可完全控制的 LoRA(角色、風格、產品、文字/排版重度概念),Z‑Image(Base)也是最合適的底座選擇。

在本篇 Z‑Image LoRA 訓練教學結束後,你將能夠:

  • 使用 Ostris AI Toolkit(本機或雲端)完成一次 Z‑Image LoRA 訓練
  • 選擇真正匹配 Z‑Image Base 推論行為的預設設定(steps + CFG + 解析度)。
  • 避開 Z‑Image Base LoRA 訓練最常見的坑(Turbo 採樣設定、 「LoRA 沒效果」、Base↔Turbo 不匹配)。
  • 匯出可以立刻在推論 UI 中使用的 checkpoint。
本文是 AI Toolkit LoRA 訓練系列的一部分。如果你是 Ostris AI Toolkit 新手,建議先閱讀 AI Toolkit LoRA 訓練概述 再進入本篇 Z‑Image LoRA 訓練:
https://www.runcomfy.com/zh-TW/trainer/ai-toolkit/getting-started

目錄


1. Z‑Image 概覽:它能做什麼(以及與 Turbo 的差異)

1.1 「Z‑Image Base」是什麼意思

「Z‑Image Base」指的是 非蒸餾(non‑distilled) 的 Z‑Image checkpoint。實際表現上:

  • 需要更多採樣步數(通常 ~30–50,而不是 8)。
  • 能有效利用 CFG負向提示詞
  • 如果你想要更強的可控性和更高的畫質,它是 LoRA 微調(備選關鍵字出現 1 次)以及 Z‑Image LoRA 訓練的更佳目標。

1.2 Base vs Turbo(對訓練最重要的影響)

在 Z‑Image LoRA 訓練裡,一個很常見的錯誤是:用 Turbo 的方式來訓練(或評估)Base。

  • Turbo 設定(8 步、低/無 CFG)會讓 Base 輸出看起來沒熟/細節不足,從而讓你誤以為 LoRA「沒有生效」。
  • Base 設定(30–50 步 + 正常 CFG)才是判斷 checkpoint 的正確方式。

經驗法則:

如果你訓練的是 Base LoRA,就用 Base + Base 風格採樣來評估它。


2. 環境選擇:本機 AI Toolkit vs RunComfy 雲端 AI Toolkit

你可以用兩種方式完成本篇 Z‑Image LoRA 訓練:

  • 本機 AI Toolkit(你的 GPU)

    從 GitHub 倉庫安裝 AI Toolkit,然後運行 Web UI。本機 Z‑Image LoRA 訓練適合:你有 NVIDIA GPU、願意自行管理 CUDA/驅動、並且想要一個便於反覆迭代 LoRA 的長期環境。

    https://github.com/ostris/ai-toolkit

  • RunComfy 雲端 AI Toolkit(H100 / H200)

    在瀏覽器裡直接使用大顯存 GPU 運行 AI Toolkit:

    • 無需安裝(打開 UI 即可)
    • 更大的 VRAM,支援更高解析度桶(1280 / 1536)
    • 持久化工作區,方便保存資料集、配置與歷史訓練記錄

兩種環境的 Z‑Image LoRA 訓練流程一致,差別只在於 GPU 的位置。


3. Z‑Image Base LoRA 訓練的硬體與 VRAM 要求

Z‑Image 推論本身可以在相對一般的 GPU 上運行,但 Z‑Image LoRA 訓練仍會隨以下因素顯著變化:

  • 解析度桶(768 vs 1024 vs 1536)
  • 量化(float8)
  • LoRA rank
  • 訓練期間的採樣設定(預覽解析度 + 預覽步數)

一個更實用的理解方式(面向 Z‑Image LoRA 訓練):

  • 12–16GB VRAM:在謹慎設定下可做 512/768
  • 24GB VRAM:更適合做 1024 的 LoRA 訓練
  • 48GB+ VRAM:最輕鬆的路徑,可支援 1280/1536 桶並更快迭代
如果你的目標是排版/文字重度概念或產品細節一致性,請盡量使用更高解析度並接受 VRAM 需求會迅速上升。

4. 建立 Z‑Image Base LoRA 訓練資料集

Z‑Image Base 對資料集格式並沒有「特殊要求」——但它對你如何評估品質很敏感。因此,你的 Z‑Image LoRA 訓練資料集應該圍繞你在推論階段想要的行為來設計(CFG + 更高步數)。

4.1 先明確目標(以及資料集形態)

  • 角色 / 相似度:15–50 張

    混合特寫 + 半身 + 多種光照。

  • 風格:30–200 張

    盡量擴大主體多樣性,讓模型學到「風格線索」,而不是單一場景。

  • 產品 / 概念:20–80 張

    構圖一致,並用清晰 caption 標註關鍵特徵(材質、標籤文字、形狀)。

4.2 描述 + 觸發詞(保持簡單)

  • 如果你希望 LoRA 有清晰的「開/關」觸發(建議角色/產品類 Z‑Image LoRA 訓練),使用 trigger
  • caption 盡量短且一致。過長 caption 容易產生意外綁定(髮型/背景被「綁定」為 trigger 的一部分)。

快速模板

  • Character:

    [trigger]

    or photo of [trigger], portrait, natural lighting

  • Style:

    in a [style] illustration style, soft shading, muted palette

  • Product:

    product photo of [trigger], studio lighting, clean background


5. 逐步操作:在 AI Toolkit 中進行 Z‑Image LoRA 訓練

這一節會盡量對齊你在建立訓練任務時看到的 AI Toolkit UI 面板,方便你按面板一步步完成 Z‑Image LoRA 訓練。

5.1 JOB 面板(Training Name, GPU ID, Trigger Word)

  • Training Name:描述性的運行名稱(例如 zimage_base_character_v1
  • GPU ID:本機選擇你的 GPU;雲端保持預設即可
  • Trigger Word(可選,但角色/產品類 Z‑Image LoRA 訓練建議):

    例如 zimgAlice

5.2 MODEL 面板(Model Architecture, Name or Path, Options)

  • Model Architecture:選擇 Z‑Image
  • Name or Path:設定 base model repo,通常為:

    Tongyi-MAI/Z-Image

  • Options
    • Low VRAM:如果是 ≤ 24GB,建議 ON
    • Layer Offloading:預設 OFF;只有在你降低解析度/rank 後仍 OOM 才考慮開啟

5.3 QUANTIZATION 面板(Transformer, Text Encoder)

  • Transformerfloat8 (default) 是很強的預設選擇,有利於更高解析度桶。
  • Text Encoder:如果你需要 VRAM 餘量,也可以用 float8 (default)

如果你有很大的 VRAM,也可以降低量化以簡化流程;但對 Z‑Image LoRA 訓練來說,float8 通常是安全基線。

5.4 TARGET 面板(Target Type, Linear Rank)

  • Target TypeLoRA
  • Linear Rank(Z‑Image LoRA 訓練的實用預設值)
    • 16:風格 LoRA、低 VRAM 運行
    • 32:角色/產品 LoRA,更高保真度
    • 48+:僅在你有足夠 VRAM 且確定欠擬合時再用

5.5 SAVE 面板(Data Type, Save Every, Max Step Saves to Keep)

  • Data TypeBF16
  • Save Every250(足夠多的 checkpoint 方便挑最好的一版)
  • Max Step Saves to Keep4(避免磁碟膨脹)

5.6 TRAINING 面板(Batch Size, Steps, Optimizer, LR, Timesteps)

穩定基線(建議用於 Z‑Image LoRA 訓練)

  • Batch Size1
  • Gradient Accumulation1(想要更大有效 batch 但 VRAM 不夠時再提高)
  • Steps:見下方建議範圍
  • OptimizerAdamW8Bit
  • Learning Rate0.0001(不穩定時降到 0.00005
  • Weight Decay0.0001
  • Timestep TypeWeighted
  • Timestep BiasBalanced
  • Loss TypeMean Squared Error
  • EMA:多數 LoRA 訓練建議 OFF

Steps:更適合 Z‑Image Base 的建議

Z‑Image Base 往往比 Turbo 風格蒸餾模型更能承受更長訓練,但仍需要在提示詞遵循度崩塌前停止。

  • 角色 / 相似度3000–7000 steps(甜點區取決於資料集大小)
  • 風格2000–6000 steps
  • 產品 / 概念2500–6500 steps

如果你想先快速驗證 Z‑Image LoRA 訓練是否走在正確方向,可以先跑 1000–1500 steps 做 smoke test,觀察樣圖後再跑完整訓練。

5.7 Text Encoder 優化 + 正則化(右側)

  • Unload TE:除非你明確想要僅 trigger 行為且不依賴 caption,否則保持 OFF
  • Cache Text Embeddings:僅在你使用靜態 caption 且不使用 caption dropout 時開啟

Differential Output Preservation (DOP)

如果你的 UI build 支援:

  • 當你希望「LoRA 只在被提示時才啟動」時啟用 Differential Output Preservation
  • DOP 開啟時不要快取 text embeddings(概念上衝突)

5.8 ADVANCED 面板

  • Do Differential Guidance:除非你在常規工作流中已使用且清楚調參目標,否則保持 OFF。

5.9 DATASETS 面板(Target Dataset, Caption Dropout, Cache Latents, Resolutions)

按 UI 面板配置你的 Z‑Image LoRA 訓練資料集:

  • Target Dataset:選擇你的 dataset
  • Default Caption:可選的短模板(如果每張圖都有 .txt,也可以留空)
  • Caption Dropout Rate0.05(如果快取 text embeddings 則設為 0
  • Cache Latents:ON(更快)
  • Is Regularization:主資料集保持 OFF
  • Flip X / Flip Y:預設 OFF(尤其是 logo/文字)
  • Resolutions(Z‑Image Base LoRA 訓練的最關鍵槓桿)
    • 低 VRAM:啟用 512 + 768
    • 24GB:啟用 768 + 1024(如果資料集很一致,也可以只用 1024)
    • 高 VRAM:加入 1280 / 1536,獲得更好的產品/文字保真

5.10 SAMPLE 面板(Base vs Turbo 最容易出錯的地方)

這是 Z‑Image Base 在 Z‑Image LoRA 訓練中最容易被錯誤配置的地方。

推薦的 Base 採樣預設值

  • Sample Every250
  • SamplerFlowMatch(匹配訓練調度器家族)
  • Guidance Scale4(Base 常見範圍 ~3–5;按喜好調整)
  • Sample Steps30–50(先從 30 開始)
  • Width / Height:與主解析度桶一致(1024×1024 是不錯的基線)
  • 準備一組能覆蓋以下內容的提示詞:
    • trigger(如果你用了)
    • 不同構圖
    • 至少一個「難題」提示詞(壓測身份/風格/產品幾何一致性)

可選負向提示詞(Base 支援得很好)

預覽圖可以使用短負向提示詞減少偽影,例如:

low quality, blurry, deformed, bad anatomy, watermark, text artifacts

5.11 啟動訓練並監控

啟動任務後,在 Z‑Image LoRA 訓練過程中重點觀察:

  • 每個 checkpoint 間隔(250 steps)的 samples
  • 提示詞遵循度(prompts 是否仍被尊重)
  • 過擬合信號(同一張臉/紋理到處出現,背景崩塌)

選擇那個 LoRA 足夠強、但不會變成永遠開啟濾鏡的 checkpoint。


6. 按 VRAM 檔位推薦的 Z‑Image LoRA 訓練配置

Tier 1 — 12–16GB(緊張 VRAM)

  • Low VRAM:ON
  • Quantization:Transformer + Text Encoder 都用 float8
  • Linear Rank:16
  • Resolutions:512 + 768
  • Sample Steps:30(必要時把預覽解析度保持在 768)
  • Steps:按資料集大小 2000–5000

Tier 2 — 24GB(最實用的本機檔)

  • Low VRAM:ON(穩定後可嘗試 OFF)
  • Quantization:float8
  • Linear Rank:32(角色/產品),16–32(風格)
  • Resolutions:768 + 1024(或一致性高時只用 1024)
  • Sample Steps:30–40
  • Steps:按目標 3000–7000

Tier 3 — 48GB+(或雲端 H100/H200)

  • Low VRAM:OFF(可選)
  • Quantization:可選(float8 也完全 OK)
  • Linear Rank:32–48
  • Resolutions:1024 + 1280 + 1536(如果資料集支援)
  • Sample Steps:40–50(預覽品質更好)
  • Steps:仍按目標範圍;只是迭代更快

7. Z‑Image Base 訓練常見問題與解決方案

這些是 Z‑Image Base 特有的問題(不是通用 AI Toolkit 錯誤)。

「Base 看起來沒熟 / 細節不足」

可能原因: 採樣步數太少和/或解析度太低。

解決

  • 將 sample steps 提高到 40–50
  • 如果 VRAM 允許,嘗試更高解析度桶(1280/1536)
  • 如果你的推論工作流有「shift」參數:有使用者回饋在中等 shift(如 ~4–6)下連貫性更好。請只在 steps/CFG 正確後再把它當作微調旋鈕使用。

「Base LoRA 在 Base 上有效,但在 Turbo 上沒效果」

很多情況下這是正常現象:

  • Turbo 是蒸餾模型,行為不同(尤其是 CFG/負向提示詞,以及 LoRA 的「咬合強度」)。

解決

  • 若你的部署目標是 Turbo,不要預設 Base↔Turbo 會 1:1 轉移;建議使用 Turbo 取向的訓練工作流。
  • 為取得最佳效果,訓練與部署盡量使用同一模型家族(Base→Base)。

「文字/Logo 不穩定」

Z‑Image Base 的文字能力可以很強,但在 Z‑Image LoRA 訓練中它對解析度和採樣非常敏感。

解決

  • 盡量在 1024+ 訓練(可能的話考慮 1280/1536)
  • 評估時使用 40–50 steps
  • 若文字很重要,避免 Flip X
  • 用 caption 一致地描述關鍵文字特徵(不要指望 trigger 自動包含它)

8. 訓練完成後如何使用你的 Z‑Image Base LoRA

Run LoRA — 打開 Z‑Image Run LoRA 頁面。在這個 base model 推論頁面裡,你可以選擇你在 RunComfy 上訓練的 LoRA 資產,或匯入你用 AI Toolkit 訓練得到的 LoRA 檔案,然後透過 playground 或 API 執行推論。RunComfy 會使用同一 base model,並復用你訓練配置中的完整 AI Toolkit pipeline 定義,因此訓練時看到的效果更容易在推論中重現;這種 training/inference 的強對齊能幫助推論結果與 Z‑Image LoRA 訓練樣圖保持一致。你也可以透過 Deployments 頁面 將 LoRA 部署為獨立 endpoint。


更多 AI Toolkit LoRA 訓練指南

Ready to start training?