AI Toolkit LoRA 訓練指南

使用Ostris AI Toolkit訓練Z-Image LoRA(Z-Image Turbo + De-Turbo)

本指南說明如何用Ostris AI Toolkit訓練高品質的Z-Image LoRA:先選擇合適的底模(Turbo + training adapter vs De-Turbo),再從資料集設計、rank/LR/步數到取樣設定逐步調整,以獲得穩定且可重現的效果,並降低Turbo漂移風險。

使用 Ostris AI Toolkit 訓練擴散模型

水平滾動查看完整表單

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Use a Hugging Face repo ID (e.g. owner/model-name).
⚠️ full URLs, .safetensors files, and local files are not supported.

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Z‑Image 是由 Tongyi‑MAI 開發的 60億參數 圖像生成模型,基於 Scalable Single‑Stream Diffusion Transformer(S3‑DiT) 架構構建。該模型在同等規模中效率極高,專為在消費級 GPU 上以 1024×1024 解析度運行而設計。

Z-Image Turbo LoRA 訓練 指南涵蓋了 Z‑Image Turbo LoRA 訓練最常見、最實用的兩種方法:

1) Z‑Image Turbo(帶 Training Adapter) — 當你希望 LoRA 在訓練後保持 真正的 8 步 Turbo 速度 時的最佳選擇。

2) Z‑Image De‑Turbo(De‑Distilled) — 當你需要一個 去蒸餾 的基礎模型來進行 無需 adapter 的訓練,或進行更長時間的微調時的最佳選擇。

完成本指南後,你將能夠:

  • 根據目標選擇正確的 Z‑Image 基礎模型(Turbo+adapter vs De‑Turbo)。
  • 準備適用於 Turbo 風格蒸餾訓練的資料集。
  • 逐面板配置 Ostris AI Toolkit(本機或 RunComfy Cloud AI Toolkit)。
  • 理解每個參數 為什麼 重要,從而能夠調整而非簡單複製貼上。
本文是 AI Toolkit LoRA 訓練系列的一部分。如果你是 Ostris AI Toolkit 新手,請先閱讀 AI Toolkit LoRA 訓練概述 再深入本指南。

快速開始(建議基準配置)

選項 A — Turbo + Training Adapter(大多數 LoRA 建議)

如果你希望進行 Z-Image-Turbo LoRA 訓練,且訓練後 LoRA 保持 Turbo 的快速 8 步行為,請使用此選項。

為什麼這很重要:

  • Turbo 是一個蒸餾的「學生」模型:它將較慢的多步擴散過程壓縮為 約 8 步
  • 如果你像普通模型一樣在 Turbo 上訓練,你的更新可能會 撤銷蒸餾(「Turbo 漂移」),你將需要 更多步數/更高 CFG 才能獲得相同品質。
  • Training Adapter 在訓練期間暫時「去蒸餾」Turbo,使你的 LoRA 能夠學習概念 而不破壞 Turbo 的 8 步行為。推論時移除 adapter,只保留你的 LoRA。

基準設定:

  1. MODEL → Model Architecture: Z‑Image Turbo (w/ Training Adapter)
  2. MODEL → Name or Path: Tongyi-MAI/Z-Image-Turbo
  3. MODEL → Training Adapter Path:
    • 如果 UI 自動填充則保持預設(RunComfy 通常預設使用 v2),或明確設定:
      • v1:ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
      • v2:ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
  4. TARGET → Linear Rank: 16
  5. TRAINING → Learning Rate: 0.0001
  6. TRAINING → Steps: 2500–3000(對於 10–30 張圖像)
  7. DATASETS → Resolutions: 512 / 768 / 1024 並開啟 Cache Latents
  8. SAMPLE(用於預覽):
    • 1024×10248 步(如果你的管線將 9 視為「8 DiT forwards」則使用 9
    • Guidance scale = 0(Turbo 已進行 guidance 蒸餾)
    • 250 步取樣一次

選項 B — De‑Turbo(去蒸餾基礎模型)

如果你想 無需 Training Adapter 進行訓練,或計劃更長時間的訓練,請使用此選項。

與 Turbo 相比的變化:

  • De‑Turbo 在訓練和取樣時表現得更像「普通」擴散模型。
  • 你通常使用 更多步數較低(但非零)的 CFG 進行取樣。
  1. MODEL → Model Architecture: Z‑Image De‑Turbo (De‑Distilled)
  2. MODEL → Name or Path: ostris/Z-Image-De-Turbo(或你的 AI Toolkit 版本預選的內容)
  3. Training Adapter Path: 無(不需要)
  4. 保持相同的 LoRA 設定(rank/LR/steps)作為基準。
  5. SAMPLE(用於預覽):
    • 20–30 步
    • CFG(guidance scale)≈ 2–3
    • 250 步取樣一次
想要零設定?使用 RunComfy Cloud AI Toolkit 並按照完全相同的面板操作。

目錄


1. 應該在哪個 Z‑Image 基礎模型上訓練?(Turbo+adapter vs De‑Turbo)

AI Toolkit 為 Zimage Turbo LoRA 訓練 提供了 兩個「Model Architecture」選項

1.1 Z‑Image Turbo(帶 Training Adapter)

最適合: 典型的 LoRA(角色、風格、產品),其最終目標是在 8 步的 Turbo 上運行推論。

為什麼存在:

  • Z‑Image Turbo 是一個 步數蒸餾 模型。如果你在步數蒸餾模型上「正常」訓練 LoRA,蒸餾可能會快速崩潰,Turbo 開始表現得像一個較慢的非蒸餾模型(品質變化、需要更多步數等)。
  • Training Adapter 在訓練期間充當暫時的「去蒸餾 LoRA」。你的 LoRA 學習概念,而 Turbo 的快速 8 步行為保持穩定。
  • 推論時,你移除 Training Adapter,只在真正的 Turbo 基礎上保留你的 LoRA。

選擇正確路徑的實際信號:

  • 你的預覽樣本在 8 步guidance ≈ 0 時看起來很好。
  • 你的 LoRA 不會突然開始需要 20–30 步 才能看起來乾淨(Turbo 漂移的常見跡象)。

1.2 Z‑Image De‑Turbo (De‑Distilled)

最適合: 無 adapter 訓練,或 Turbo+adapter 最終會漂移的更長微調。

這是什麼:

  • De‑Turbo 是 Turbo 的 去蒸餾 版本,設計為在訓練時更像普通擴散模型。
  • 可以直接無 adapter 訓練,也可用於推論(通常 20–30 步低 CFG)。

1.3 快速決策指南

選擇 Turbo + Training Adapter 如果:

  • 你希望 LoRA 在訓練後以 Turbo 速度(8 步)運行。
  • 你正在進行正常的 LoRA 訓練(幾千到幾萬步)。

選擇 De‑Turbo 如果:

  • 你想要訓練和取樣的「普通模型」行為。
  • 你想訓練更長時間,或正在嘗試不能很好支援 Training Adapter 的工作流程。

2. Z‑Image Training Adapter v1 vs v2(有何變化,何時使用)

在 Training Adapter 儲存庫中,你通常會看到兩個檔案:

  • ..._v1.safetensors
  • ..._v2.safetensors

你需要知道的(實際上):

  • v1 是安全的基準。
  • v2 是較新的變體,可能會改變訓練動態和結果。

建議: 將其視為 A/B 測試:

  • 保持 資料集、LR、步數、rank 相同
  • 用 v1 訓練一次,用 v2 訓練一次
  • 在相同檢查點比較樣本網格

如果你的 RunComfy UI 預設使用 v2 且訓練看起來穩定,就保持現狀。如果你看到不穩定(雜訊、Turbo 漂移、奇怪的偽影),切換到 v1。


3. Z‑Image / Z‑Image‑Turbo 簡介(用於 LoRA 訓練)

來自官方 Z‑Image 資料:

  • 60億參數,S3‑DiT 架構 — 文字 token、視覺語義 token 和 VAE latent 被連接成單個 transformer 流。
  • 模型家族 — Z‑Image 系列中存在 Turbo、Base 和 Edit 變體。
  • Turbo 特性 — 針對快速推論最佳化;Turbo 推論的 guidance 通常為 0

LoRA 訓練的有用心智模型:

  • 高雜訊時間步 主要控制 構圖(佈局、姿勢、整體色調)。
  • 低雜訊時間步 主要控制 細節(面部、手部、紋理)。

這就是為什麼時間步設定和偏置可以明顯改變 LoRA 感覺像「全域風格」還是「身份/細節」。


4. Z‑Image 訓練位置:本機 vs 雲端 AI Toolkit

4.1 本機 AI Toolkit

Ostris AI Toolkit 在 GitHub 上開源。它透過統一的 UI 和配置系統支援 ZIT LoRA 訓練、FLUX、Wan、Qwen 等。

本機訓練適合:

  • 你已有 NVIDIA GPU 且不介意 Python / Git 設定。
  • 你想完全控制檔案、日誌和自訂更改。

儲存庫:ostris/ai-toolkit


4.2 RunComfy Cloud AI Toolkit

如果你想跳過 CUDA 安裝和驅動程式問題,使用 RunComfy Cloud AI Toolkit

  • 零設定 — 開啟瀏覽器即可訓練。
  • 穩定的 VRAM — 更容易按指南操作,無硬體摩擦。
  • 持久儲存 — 更容易迭代和檢查點管理。

👉 在此開啟:RunComfy Cloud AI Toolkit


5. 設計 Z‑Image LoRA 訓練資料集

5.1 實際需要多少張圖像?

  • 10–30 張圖像 對大多數角色或風格 LoRA 來說是個好範圍。
  • 超過約 50 張圖像,除非你的風格範圍很廣,否則通常會遇到收益遞減。

Z‑Image 從梯度中強烈學習(「熱學習」),因此資料集品質和多樣性比原始圖像數量更重要:

  • 太少圖像 + 太多訓練通常表現為 過擬合的面部、重複的姿勢或混亂的背景。
  • 小而多樣的資料集(角度、光照、背景)往往比大而重複的資料集泛化得更好。

5.2 角色 vs 風格 LoRA

角色 LoRA

  • 目標是同一主體的 12–30 張圖像
  • 混合特寫和全身、角度、光照、服裝。
  • 描述可以是字面的和一致的;可選的觸發詞。

風格 LoRA

  • 目標是跨越不同主體(人物、室內、風景、物體)的 15–40 張圖像
  • 正常描述場景;除非你想讓它只透過觸發詞啟動,否則不要過度描述風格。
    • 這教的是:「用這種風格渲染 任何東西」,而不是「只有當我說特殊關鍵詞時才應用風格」。

5.3 描述、觸發詞和文字檔案

  • image_01.pngimage_01.txt
  • 如果沒有 .txt,AI Toolkit 使用 Default Caption
  • 你可以在描述中使用 [trigger] 並在 JOB 面板設定 Trigger Word
    • 如果你之後啟用 DOP(Differential Output Preservation)使 LoRA 更「可選擇性啟動」,這尤其有用。

6. AI Toolkit 中的 Z‑Image LoRA 配置 – 逐參數詳解

本節我們逐個講解 UI 面板,解釋在進行 Z-Image Turbo LoRA 微調 時每個重要欄位的作用。

6.1 JOB 面板

  • Training Name — 描述性標籤如 zimage_char_redhair_v1
  • GPU ID — 本機 GPU 選擇器;雲端保持預設
  • Trigger Word(可選)zchar_redhair / zstyle_pencil

6.2 MODEL 面板(最重要)

這裡是 兩個基礎模型選擇 的關鍵:

如果選擇 Turbo + adapter

  • Model ArchitectureZ‑Image Turbo (w/ Training Adapter)
  • Name or PathTongyi-MAI/Z-Image-Turbo
    • 這是 Hugging Face 模型 id(儲存庫 id)。在大多數 AI Toolkit 版本中,選擇 Model Architecture 會 自動填充 這個;除非有理由更改,否則保持原樣。
    • 如果要覆蓋,使用 Hugging Face 儲存庫 id 格式:org-or-user/model-name(可選 org-or-user/model-name@revision)。
  • Training Adapter Path — 保持預設或選擇:
    • v1:ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
    • v2:ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
提示:如果你意外地 不使用 adapter 訓練 Turbo,最常見的症狀是你的 LoRA 只有在提高 steps/CFG 時才「有效」,這違背了 Turbo 的意義。

如果選擇 De‑Turbo

  • Model ArchitectureZ‑Image De‑Turbo (De‑Distilled)
  • Name or Pathostris/Z-Image-De-Turbo
  • Training Adapter Path — 無

選項:

  • Low VRAM / Layer Offloading — 如果 VRAM 受限則啟用

6.3 QUANTIZATION 面板

  • 24GB 以上,優先選擇 BF16/none 以獲得保真度
  • 16GBfloat8 通常是最佳折衷

6.4 TARGET 面板 – LoRA 配置

  • Target TypeLoRA
  • Linear Rank — 從 8–16 開始
    • 16 用於更強的風格/紋理
    • 8 用於更小、更微妙的 LoRA

6.5 SAVE 面板

  • Data TypeBF16
  • Save Every250
  • Max Step Saves to Keep4–12

6.6 TRAINING 面板 – 核心超參數

  • Batch Size1
  • OptimizerAdamW8Bit
  • Learning Rate — 從 0.0001 開始

    如果不穩定/雜訊多,降至 0.00005–0.00008

    避免過高(如 0.0002+)— Turbo 風格模型可能很快變得不穩定。

  • Weight Decay0.0001
  • Steps — 10–30 張圖像用 2500–3000

    如果資料集很小(<10 張),考慮 1500–2200 以減少過擬合。

  • Loss TypeMean Squared Error
  • Timestep TypeWeighted
  • Timestep BiasBalanced
    • 如果你想要更強的全域風格/氛圍,偏向 High Noise
    • 如果你追求身份/細節,偏向 Low Noise(進階;從 Balanced 開始)。
  • EMA — OFF

Text Encoder:

  • Cache Text Embeddings — 如果描述是靜態的且 VRAM 緊張則開啟

    (然後將 Caption Dropout 設為 0)

  • Unload TE — 描述驅動訓練時保持 OFF

正則化:

  • DOP — 第一次運行保持 OFF;之後為生產級觸發詞專用 LoRA 添加

    (DOP 很強大但增加複雜性;當你已有穩定基準時最容易使用。)


6.7 DATASETS 面板

  • Caption Dropout Rate
    • 如果不快取 text embeddings 則 0.05
    • 如果快取 embeddings 則 0
  • Cache Latents — ON
  • Resolutions512 / 768 / 1024 是強基準

6.8 SAMPLE 面板(匹配你的基礎模型!)

如果訓練 Turbo:

  • 1024×10248 步guidance = 0,每 250 步取樣

如果訓練 De‑Turbo:

  • 1024×102420–30 步CFG 2–3,每 250 步取樣

使用反映實際使用的 5–10 個提示詞;包含幾個不帶觸發詞的提示詞以檢測洩漏。


6.9 ADVANCED 面板 – Differential Guidance(可選)

  • Do Differential Guidance — 如果你想要更快收斂則開啟
  • Scale — 從 3 開始

    如果樣本早期看起來過於銳利/雜訊多,降至 2。如果學習慢,可以之後測試 4


7. Z‑Image LoRA 訓練實用配方

Turbo LoRA 的強基準:

  • Turbo + Training Adapter(v1 或 v2)
  • rank=16lr=1e-4steps=2500–3000
  • 512/768/1024 桶,cache latents ON
  • 每 250 步取樣,8 步,guidance 0

如果你的 LoRA 感覺「太強」:

  • 保持訓練相同,但計劃以較低的 LoRA 權重(如 0.6–0.8)運行推論。

8. 故障排除

「我的 LoRA 破壞了 Turbo——現在需要更多步數/CFG。」

  • 最常見原因:
    • 在 Turbo 上訓練時沒有使用 Training Adapter,或
    • LR 過高持續時間過長。
  • 解決方案:
    • 使用 Turbo + Training Adapter 架構
    • 保持 LR ≤ 1e‑4
    • 如果早期看到漂移則減少步數

「風格太強了。」

  • 推論時降低 LoRA 權重(0.6–0.8)
  • 對生產級 LoRA 使用觸發詞 + DOP(可選擇性啟動行為)

「手部/背景很亂。」

  • 添加一些包含這些情況的圖像
  • 考慮略微偏向低雜訊時間步(進階)

「VRAM 不足/太慢。」

  • 停用高桶(保持 512–1024)
  • 啟用 Low VRAM + offloading
  • 量化到 float8
  • 快取 latents(可選快取 text embeddings)

FAQ

Z-Image Turbo LoRA 訓練應該使用 v1 還是 v2 adapter?

從你的 UI 預設值開始。如果結果不穩定或你看到 Z‑Image Turbo 漂移,在保持所有其他設定相同的情況下測試另一個版本。

應該在 Turbo+adapter 還是 De‑Turbo 上訓練 Z‑Image?

對於大多數需要保持 8 步 Turbo 行為的 Z‑Image LoRA 使用 Turbo+adapter。如果你想要無 adapter 訓練或更長的微調,使用 De‑Turbo。

訓練後應該使用什麼 Z‑Image 推論設定?

Z‑Image Turbo 通常使用低/零 CFG 和約 8 步。De‑Turbo 表現得更像普通模型(20–30 步,低 CFG)。始終使你的取樣設定與你實際使用的基礎模型匹配。


9. 使用你的 Z‑Image LoRA

  • Run LoRA — 開啟 Z‑Image Turbo Run LoRA 頁面。在這個基礎模型的推論頁面裡,你可以直接選擇你在 RunComfy 上訓練出來的 LoRA 資產,也可以 import 你用 AI Toolkit 訓練好的 LoRA 檔案,接著透過 playground 或 API 進行推論。RunComfy 會使用與你訓練設定一致的 base model,並復用訓練設定裡完整的 AI Toolkit pipeline 定義,所以訓練時看到什麼,推論就得到什麼;這種 training/inference 的強對齊能特別保證推論效果與訓練採樣的一致。
  • ComfyUI 工作流程 — 將你的 LoRA 載入到工作流程如 ComfyUI 中的 Z‑Image 工作流程

更多 AI Toolkit LoRA 訓練指南

準備好開始訓練了嗎?