Ostris AI Toolkit LoRA訓練入門：擴散模型微調指南

本頁是使用 Ostris AI Toolkit 進行 LoRA 微調訓練的總覽。如果你需要某個模型的專用配方，請直接跳轉到這些教學：

讀完本指南後，你應該能夠：

理解 LoRA 訓練背後的核心概念（微調時模型究竟發生了什麼變化）。
熟悉 AI Toolkit 的整體結構，知道每個面板負責什麼。
理解 關鍵參數（learning rate、rank、steps、noise schedule、DOP 等）的意義與影響，從而能「有目的地」調參。
能在 本地機器或 RunComfy Cloud AI Toolkit 上訓練 LoRA，並在日常的生成工作流中復用。

1. 什麼是 Ostris AI Toolkit？（擴散模型 LoRA 訓練器）
2. Ostris AI Toolkit 支援哪些模型（Flux、Wan、Z‑Image、Qwen‑Image、SDXL）
3. 本地安裝 Ostris AI Toolkit 與使用 RunComfy Cloud AI Toolkit
4. Ostris AI Toolkit Web UI 概覽（Dashboard、Datasets、New LoRA Job）
5. AI Toolkit 的 LoRA 訓練基礎與核心超參數
6. 將 LoRA 概念映射到 AI Toolkit 參數
7. 快速上手：在 AI Toolkit 裡訓練一個可用的 LoRA
8. AI Toolkit LoRA 訓練排錯：常見問題與修復

1. 什麼是 Ostris AI Toolkit？（擴散模型 LoRA 訓練器）

Ostris AI Toolkit 是一個面向 圖像與影片擴散模型 的訓練套件。它不處理語言或音訊模型；它支援的對象要嘛是傳統 DDPM 風格擴散模型（如 SD 1.5、SDXL），要嘛是 Flux、Wan、Qwen‑Image、Z‑Image、OmniGen2 等現代 diffusion‑transformer（擴散 Transformer）模型。AI Toolkit 的核心是 LoRA 類適配器：實際訓練時不是重訓整個網路，而是在凍結的基座模型之上訓練一小組 LoRA（或類似的輕量適配器）。

Ostris AI Toolkit 的 LoRA 訓練特性

AI Toolkit 為所有支援的模型家族提供統一的訓練引擎與設定系統。不同模型（Flux、Z‑Image Turbo、Wan 2.2、Qwen‑Image、SDXL 等）有各自的預設，但都接入同一套結構：模型載入、量化、LoRA/LoKr 定義、訓練超參數、資料集處理與採樣規則。因此無論你訓練 Flux LoRA、Z‑Image Turbo LoRA 還是 Wan 影片 LoRA，Web UI 的思路與版面都高度一致。

AI Toolkit 同時提供 CLI 與完整 Web UI。CLI 直接讀取 YAML 設定執行；Web UI 本質上是 YAML 的圖形化設定層。在 UI 中，「AI Toolkit」通常指 New Job 頁面：選擇模型家族、LoRA 類型與 rank，設定 learning rate 與 steps，綁定資料集，並定義訓練過程中生成 sample 圖像/影片的頻率。你會看到 Job、Model、Quantization、Target、Training、Regularization、Datasets、Sample 等面板，通常不需要手動編輯 YAML。無論本地運行還是使用 RunComfy Cloud AI Toolkit，流程一致。

Ostris AI Toolkit 內建的 LoRA 訓練工具

AI Toolkit 內建了不少「開箱即用」的功能：

量化與低顯存模式 – 可配置 8/6/4 bit（以及帶 recovery adapter 的 3 bit）transformer 量化與層級 offload，讓 Flux/Wan 等大模型能在 24–48GB 顯存上訓練，並可在速度/品質間權衡。
LoRA / LoKr 適配器 – 同時支援標準 LoRA 與 LoKr（更緊湊但相容性可能更差），透過 Target Type 選擇。
DOP（Differential Output Preservation） – 對「正則圖像」同時跑 base 與 LoRA 輸出，加入懲罰項以抑制不該發生的變化，降低 LoRA「滲漏」（不觸發也長得像訓練目標）。
面向 turbo 模型的 Differential Guidance – 主要用於 Z‑Image Turbo，讓訓練更聚焦於「相對 base 該改變的部分」，提升 few‑step/turbo 模型的適配深度。
多階段噪聲訓練 – 高噪聲/低噪聲分階段訓練，以平衡結構學習與細節銳化。
Latent 與文字 embedding 快取 – Cache Latents / Cache Text Embeddings 用磁碟換速度與顯存。
EMA – 可選的指數滑動平均權重副本，幫助收斂更穩定（小資料集時尤其可能有用）。

2. Ostris AI Toolkit 支援哪些模型（Flux、Wan、Z‑Image、Qwen‑Image、SDXL）

AI Toolkit 目前支援以下模型家族：

IMAGE 模型 – 單圖生成（Flux、Z‑Image Turbo、Qwen‑Image、SD 等）
INSTRUCTION / EDIT 模型 – 圖像編輯/指令跟隨（Qwen‑Image‑Edit、Flux Kontext、HiDream E1）
VIDEO 模型 – 文生影片與圖生影片（Wan 2.x 系列）

2. Ostris AI Toolkit 支援哪些模型（Flux、Wan、Z‑Image、Qwen‑Image、SDXL）

AI Toolkit 目前支援以下模型家族：

IMAGE 模型 – 單圖生成（Flux、Z‑Image Turbo、Qwen‑Image、SD 等）
INSTRUCTION / EDIT 模型 – 圖像編輯/指令跟隨（Qwen‑Image‑Edit、Flux Kontext、HiDream E1）
VIDEO 模型 – 文生影片與圖生影片（Wan 2.x 系列）

類別	AI Toolkit UI 中的模型家族	系統需求 / 顯存建議
IMAGE	FLUX.1 / FLUX.2	VRAM：LoRA 訓練最低 24GB。建議：rank(32–64) 與 1024+ bucket 時建議 48GB+。備註：量化 + Low VRAM 常能讓 24GB 成立；SSD 有助於快取。
INSTRUCTION	FLUX.1‑Kontext‑dev	VRAM：24GB+ 基線；重 conditioning/高解析度/高 rank 建議 48GB+。
IMAGE	Qwen‑Image, Qwen Image 2512	VRAM：建議 24GB+；更舒適為 32GB+。
INSTRUCTION	Qwen‑Image‑Edit, Qwen‑Image‑Edit‑2509, Qwen‑Image‑Edit‑2511	VRAM：建議 32GB+。經驗值：1024px 往往 ~27–28.5GB；768px ~25–26GB；24GB 通常吃緊。
IMAGE	Z‑Image Turbo	VRAM：設計上更容易落在 16–24GB。備註：rank 常用 8–16，bucket 512/768/1024 更穩。
VIDEO	Wan 2.2 (14B), Wan 2.2 T2V (14B), Wan 2.2 I2V (14B)	VRAM：24GB 需謹慎設定；建議：48GB+ 更舒適、速度更快。
VIDEO	LTX-2	VRAM：量化/offload 下 24–48GB 可行；48GB+ 更順。
IMAGE	SD 1.5, SDXL	VRAM：SD 1.5 常見 8GB+；SDXL 常見 12–16GB+。
IMAGE	OmniGen2 / Chroma / Lumina2	VRAM：模型相關；24GB 是安全基線，48GB+ 更舒適。
INSTRUCTION	HiDream / HiDream E1	VRAM：通常建議 48GB+。
IMAGE	Flex.1 / Flex.2	VRAM：相對輕；很多情況下 12–16GB 也可行（取決於解析度與是否訓練文字側）。

3. 本地安裝 Ostris AI Toolkit 與使用 RunComfy Cloud AI Toolkit

3.1 在 Linux / Windows 本地安裝 Ostris AI Toolkit

官方 README（GitHub）提供了清晰的安裝步驟：

https://github.com/ostris/ai-toolkit

在 Linux 上：

git clone https://github.com/ostris/ai-toolkit.git
cd ai-toolkit

python3 -m venv venv
source venv/bin/activate

# 安裝 CUDA 版 PyTorch（如有需要請調整版本）
pip3 install --no-cache-dir torch==2.7.0 torchvision==0.22.0 torchaudio==2.7.0 \
  --index-url https://download.pytorch.org/whl/cu126

pip3 install -r requirements.txt

依賴安裝完成後啟動 Web UI：

cd ui
npm run build_and_start

介面位址：http://localhost:8675。如果在遠端機器上跑，建議先設定 AI_TOOLKIT_AUTH 作為存取密碼。

3.2 使用 RunComfy Cloud AI Toolkit（無需本地安裝）

如果你不想處理驅動、CUDA 或本地環境，可以用 RunComfy Cloud AI Toolkit：

AI Toolkit 全程在雲端跑，你只需打開瀏覽器。
可使用 80GB/141GB VRAM 的強力 GPU。
資料集、設定、checkpoint、歷史 job 會保存在 RunComfy 的持久工作區裡。

直接開啟： RunComfy Cloud AI Toolkit

4. Ostris AI Toolkit Web UI 概覽（Dashboard、Datasets、New LoRA Job）

4.1 Dashboard 與 Training Queue

Dashboard 用於快速看狀態；Training Queue 是「作業控制中心」，可查看運行狀態、打開日誌、停止/刪除任務、下載 checkpoint 與 sample。

4.2 資料集管理（Datasets）

Datasets 頁用於建立可復用的資料集條目：既可以建立主訓練集，也可以建立用於 DOP 的正則資料集（Is Regularization）。

4.3 New Job：核心設定頁

New Job 裡按面板組織：Job / Model / Quantization / Target / Save / Training / Regularization / Datasets / Sample。

5. AI Toolkit 的 LoRA 訓練基礎與核心超參數

LoRA 訓練本質是在凍結權重 W 上疊加低秩更新：W_new = W + alpha A B。

rank 決定容量，learning rate 與 steps 決定學習強度與時長，資料集與 captions 決定「學什麼」。

6. 將 LoRA 概念映射到 AI Toolkit 參數

實用重點：

JOB：Trigger Word 可在訓練時自動前置到 captions（不改檔）。
MODEL：gated 模型需要在 Hugging Face 同意許可，並在 .env 設定 HF_TOKEN。
QUANTIZATION：24GB 訓練 Flux/Wan 常用 Transformer = 6-bit 起步。
TARGET：rank 通常從 16 起步，不夠再考慮 32。
SAVE/SAMPLE：建議 Save Every = Sample Every，方便對照每個 checkpoint 的預覽結果。
Text Encoder：Cache Text Embeddings 只適用於 captions 基本靜態的場景；若 DOP/動態 prompt 會導致每 step 文字變化，就不要開。
DOP：需要 Is Regularization 的正則資料集，並確保正則 caption 不含 trigger。

7. 快速上手：在 AI Toolkit 裡訓練一個可用的 LoRA

1) 準備乾淨且多樣的資料，選擇獨特 trigger token。

2) 建立資料集並檢查數量/caption/解析度。

3) New Job 先只動 5 個高影響項：觸發方式、rank、steps、learning rate、bucket。

4) 用 3 個 sample prompt 做診斷：啟動（有 trigger）、泛化（有 trigger 但換屬性）、滲漏測試（無 trigger）。

5) 調參時一次只改一個旋鈕。

8. AI Toolkit LoRA 訓練排錯：常見問題與修復

Dataset 為空/找不到：檢查 Datasets 頁計數、job 的 Target Dataset、JSONL 格式。
Hugging Face 下載錯誤：gated 先同意許可，再設定 HF_TOKEN。
CUDA OOM：先降 bucket/解析度，再降 rank，再開 Low VRAM/更激進量化，最後再降 batch/採樣成本。
過擬合/滲漏：用更早 checkpoint、降低 steps/rank、略增 weight decay；需要時加正則資料集並啟用 DOP。

使用Ostris AI Toolkit進行擴散模型LoRA訓練

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

目錄

1. 什麼是 Ostris AI Toolkit？（擴散模型 LoRA 訓練器）

Ostris AI Toolkit 的 LoRA 訓練特性

Ostris AI Toolkit 內建的 LoRA 訓練工具

2. Ostris AI Toolkit 支援哪些模型（Flux、Wan、Z‑Image、Qwen‑Image、SDXL）

2. Ostris AI Toolkit 支援哪些模型（Flux、Wan、Z‑Image、Qwen‑Image、SDXL）

3. 本地安裝 Ostris AI Toolkit 與使用 RunComfy Cloud AI Toolkit

3.1 在 Linux / Windows 本地安裝 Ostris AI Toolkit

3.2 使用 RunComfy Cloud AI Toolkit（無需本地安裝）

4. Ostris AI Toolkit Web UI 概覽（Dashboard、Datasets、New LoRA Job）

4.1 Dashboard 與 Training Queue

4.2 資料集管理（Datasets）

4.3 New Job：核心設定頁

5. AI Toolkit 的 LoRA 訓練基礎與核心超參數

6. 將 LoRA 概念映射到 AI Toolkit 參數

7. 快速上手：在 AI Toolkit 裡訓練一個可用的 LoRA

8. AI Toolkit LoRA 訓練排錯：常見問題與修復