本頁是使用 Ostris AI Toolkit 進行 LoRA 微調訓練的總覽。如果你需要某個模型的專用配方,請直接跳轉到這些教學:
- 用 AI Toolkit 訓練 FLUX.2 Dev LoRA
- 用 AI Toolkit 訓練 LTX-2 LoRA
- 用 AI Toolkit 訓練 Z‑Image Turbo LoRA
- 用 AI Toolkit 訓練 Qwen Image 2512 LoRA
- 用 AI Toolkit 訓練 Qwen‑Image‑Edit‑2511 LoRA
- 用 AI Toolkit 訓練 Qwen‑Image‑Edit‑2509 LoRA
- 用 AI Toolkit 訓練 Wan 2.2 I2V 14B LoRA
- 用 AI Toolkit 訓練 Wan 2.2 T2V 14B LoRA
讀完本指南後,你應該能夠:
- 理解 LoRA 訓練背後的核心概念(微調時模型究竟發生了什麼變化)。
- 熟悉 AI Toolkit 的整體結構,知道每個面板負責什麼。
- 理解 關鍵參數(learning rate、rank、steps、noise schedule、DOP 等)的意義與影響,從而能「有目的地」調參。
- 能在 本地機器或 RunComfy Cloud AI Toolkit 上訓練 LoRA,並在日常的生成工作流中復用。
目錄
- 1. 什麼是 Ostris AI Toolkit?(擴散模型 LoRA 訓練器)
- 2. Ostris AI Toolkit 支援哪些模型(Flux、Wan、Z‑Image、Qwen‑Image、SDXL)
- 3. 本地安裝 Ostris AI Toolkit 與使用 RunComfy Cloud AI Toolkit
- 4. Ostris AI Toolkit Web UI 概覽(Dashboard、Datasets、New LoRA Job)
- 5. AI Toolkit 的 LoRA 訓練基礎與核心超參數
- 6. 將 LoRA 概念映射到 AI Toolkit 參數
- 7. 快速上手:在 AI Toolkit 裡訓練一個可用的 LoRA
- 8. AI Toolkit LoRA 訓練排錯:常見問題與修復
1. 什麼是 Ostris AI Toolkit?(擴散模型 LoRA 訓練器)
Ostris AI Toolkit 是一個面向 圖像與影片擴散模型 的訓練套件。它不處理語言或音訊模型;它支援的對象要嘛是傳統 DDPM 風格擴散模型(如 SD 1.5、SDXL),要嘛是 Flux、Wan、Qwen‑Image、Z‑Image、OmniGen2 等現代 diffusion‑transformer(擴散 Transformer)模型。AI Toolkit 的核心是 LoRA 類適配器:實際訓練時不是重訓整個網路,而是在凍結的基座模型之上訓練一小組 LoRA(或類似的輕量適配器)。
Ostris AI Toolkit 的 LoRA 訓練特性
AI Toolkit 為所有支援的模型家族提供統一的訓練引擎與設定系統。不同模型(Flux、Z‑Image Turbo、Wan 2.2、Qwen‑Image、SDXL 等)有各自的預設,但都接入同一套結構:模型載入、量化、LoRA/LoKr 定義、訓練超參數、資料集處理與採樣規則。因此無論你訓練 Flux LoRA、Z‑Image Turbo LoRA 還是 Wan 影片 LoRA,Web UI 的思路與版面都高度一致。
AI Toolkit 同時提供 CLI 與完整 Web UI。CLI 直接讀取 YAML 設定執行;Web UI 本質上是 YAML 的圖形化設定層。在 UI 中,「AI Toolkit」通常指 New Job 頁面:選擇模型家族、LoRA 類型與 rank,設定 learning rate 與 steps,綁定資料集,並定義訓練過程中生成 sample 圖像/影片的頻率。你會看到 Job、Model、Quantization、Target、Training、Regularization、Datasets、Sample 等面板,通常不需要手動編輯 YAML。無論本地運行還是使用 RunComfy Cloud AI Toolkit,流程一致。
Ostris AI Toolkit 內建的 LoRA 訓練工具
AI Toolkit 內建了不少「開箱即用」的功能:
- 量化與低顯存模式 – 可配置 8/6/4 bit(以及帶 recovery adapter 的 3 bit)transformer 量化與層級 offload,讓 Flux/Wan 等大模型能在 24–48GB 顯存上訓練,並可在速度/品質間權衡。
- LoRA / LoKr 適配器 – 同時支援標準 LoRA 與 LoKr(更緊湊但相容性可能更差),透過
Target Type選擇。 - DOP(Differential Output Preservation) – 對「正則圖像」同時跑 base 與 LoRA 輸出,加入懲罰項以抑制不該發生的變化,降低 LoRA「滲漏」(不觸發也長得像訓練目標)。
- 面向 turbo 模型的 Differential Guidance – 主要用於 Z‑Image Turbo,讓訓練更聚焦於「相對 base 該改變的部分」,提升 few‑step/turbo 模型的適配深度。
- 多階段噪聲訓練 – 高噪聲/低噪聲分階段訓練,以平衡結構學習與細節銳化。
- Latent 與文字 embedding 快取 –
Cache Latents/Cache Text Embeddings用磁碟換速度與顯存。 - EMA – 可選的指數滑動平均權重副本,幫助收斂更穩定(小資料集時尤其可能有用)。
2. Ostris AI Toolkit 支援哪些模型(Flux、Wan、Z‑Image、Qwen‑Image、SDXL)
AI Toolkit 目前支援以下模型家族:
- IMAGE 模型 – 單圖生成(Flux、Z‑Image Turbo、Qwen‑Image、SD 等)
- INSTRUCTION / EDIT 模型 – 圖像編輯/指令跟隨(Qwen‑Image‑Edit、Flux Kontext、HiDream E1)
- VIDEO 模型 – 文生影片與圖生影片(Wan 2.x 系列)
2. Ostris AI Toolkit 支援哪些模型(Flux、Wan、Z‑Image、Qwen‑Image、SDXL)
AI Toolkit 目前支援以下模型家族:
- IMAGE 模型 – 單圖生成(Flux、Z‑Image Turbo、Qwen‑Image、SD 等)
- INSTRUCTION / EDIT 模型 – 圖像編輯/指令跟隨(Qwen‑Image‑Edit、Flux Kontext、HiDream E1)
- VIDEO 模型 – 文生影片與圖生影片(Wan 2.x 系列)
| 類別 | AI Toolkit UI 中的模型家族 | 系統需求 / 顯存建議 |
|---|---|---|
| IMAGE | FLUX.1 / FLUX.2 | VRAM:LoRA 訓練最低 24GB。建議:rank(32–64) 與 1024+ bucket 時建議 48GB+。備註:量化 + Low VRAM 常能讓 24GB 成立;SSD 有助於快取。 |
| INSTRUCTION | FLUX.1‑Kontext‑dev | VRAM:24GB+ 基線;重 conditioning/高解析度/高 rank 建議 48GB+。 |
| IMAGE | Qwen‑Image, Qwen Image 2512 | VRAM:建議 24GB+;更舒適為 32GB+。 |
| INSTRUCTION | Qwen‑Image‑Edit, Qwen‑Image‑Edit‑2509, Qwen‑Image‑Edit‑2511 | VRAM:建議 32GB+。經驗值:1024px 往往 ~27–28.5GB;768px ~25–26GB;24GB 通常吃緊。 |
| IMAGE | Z‑Image Turbo | VRAM:設計上更容易落在 16–24GB。備註:rank 常用 8–16,bucket 512/768/1024 更穩。 |
| VIDEO | Wan 2.2 (14B), Wan 2.2 T2V (14B), Wan 2.2 I2V (14B) | VRAM:24GB 需謹慎設定;建議:48GB+ 更舒適、速度更快。 |
| VIDEO | LTX-2 | VRAM:量化/offload 下 24–48GB 可行;48GB+ 更順。 |
| IMAGE | SD 1.5, SDXL | VRAM:SD 1.5 常見 8GB+;SDXL 常見 12–16GB+。 |
| IMAGE | OmniGen2 / Chroma / Lumina2 | VRAM:模型相關;24GB 是安全基線,48GB+ 更舒適。 |
| INSTRUCTION | HiDream / HiDream E1 | VRAM:通常建議 48GB+。 |
| IMAGE | Flex.1 / Flex.2 | VRAM:相對輕;很多情況下 12–16GB 也可行(取決於解析度與是否訓練文字側)。 |
3. 本地安裝 Ostris AI Toolkit 與使用 RunComfy Cloud AI Toolkit
3.1 在 Linux / Windows 本地安裝 Ostris AI Toolkit
官方 README(GitHub)提供了清晰的安裝步驟:
https://github.com/ostris/ai-toolkit
在 Linux 上:
git clone https://github.com/ostris/ai-toolkit.git
cd ai-toolkit
python3 -m venv venv
source venv/bin/activate
# 安裝 CUDA 版 PyTorch(如有需要請調整版本)
pip3 install --no-cache-dir torch==2.7.0 torchvision==0.22.0 torchaudio==2.7.0 \
--index-url https://download.pytorch.org/whl/cu126
pip3 install -r requirements.txt
依賴安裝完成後啟動 Web UI:
cd ui
npm run build_and_start
介面位址:http://localhost:8675。如果在遠端機器上跑,建議先設定 AI_TOOLKIT_AUTH 作為存取密碼。
3.2 使用 RunComfy Cloud AI Toolkit(無需本地安裝)
如果你不想處理驅動、CUDA 或本地環境,可以用 RunComfy Cloud AI Toolkit:
- AI Toolkit 全程在雲端跑,你只需打開瀏覽器。
- 可使用 80GB/141GB VRAM 的強力 GPU。
- 資料集、設定、checkpoint、歷史 job 會保存在 RunComfy 的持久工作區裡。
直接開啟: RunComfy Cloud AI Toolkit
4. Ostris AI Toolkit Web UI 概覽(Dashboard、Datasets、New LoRA Job)
4.1 Dashboard 與 Training Queue
Dashboard 用於快速看狀態;Training Queue 是「作業控制中心」,可查看運行狀態、打開日誌、停止/刪除任務、下載 checkpoint 與 sample。
4.2 資料集管理(Datasets)
Datasets 頁用於建立可復用的資料集條目:既可以建立主訓練集,也可以建立用於 DOP 的正則資料集(Is Regularization)。
4.3 New Job:核心設定頁
New Job 裡按面板組織:Job / Model / Quantization / Target / Save / Training / Regularization / Datasets / Sample。
5. AI Toolkit 的 LoRA 訓練基礎與核心超參數
LoRA 訓練本質是在凍結權重 W 上疊加低秩更新:W_new = W + alpha A B。
rank 決定容量,learning rate 與 steps 決定學習強度與時長,資料集與 captions 決定「學什麼」。
6. 將 LoRA 概念映射到 AI Toolkit 參數
實用重點:
- JOB:
Trigger Word可在訓練時自動前置到 captions(不改檔)。 - MODEL:gated 模型需要在 Hugging Face 同意許可,並在
.env設定HF_TOKEN。 - QUANTIZATION:24GB 訓練 Flux/Wan 常用
Transformer = 6-bit起步。 - TARGET:rank 通常從 16 起步,不夠再考慮 32。
- SAVE/SAMPLE:建議
Save Every = Sample Every,方便對照每個 checkpoint 的預覽結果。 - Text Encoder:
Cache Text Embeddings只適用於 captions 基本靜態的場景;若 DOP/動態 prompt 會導致每 step 文字變化,就不要開。 - DOP:需要
Is Regularization的正則資料集,並確保正則 caption 不含 trigger。
7. 快速上手:在 AI Toolkit 裡訓練一個可用的 LoRA
1) 準備乾淨且多樣的資料,選擇獨特 trigger token。
2) 建立資料集並檢查數量/caption/解析度。
3) New Job 先只動 5 個高影響項:觸發方式、rank、steps、learning rate、bucket。
4) 用 3 個 sample prompt 做診斷:啟動(有 trigger)、泛化(有 trigger 但換屬性)、滲漏測試(無 trigger)。
5) 調參時一次只改一個旋鈕。
8. AI Toolkit LoRA 訓練排錯:常見問題與修復
- Dataset 為空/找不到:檢查 Datasets 頁計數、job 的
Target Dataset、JSONL 格式。 - Hugging Face 下載錯誤:gated 先同意許可,再設定
HF_TOKEN。 - CUDA OOM:先降 bucket/解析度,再降 rank,再開 Low VRAM/更激進量化,最後再降 batch/採樣成本。
- 過擬合/滲漏:用更早 checkpoint、降低 steps/rank、略增 weight decay;需要時加正則資料集並啟用 DOP。
Ready to start training?

