AI Toolkit LoRA Training Guides

使用Ostris AI Toolkit進行擴散模型LoRA訓練

這篇入門指南帶你用Ostris AI Toolkit對影像與影片擴散模型進行LoRA微調:了解工具結構與LoRA適配器原理、掌握核心超參數設定,並學習在本地或RunComfy雲端進行訓練、取樣檢查與常見問題排查。

Train Diffusion Models with Ostris AI Toolkit

水平滾動查看完整表單

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Use a Hugging Face repo ID (e.g. owner/model-name).
⚠️ full URLs, .safetensors files, and local files are not supported.

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

本頁是使用 Ostris AI Toolkit 進行 LoRA 微調訓練的總覽。如果你需要某個模型的專用配方,請直接跳轉到這些教學:

讀完本指南後,你應該能夠:

  • 理解 LoRA 訓練背後的核心概念(微調時模型究竟發生了什麼變化)。
  • 熟悉 AI Toolkit 的整體結構,知道每個面板負責什麼。
  • 理解 關鍵參數(learning rate、rank、steps、noise schedule、DOP 等)的意義與影響,從而能「有目的地」調參。
  • 能在 本地機器或 RunComfy Cloud AI Toolkit 上訓練 LoRA,並在日常的生成工作流中復用。

目錄

1. 什麼是 Ostris AI Toolkit?(擴散模型 LoRA 訓練器)

Ostris AI Toolkit 是一個面向 圖像與影片擴散模型 的訓練套件。它不處理語言或音訊模型;它支援的對象要嘛是傳統 DDPM 風格擴散模型(如 SD 1.5、SDXL),要嘛是 Flux、Wan、Qwen‑Image、Z‑Image、OmniGen2 等現代 diffusion‑transformer(擴散 Transformer)模型。AI Toolkit 的核心是 LoRA 類適配器:實際訓練時不是重訓整個網路,而是在凍結的基座模型之上訓練一小組 LoRA(或類似的輕量適配器)。

Ostris AI Toolkit 的 LoRA 訓練特性

AI Toolkit 為所有支援的模型家族提供統一的訓練引擎與設定系統。不同模型(Flux、Z‑Image Turbo、Wan 2.2、Qwen‑Image、SDXL 等)有各自的預設,但都接入同一套結構:模型載入、量化、LoRA/LoKr 定義、訓練超參數、資料集處理與採樣規則。因此無論你訓練 Flux LoRA、Z‑Image Turbo LoRA 還是 Wan 影片 LoRA,Web UI 的思路與版面都高度一致。

AI Toolkit 同時提供 CLI 與完整 Web UI。CLI 直接讀取 YAML 設定執行;Web UI 本質上是 YAML 的圖形化設定層。在 UI 中,「AI Toolkit」通常指 New Job 頁面:選擇模型家族、LoRA 類型與 rank,設定 learning rate 與 steps,綁定資料集,並定義訓練過程中生成 sample 圖像/影片的頻率。你會看到 Job、Model、Quantization、Target、Training、Regularization、Datasets、Sample 等面板,通常不需要手動編輯 YAML。無論本地運行還是使用 RunComfy Cloud AI Toolkit,流程一致。


Ostris AI Toolkit 內建的 LoRA 訓練工具

AI Toolkit 內建了不少「開箱即用」的功能:

  • 量化與低顯存模式 – 可配置 8/6/4 bit(以及帶 recovery adapter 的 3 bit)transformer 量化與層級 offload,讓 Flux/Wan 等大模型能在 24–48GB 顯存上訓練,並可在速度/品質間權衡。
  • LoRA / LoKr 適配器 – 同時支援標準 LoRA 與 LoKr(更緊湊但相容性可能更差),透過 Target Type 選擇。
  • DOP(Differential Output Preservation) – 對「正則圖像」同時跑 base 與 LoRA 輸出,加入懲罰項以抑制不該發生的變化,降低 LoRA「滲漏」(不觸發也長得像訓練目標)。
  • 面向 turbo 模型的 Differential Guidance – 主要用於 Z‑Image Turbo,讓訓練更聚焦於「相對 base 該改變的部分」,提升 few‑step/turbo 模型的適配深度。
  • 多階段噪聲訓練 – 高噪聲/低噪聲分階段訓練,以平衡結構學習與細節銳化。
  • Latent 與文字 embedding 快取Cache Latents / Cache Text Embeddings 用磁碟換速度與顯存。
  • EMA – 可選的指數滑動平均權重副本,幫助收斂更穩定(小資料集時尤其可能有用)。

2. Ostris AI Toolkit 支援哪些模型(Flux、Wan、Z‑Image、Qwen‑Image、SDXL)

AI Toolkit 目前支援以下模型家族:

  • IMAGE 模型 – 單圖生成(Flux、Z‑Image Turbo、Qwen‑Image、SD 等)
  • INSTRUCTION / EDIT 模型 – 圖像編輯/指令跟隨(Qwen‑Image‑Edit、Flux Kontext、HiDream E1)
  • VIDEO 模型 – 文生影片與圖生影片(Wan 2.x 系列)

2. Ostris AI Toolkit 支援哪些模型(Flux、Wan、Z‑Image、Qwen‑Image、SDXL)

AI Toolkit 目前支援以下模型家族:

  • IMAGE 模型 – 單圖生成(Flux、Z‑Image Turbo、Qwen‑Image、SD 等)
  • INSTRUCTION / EDIT 模型 – 圖像編輯/指令跟隨(Qwen‑Image‑Edit、Flux Kontext、HiDream E1)
  • VIDEO 模型 – 文生影片與圖生影片(Wan 2.x 系列)
類別 AI Toolkit UI 中的模型家族 系統需求 / 顯存建議
IMAGE FLUX.1 / FLUX.2 VRAM:LoRA 訓練最低 24GB。建議:rank(32–64) 與 1024+ bucket 時建議 48GB+。備註:量化 + Low VRAM 常能讓 24GB 成立;SSD 有助於快取。
INSTRUCTION FLUX.1‑Kontext‑dev VRAM:24GB+ 基線;重 conditioning/高解析度/高 rank 建議 48GB+。
IMAGE Qwen‑Image, Qwen Image 2512 VRAM:建議 24GB+;更舒適為 32GB+。
INSTRUCTION Qwen‑Image‑Edit, Qwen‑Image‑Edit‑2509, Qwen‑Image‑Edit‑2511 VRAM:建議 32GB+。經驗值:1024px 往往 ~27–28.5GB;768px ~25–26GB;24GB 通常吃緊。
IMAGE Z‑Image Turbo VRAM:設計上更容易落在 16–24GB備註:rank 常用 8–16,bucket 512/768/1024 更穩。
VIDEO Wan 2.2 (14B), Wan 2.2 T2V (14B), Wan 2.2 I2V (14B) VRAM:24GB 需謹慎設定;建議:48GB+ 更舒適、速度更快。
VIDEO LTX-2 VRAM:量化/offload 下 24–48GB 可行;48GB+ 更順。
IMAGE SD 1.5, SDXL VRAM:SD 1.5 常見 8GB+;SDXL 常見 12–16GB+。
IMAGE OmniGen2 / Chroma / Lumina2 VRAM:模型相關;24GB 是安全基線,48GB+ 更舒適。
INSTRUCTION HiDream / HiDream E1 VRAM:通常建議 48GB+。
IMAGE Flex.1 / Flex.2 VRAM:相對輕;很多情況下 12–16GB 也可行(取決於解析度與是否訓練文字側)。

3. 本地安裝 Ostris AI Toolkit 與使用 RunComfy Cloud AI Toolkit

3.1 在 Linux / Windows 本地安裝 Ostris AI Toolkit

官方 README(GitHub)提供了清晰的安裝步驟:

https://github.com/ostris/ai-toolkit

Linux 上:

git clone https://github.com/ostris/ai-toolkit.git
cd ai-toolkit

python3 -m venv venv
source venv/bin/activate

# 安裝 CUDA 版 PyTorch(如有需要請調整版本)
pip3 install --no-cache-dir torch==2.7.0 torchvision==0.22.0 torchaudio==2.7.0 \
  --index-url https://download.pytorch.org/whl/cu126

pip3 install -r requirements.txt

依賴安裝完成後啟動 Web UI:

cd ui
npm run build_and_start

介面位址:http://localhost:8675。如果在遠端機器上跑,建議先設定 AI_TOOLKIT_AUTH 作為存取密碼。


3.2 使用 RunComfy Cloud AI Toolkit(無需本地安裝)

如果你不想處理驅動、CUDA 或本地環境,可以用 RunComfy Cloud AI Toolkit

  • AI Toolkit 全程在雲端跑,你只需打開瀏覽器。
  • 可使用 80GB/141GB VRAM 的強力 GPU。
  • 資料集、設定、checkpoint、歷史 job 會保存在 RunComfy 的持久工作區裡。

直接開啟: RunComfy Cloud AI Toolkit


4. Ostris AI Toolkit Web UI 概覽(Dashboard、Datasets、New LoRA Job)

4.1 Dashboard 與 Training Queue

Dashboard 用於快速看狀態;Training Queue 是「作業控制中心」,可查看運行狀態、打開日誌、停止/刪除任務、下載 checkpoint 與 sample。


4.2 資料集管理(Datasets)

Datasets 頁用於建立可復用的資料集條目:既可以建立主訓練集,也可以建立用於 DOP 的正則資料集(Is Regularization)。


4.3 New Job:核心設定頁

New Job 裡按面板組織:Job / Model / Quantization / Target / Save / Training / Regularization / Datasets / Sample。


5. AI Toolkit 的 LoRA 訓練基礎與核心超參數

LoRA 訓練本質是在凍結權重 W 上疊加低秩更新:W_new = W + alpha A B

rank 決定容量,learning rate 與 steps 決定學習強度與時長,資料集與 captions 決定「學什麼」。


6. 將 LoRA 概念映射到 AI Toolkit 參數

實用重點:

  • JOBTrigger Word 可在訓練時自動前置到 captions(不改檔)。
  • MODEL:gated 模型需要在 Hugging Face 同意許可,並在 .env 設定 HF_TOKEN
  • QUANTIZATION:24GB 訓練 Flux/Wan 常用 Transformer = 6-bit 起步。
  • TARGET:rank 通常從 16 起步,不夠再考慮 32。
  • SAVE/SAMPLE:建議 Save Every = Sample Every,方便對照每個 checkpoint 的預覽結果。
  • Text EncoderCache Text Embeddings 只適用於 captions 基本靜態的場景;若 DOP/動態 prompt 會導致每 step 文字變化,就不要開。
  • DOP:需要 Is Regularization 的正則資料集,並確保正則 caption 不含 trigger。

7. 快速上手:在 AI Toolkit 裡訓練一個可用的 LoRA

1) 準備乾淨且多樣的資料,選擇獨特 trigger token。

2) 建立資料集並檢查數量/caption/解析度。

3) New Job 先只動 5 個高影響項:觸發方式、rank、steps、learning rate、bucket。

4) 用 3 個 sample prompt 做診斷:啟動(有 trigger)、泛化(有 trigger 但換屬性)、滲漏測試(無 trigger)。

5) 調參時一次只改一個旋鈕。


8. AI Toolkit LoRA 訓練排錯:常見問題與修復

  • Dataset 為空/找不到:檢查 Datasets 頁計數、job 的 Target Dataset、JSONL 格式。
  • Hugging Face 下載錯誤:gated 先同意許可,再設定 HF_TOKEN
  • CUDA OOM:先降 bucket/解析度,再降 rank,再開 Low VRAM/更激進量化,最後再降 batch/採樣成本。
  • 過擬合/滲漏:用更早 checkpoint、降低 steps/rank、略增 weight decay;需要時加正則資料集並啟用 DOP。

Ready to start training?