FLUX.2 Klein LoRA 訓練：用 Ostris AI Toolkit 訓練 4B / 9B（Base）

FLUX.2 Klein 是一個同時涵蓋文生圖（text‑to‑image）與影像編輯（image editing）的統一模型家族，提供兩種開放權重的「Base」尺寸：4B 與 9B。本教學會帶你用 Ostris AI Toolkit 做可落地的 FLUX.2 Klein LoRA 訓練，重點放在 Klein 特有的差異（Base vs Distilled 的預期、4B vs 9B 相容規則、顯存（VRAM）現實，以及 Klein 常見的專屬踩雷點）。

如果你是用 「FLUX 2 Klein LoRA 訓練」、「FLUX.2 Klein LoRA 微調」、「FLUX.2-Klein LoRA 訓練 9B」 或 「FLUX.2 Klein Base LoRA 訓練」 這些寫法在找，其實都是同一件事：這篇 FLUX.2 Klein LoRA 訓練 會用一致的步驟把流程講清楚。

完成這篇 FLUX.2 Klein LoRA 訓練 後，你將可以：

正確選擇 FLUX.2 Klein 4B Base vs 9B Base（避免「模型尺寸選錯，LoRA 直接無效」）。
做顯存規劃，並為 Base Klein 設定合理的量化（quantization）+ 取樣（sampling）預設值。
針對角色（character）、風格（style）、產品/概念（product/concept） LoRA，建立資料集與觸發詞策略。
用Base 正確取樣先跑一次 smoke test，再不靠猜測地擴大訓練。
解決 Klein 常見問題（授權 gating、Base‑vs‑Distilled 測試不一致、9B 訓練崩壞模式、AI Toolkit 目前的邊緣狀況）。

本文是 AI Toolkit LoRA 訓練系列的一部分。若你剛接觸 Ostris AI Toolkit，建議先讀總覽，再回來看這篇 FLUX.2 Klein LoRA 訓練：

https://www.runcomfy.com/zh-TW/trainer/ai-toolkit/getting-started

1. FLUX.2 Klein 概覽：4B/9B 差在哪（以及為什麼 FLUX.2 Klein LoRA 訓練必須用 Base 的取樣方式）
2. 環境選擇：本機 AI Toolkit vs RunComfy 雲端 AI Toolkit（FLUX.2 Klein LoRA 訓練）
3. FLUX.2 Klein 4B vs 9B LoRA 訓練的硬體與顯存規劃
4. 建立 FLUX.2 Klein LoRA 訓練資料集（角色 vs 風格 vs 產品）
5. 手把手：在 AI Toolkit 裡訓練 FLUX.2 Klein LoRA（FLUX.2 Klein LoRA 訓練）
6. 依顯存分級的 FLUX.2 Klein LoRA 推薦設定（FLUX.2 Klein LoRA 訓練）
7. 常見 FLUX.2 Klein LoRA 訓練問題與解法
8. 訓練後如何使用你的 FLUX.2 Klein LoRA（FLUX.2 Klein LoRA 訓練）

1. FLUX.2 Klein 概覽：4B/9B 差在哪（以及為什麼 FLUX.2 Klein LoRA 訓練必須用 Base 的取樣方式）

1.1 Klein 是「一個模型同時做生成 + 編輯」

Klein 的設計目標是：同一模型家族既能文生圖生成也能影像編輯。落到實務上，代表你在 FLUX.2 Klein LoRA 訓練 中做出的風格/角色/產品 LoRA，往往既能用在「生成」也能用在「編輯」工作流——真正決定它學到什麼的是你的資料與caption。

1.2 4B vs 9B：依目標與硬體選

4B Base：多數人的 FLUX.2 Klein LoRA 訓練 首選起點。迭代快、顯存更容易塞下、也比較容易維持穩定。
9B Base：如果你有足夠顯存與穩定性調參能力，通常能帶來更好的提示詞忠實度與細節，但容錯更低（社群中也常見更多邊緣案例回報）。

重要相容規則：

4B 訓練出的 LoRA 不能用在 9B 上，9B 訓練出的 LoRA 也不能用在 4B 上。 不論是 FLUX.2 Klein LoRA 訓練 還是後續測試，都要在同一尺寸上載入 LoRA。

1.3 Base vs Distilled（AI Toolkit 目前支援什麼）

Klein 常被分成兩種「行為」來討論：

Base：未蒸餾 checkpoint，面向微調 / LoRA 訓練。
Distilled：推論加速行為（非常低的 step 數）。

在 AI Toolkit 你目前只能選：_FLUX.2 Klein 4B Base_ 或 _FLUX.2 Klein 9B Base_。

Model Architecture 下拉選單沒有 Distilled，所以這篇 FLUX.2 Klein LoRA 訓練 是明確的 Base‑only。

1.4 Klein 最大陷阱：Base 需要更多推論步數

很多「LoRA 很爛」的誤判，其實是因為 用 Distilled 的方式去取樣 Base。

Base Klein 用 ~4–8 steps 預覽，容易看起來沒熟或很噪。

做 FLUX.2 Klein LoRA 訓練 的評估時，建議先用：

Sample Steps / Inference Steps： 約 50
Guidance Scale（CFG）： 約 4

光是這個調整，就能消掉很多 FLUX.2 Klein LoRA 訓練 的假警報。

2. 環境選擇：本機 AI Toolkit vs RunComfy 雲端 AI Toolkit（FLUX.2 Klein LoRA 訓練）

這篇 FLUX.2 Klein LoRA 訓練 你可以用兩種方式跑 AI Toolkit：

本機 AI Toolkit（自己的 GPU）
從 GitHub 安裝 AI Toolkit、開啟 Web UI，直接在自己的機器訓練。適合已經有相容 NVIDIA GPU、也願意自己處理 CUDA/驅動/磁碟的使用者。
RunComfy 雲端 AI Toolkit（H100 / H200）
在瀏覽器打開 AI Toolkit，用雲端 GPU（H100 80GB / H200 141GB）訓練。對 9B Base 的 FLUX.2 Klein LoRA 訓練、大資料集或高解析度訓練來說，這是最省事的路線。

https://www.runcomfy.com/trainer/ai-toolkit/app

流程與 UI 一樣，差別只在 GPU 在哪裡。

3. FLUX.2 Klein 4B vs 9B LoRA 訓練的硬體與顯存規劃

3.1 現實檢查：「推論放得下」≠「訓練跑得動」

即使 BF16 推論可以放下 checkpoint，訓練還會有額外負擔（優化器狀態、activation、LoRA 模組、取樣預覽等）。做 FLUX.2 Klein LoRA 訓練 時要留顯存餘裕。

3.2 實用分級（預期）

一個好用的 FLUX.2 Klein LoRA 訓練 規劃方式：

4B Base

在 24GB 上用保守設定做本機訓練是相對實際的（batch 1、合理 rank、必要時量化）。
也許能在更低顯存、較小解析度下勉強訓練，但迭代通常更脆弱。

9B Base

把 32GB+ 視為本機舒適訓練的實際下限。
想要更輕鬆做高解析度與快速迭代：雲端 H100/H200 幾乎是「不折騰」方案。

3.3 Klein 專屬提醒：9B + 激進省顯存更容易不穩

社群回報顯示，一些 9B 訓練設定在重度省顯存策略下更容易脆。若你顯存很緊，通常更有效率的做法是：

1) 先做 4B Base 的 FLUX.2 Klein LoRA 訓練，或

2) 直接把任務搬到雲端 GPU，

而不是在本機和不穩定的 9B 硬撐。

4. 建立 FLUX.2 Klein LoRA 訓練資料集（角色 vs 風格 vs 產品）

策略建議很簡單：先把資料整理乾淨，再去調參數。這樣推進 FLUX.2 Klein LoRA 訓練 往往最快。

4.1 通用資料集規則（高回報）

除非你刻意讓某張圖主導，不然盡量移除近似重複。
避免水印、UI 覆蓋、文字區塊，除非你的 LoRA 目標就是要學這些痕跡。
維持「訊號一致」：你的 FLUX.2 Klein LoRA 訓練 應該讓 LoRA 學到身份或風格或產品，而不是背景的偶然巧合。

4.2 角色/相似度 LoRA

目標： 在多種提示詞下保持一致身份。

常見資料量：20–60 張精選
需要多樣性：角度、光線、表情、焦段
caption：保持精簡，不要過度描述臉部零件

觸發詞：建議使用

用一個獨特 token/名字，便於在 FLUX.2 Klein LoRA 訓練 中做開關控制。

4.3 風格 LoRA

目標： 可重用的視覺風格，同時盡量不破壞提示詞控制力。

常見資料量：50–200 張（多樣性越高越有利）
主體混合：人物 + 物件 + 場景，讓風格成為唯一常量
caption：聚焦風格屬性（媒介、配色、光影語彙）

觸發詞：可選

如果你想要「可呼叫的風格」，就在 FLUX.2 Klein LoRA 訓練 中加入觸發詞。

4.4 產品/概念 LoRA

目標： 穩定的幾何形體/材質表現（特定產品或新概念）。

常見資料量：30–100 張
初期盡量保持構圖與尺度相對一致
caption：命名產品，並寫清想保留的關鍵屬性

觸發詞：強烈建議

產品/概念類在 FLUX.2 Klein LoRA 訓練 中非常仰賴明確的啟用控制。

5. 手把手：在 AI Toolkit 裡訓練 FLUX.2 Klein LoRA（FLUX.2 Klein LoRA 訓練）

下面是 FLUX.2 Klein LoRA 訓練 的快速路徑：只講你在 UI 裡真的會點到的面板。

Step 0 — 先決定在哪裡跑 AI Toolkit

本機 AI Toolkit（自己的 GPU）：更適合 4B Base 與較小規模的 FLUX.2 Klein LoRA 訓練。
RunComfy 雲端 AI Toolkit：更適合 9B Base 與高解析度訓練，幾乎不用反覆調顯存。
https://www.runcomfy.com/trainer/ai-toolkit/app

Step 1 — 在 AI Toolkit 建立資料集

在 AI Toolkit UI 打開 Datasets 分頁。

建立一個資料集（示例名）：

klein_my_lora_v1

上傳圖片，並（可選）上傳對應的 .txt caption 檔。

如果你還不想逐張寫 caption，這個 FLUX.2 Klein LoRA 訓練 也能先用：

Trigger Word（JOB 面板），以及
簡短的 Default Caption（DATASETS 面板）。

Step 2 — 建立新 Job（按 UI 順序設定）

Job panel

Training Name：取個好辨識的名字（例如 klein4b_character_lora_v1）
GPU ID：本機選你的 GPU；雲端維持預設
Trigger Word：

角色/產品：建議（獨特 token）
風格：可選（想要乾淨的開關控制則建議）

Model panel

Model Architecture：選 FLUX.2 Klein 4B Base 或 FLUX.2 Klein 9B Base
Name or Path：

使用你選的尺寸對應的官方模型 repo（這也是 FLUX.2 Klein LoRA 訓練 的前提）
若選 9B 下載失敗，請看 Troubleshooting（授權 gating）

Quantization panel

量化在 FLUX.2 Klein LoRA 訓練 中主要用來 塞進顯存 與 維持穩定。

顯存緊（尤其 9B）就對重組件開量化。
若遇到量化相關錯誤，可先關掉量化驗證流程是否跑得通，跑通後再開回來。

Target panel

這裡決定 FLUX.2 Klein LoRA 訓練 的 LoRA 容量。

Target Type：LoRA
Linear Rank（起步建議）：

4B Base：先 16，不夠再到 32
9B Base：先 16–32（若不穩，優先 16）

若訓練出現崩壞或不穩，快速穩定 FLUX.2 Klein LoRA 訓練 的常見手段之一就是降低 rank。

Save panel

Data Type：BF16 是安全預設
Save Every：250–500 steps 是實用節奏
Max Step Saves to Keep：3–6（控制磁碟佔用）

Training panel

第一次做 FLUX.2 Klein LoRA 訓練，建議先保守：

Batch Size：1（有餘裕再加）
Gradient Accumulation：1–4（不爆顯存地提高有效 batch）
Learning Rate：

穩定的話從 1e‑4 起步
若不穩/崩壞，試 5e‑5

Steps（起步區間）：

小資料集（20–40 張）：2000–4000
中資料集（50–120 張）：3000–6000

不確定就先做一次 smoke test（也是 FLUX.2 Klein LoRA 訓練 建議流程）：

先跑 ~1000 steps，看樣張，再決定續跑或重開並調 rank/LR。

Regularization（9B 出現崩壞時強烈建議）

若資料集很窄（單一角色或單一產品），加入少量正則資料集（同類的通用圖片、較低權重）通常能減少崩壞/過擬合，並改善 FLUX.2 Klein LoRA 訓練 的泛化。

Datasets panel

Target Dataset：選你的資料集
Default Caption（可選）：

角色：photo of [trigger]
風格：[trigger], watercolor illustration, soft edges, pastel palette
產品：product photo of [trigger], clean background, studio lighting

Caption Dropout Rate：像 0.05 這類小值，對未快取文字 embedding 的情況可減輕 caption 過擬合
Cache Latents：可用就開（大幅加速）
Resolutions：

首次 FLUX.2 Klein LoRA 訓練 建議先用一個主解析度（例如 1024）
需要更強魯棒性時再加 bucket

Sample panel（Klein 的關鍵）

你訓練的是 Klein Base，所以 FLUX.2 Klein LoRA 訓練 的取樣必須按 Base 口徑設定，而不是照 Distilled 的低步數習慣。

建議起步值：

Sample Every：250–500
Guidance Scale：約 4
Sample Steps：約 50
Seed：固定（例如 42）便於比對進度

加入 6–10 條貼近真實用途的 prompt（角色/風格/產品），讓 FLUX.2 Klein LoRA 訓練 的樣張更有參考價值。

Step 3 — 啟動訓練並觀察

到 Training Queue 啟動 job，重點看：

Samples：只用 Base 合適的步數（≈50）來判斷訓練進展，避免誤判 FLUX.2 Klein LoRA 訓練
Stability：如果先變好後又變差，建議停下並回到更早的 checkpoint

6. 依顯存分級的 FLUX.2 Klein LoRA 推薦設定（FLUX.2 Klein LoRA 訓練）

以下是 FLUX.2 Klein LoRA 訓練 的「好用預設」，不是硬規則。

Tier A — 24GB 訓練 4B Base（常見本機配置）

Quantization：需要就開
Batch size：1
Rank：16（不夠再到 32）
Resolution：768–1024
Sampling：steps 50，CFG ~4（Base 測試口徑，適用 FLUX.2 Klein LoRA 訓練）

Tier B — 32–48GB 訓練 9B Base（本機「認真」配置）

Quantization：強烈建議
Batch size：1（有餘裕再加）
Rank：先 16（穩定後再考慮 32）
若不穩/崩壞，加入正則資料集
Sampling：steps 50，CFG ~4（Base 測試口徑，適用 FLUX.2 Klein LoRA 訓練）

Tier C — 雲端 H100/H200（最快迭代、最省心）

若追求最高提示詞忠實度，優先 9B Base
Batch size：2–4 常常可行
Rank：穩定的話 32 也合理
1024 當預設；必要時再擴 bucket
Sampling：steps 50，CFG ~4（FLUX.2 Klein LoRA 訓練 標準口徑）

7. 常見 FLUX.2 Klein LoRA 訓練問題與解法

本節是 Klein 專用 排錯點，目標是讓你的 FLUX.2 Klein LoRA 訓練 更穩、更好判斷。

「LoRA 看起來很弱/很噪」（但 loss 在下降）

最常見原因： 你用 Distilled 的方式在取樣 Base。

解法

在 Sample 面板設定 Sample Steps ≈ 50、Guidance Scale ≈ 4
改完取樣再評估 checkpoint（避免誤判 FLUX.2 Klein LoRA 訓練）

9B Base 無法下載 / access denied

最常見原因： 9B 模型需要在模型頁完成授權同意，你的環境未認證。

解法

在模型頁接受授權/申請存取： https://huggingface.co/black-forest-labs/FLUX.2-klein-base-9B
在 AI Toolkit Settings 新增 Hugging Face Read token
存好 token 後重跑 job（繼續 FLUX.2 Klein LoRA 訓練）

（想要更細的清單：RunComfy 也有專頁說明：“Hugging Face token for FLUX”.）

「我訓練了 LoRA，但完全沒效果」

最可能原因（Klein 常見）

你在 4B 上訓練，卻在 9B 上測試（或相反）
你在 Base 上訓練，卻在其他 Klein 變體/流程中測試

解法

確認 模型尺寸一致（4B LoRA → 4B Base；9B LoRA → 9B Base）
評估流程保持一致，否則 FLUX.2 Klein LoRA 訓練 的比較沒有意義

9B 訓練「崩壞」（品質突然下滑或變得混亂）

這是社群常見的 9B 模式，許多討論都出現在 FLUX.2 Klein LoRA 訓練 的脈絡裡。

建議修復順序（優先級由高到低）

1) 降低 Learning Rate（例如 1e‑4 → 5e‑5）

2) 降低 Rank（例如 32 → 16）

3) 加入正則資料集（同類通用圖片、低權重）

4) 縮短訓練並 early stop（選最後一個「還可以」的 checkpoint）

若你想少踩坑、快速推進，建議先做 4B Base 的 FLUX.2 Klein LoRA 訓練。

AI Toolkit 在 Klein 上的已知邊緣問題（目前常見痛點）

一些使用者回報在 FLUX.2 Klein LoRA 訓練 中遇到：

部分環境下 Klein 9B 的 Layer Offloading 表現不如預期
某些設定下 編輯模式 / 控制圖訓練 會報錯
特定環境（尤其部分 WSL2）出現 GPU 未被使用

實用 workaround

需要「今天就穩定跑完」的話：

改用 4B Base，或
把任務搬到雲端 AI Toolkit，或
更新 AI Toolkit 到最新版再重試

8. 訓練後如何使用你的 FLUX.2 Klein LoRA（FLUX.2 Klein LoRA 訓練）

8.1 測試時也要用 Base 風格的生成設定

在 Klein Base 上測試 LoRA，建議按 FLUX.2 Klein LoRA 訓練 的口徑從以下起步：

Steps： ~50
CFG： ~4
LoRA weight： 0.6 → 1.0（掃幾個值）

8.2 像專業人士一樣測試（快、可重現）

1) 不掛 LoRA 生成（baseline）

2) 掛 LoRA 用 0.6 / 0.8 / 1.0

3) 維持 seed + steps + CFG 不變

4) 評估：

啟用強度（影響是否明顯）
控制能力（不觸發時是否保持關閉）
泛化能力（新 prompt 仍然有效嗎）

8.3 影像編輯工作流

Klein 也支援編輯工作流。當你的 LoRA 在生成裡表現穩定後，可以把它用在編輯管線中，以維持編輯時的身份/風格/產品一致性。這也是 FLUX.2 Klein LoRA 訓練 的實用價值。

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample