AI Toolkit LoRA 訓練指南

FLUX.2 Klein 4B/9B LoRA訓練指南:Ostris AI Toolkit

本指南說明如何用Ostris AI Toolkit訓練實用的FLUX.2 Klein LoRA(4B和9B Base)。你將學到Base 4B/9B相容規則、角色/風格/產品資料集建構、從24GB到H100/H200的顯存規劃,以及如何解決9B崩壞等Klein特有問題。

使用 Ostris AI Toolkit 訓練擴散模型

水平滾動查看完整表單

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Use a Hugging Face repo ID (e.g. owner/model-name).
⚠️ full URLs, .safetensors files, and local files are not supported.

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

FLUX.2 Klein LoRA 訓練:用 Ostris AI Toolkit 訓練 4B / 9B(Base)

FLUX.2 Klein 是一個同時涵蓋文生圖(text‑to‑image)與影像編輯(image editing)的統一模型家族,提供兩種開放權重的「Base」尺寸:4B9B。本教學會帶你用 Ostris AI Toolkit 做可落地的 FLUX.2 Klein LoRA 訓練,重點放在 Klein 特有的差異(Base vs Distilled 的預期、4B vs 9B 相容規則、顯存(VRAM)現實,以及 Klein 常見的專屬踩雷點)。

如果你是用 「FLUX 2 Klein LoRA 訓練」「FLUX.2 Klein LoRA 微調」「FLUX.2-Klein LoRA 訓練 9B」「FLUX.2 Klein Base LoRA 訓練」 這些寫法在找,其實都是同一件事:這篇 FLUX.2 Klein LoRA 訓練 會用一致的步驟把流程講清楚。

完成這篇 FLUX.2 Klein LoRA 訓練 後,你將可以:

  • 正確選擇 FLUX.2 Klein 4B Base vs 9B Base(避免「模型尺寸選錯,LoRA 直接無效」)。
  • 做顯存規劃,並為 Base Klein 設定合理的量化(quantization)+ 取樣(sampling)預設值。
  • 針對角色(character)風格(style)產品/概念(product/concept) LoRA,建立資料集與觸發詞策略。
  • Base 正確取樣先跑一次 smoke test,再不靠猜測地擴大訓練。
  • 解決 Klein 常見問題(授權 gating、Base‑vs‑Distilled 測試不一致、9B 訓練崩壞模式、AI Toolkit 目前的邊緣狀況)。
本文是 AI Toolkit LoRA 訓練系列的一部分。若你剛接觸 Ostris AI Toolkit,建議先讀總覽,再回來看這篇 FLUX.2 Klein LoRA 訓練
https://www.runcomfy.com/zh-TW/trainer/ai-toolkit/getting-started

目錄


1. FLUX.2 Klein 概覽:4B/9B 差在哪(以及為什麼 FLUX.2 Klein LoRA 訓練 必須用 Base 的取樣方式)

1.1 Klein 是「一個模型同時做生成 + 編輯」

Klein 的設計目標是:同一模型家族既能文生圖生成也能影像編輯。落到實務上,代表你在 FLUX.2 Klein LoRA 訓練 中做出的風格/角色/產品 LoRA,往往既能用在「生成」也能用在「編輯」工作流——真正決定它學到什麼的是你的資料caption

1.2 4B vs 9B:依目標與硬體選

  • 4B Base:多數人的 FLUX.2 Klein LoRA 訓練 首選起點。迭代快、顯存更容易塞下、也比較容易維持穩定。
  • 9B Base:如果你有足夠顯存與穩定性調參能力,通常能帶來更好的提示詞忠實度與細節,但容錯更低(社群中也常見更多邊緣案例回報)。

重要相容規則:

4B 訓練出的 LoRA 不能用在 9B 上,9B 訓練出的 LoRA 也不能用在 4B 上。 不論是 FLUX.2 Klein LoRA 訓練 還是後續測試,都要在同一尺寸上載入 LoRA。

1.3 Base vs Distilled(AI Toolkit 目前支援什麼)

Klein 常被分成兩種「行為」來討論:

  • Base:未蒸餾 checkpoint,面向微調 / LoRA 訓練
  • Distilled:推論加速行為(非常低的 step 數)。

在 AI Toolkit 你目前只能選:_FLUX.2 Klein 4B Base_ 或 _FLUX.2 Klein 9B Base_。

Model Architecture 下拉選單沒有 Distilled,所以這篇 FLUX.2 Klein LoRA 訓練 是明確的 Base‑only

1.4 Klein 最大陷阱:Base 需要更多推論步數

很多「LoRA 很爛」的誤判,其實是因為 用 Distilled 的方式去取樣 Base

Base Klein 用 ~4–8 steps 預覽,容易看起來沒熟或很噪。

FLUX.2 Klein LoRA 訓練 的評估時,建議先用:

  • Sample Steps / Inference Steps:50
  • Guidance Scale(CFG):4

光是這個調整,就能消掉很多 FLUX.2 Klein LoRA 訓練 的假警報。


2. 環境選擇:本機 AI Toolkit vs RunComfy 雲端 AI Toolkit(FLUX.2 Klein LoRA 訓練)

這篇 FLUX.2 Klein LoRA 訓練 你可以用兩種方式跑 AI Toolkit:

  • 本機 AI Toolkit(自己的 GPU)

    從 GitHub 安裝 AI Toolkit、開啟 Web UI,直接在自己的機器訓練。適合已經有相容 NVIDIA GPU、也願意自己處理 CUDA/驅動/磁碟的使用者。

  • RunComfy 雲端 AI Toolkit(H100 / H200)

    在瀏覽器打開 AI Toolkit,用雲端 GPU(H100 80GB / H200 141GB)訓練。對 9B Base 的 FLUX.2 Klein LoRA 訓練、大資料集或高解析度訓練來說,這是最省事的路線。

    https://www.runcomfy.com/trainer/ai-toolkit/app

流程與 UI 一樣,差別只在 GPU 在哪裡。


3. FLUX.2 Klein 4B vs 9B LoRA 訓練 的硬體與顯存規劃

3.1 現實檢查:「推論放得下」≠「訓練跑得動」

即使 BF16 推論可以放下 checkpoint,訓練還會有額外負擔(優化器狀態、activation、LoRA 模組、取樣預覽等)。做 FLUX.2 Klein LoRA 訓練 時要留顯存餘裕。

3.2 實用分級(預期)

一個好用的 FLUX.2 Klein LoRA 訓練 規劃方式:

  • 4B Base
    • 24GB 上用保守設定做本機訓練是相對實際的(batch 1、合理 rank、必要時量化)。
    • 也許能在更低顯存、較小解析度下勉強訓練,但迭代通常更脆弱。
  • 9B Base
    • 32GB+ 視為本機舒適訓練的實際下限。
    • 想要更輕鬆做高解析度與快速迭代:雲端 H100/H200 幾乎是「不折騰」方案。

3.3 Klein 專屬提醒:9B + 激進省顯存更容易不穩

社群回報顯示,一些 9B 訓練設定在重度省顯存策略下更容易脆。若你顯存很緊,通常更有效率的做法是:

1) 先做 4B Base 的 FLUX.2 Klein LoRA 訓練,或

2) 直接把任務搬到雲端 GPU

而不是在本機和不穩定的 9B 硬撐。


4. 建立 FLUX.2 Klein LoRA 訓練 資料集(角色 vs 風格 vs 產品)

策略建議很簡單:先把資料整理乾淨,再去調參數。這樣推進 FLUX.2 Klein LoRA 訓練 往往最快。

4.1 通用資料集規則(高回報)

  • 除非你刻意讓某張圖主導,不然盡量移除近似重複。
  • 避免水印、UI 覆蓋、文字區塊,除非你的 LoRA 目標就是要學這些痕跡。
  • 維持「訊號一致」:你的 FLUX.2 Klein LoRA 訓練 應該讓 LoRA 學到身份風格產品,而不是背景的偶然巧合。

4.2 角色/相似度 LoRA

目標: 在多種提示詞下保持一致身份。

  • 常見資料量:20–60 張精選
  • 需要多樣性:角度、光線、表情、焦段
  • caption:保持精簡,不要過度描述臉部零件

觸發詞:建議使用

用一個獨特 token/名字,便於在 FLUX.2 Klein LoRA 訓練 中做開關控制。

4.3 風格 LoRA

目標: 可重用的視覺風格,同時盡量不破壞提示詞控制力。

  • 常見資料量:50–200 張(多樣性越高越有利)
  • 主體混合:人物 + 物件 + 場景,讓風格成為唯一常量
  • caption:聚焦風格屬性(媒介、配色、光影語彙)

觸發詞:可選

如果你想要「可呼叫的風格」,就在 FLUX.2 Klein LoRA 訓練 中加入觸發詞。

4.4 產品/概念 LoRA

目標: 穩定的幾何形體/材質表現(特定產品或新概念)。

  • 常見資料量:30–100
  • 初期盡量保持構圖與尺度相對一致
  • caption:命名產品,並寫清想保留的關鍵屬性

觸發詞:強烈建議

產品/概念類在 FLUX.2 Klein LoRA 訓練 中非常仰賴明確的啟用控制。


5. 手把手:在 AI Toolkit 裡訓練 FLUX.2 Klein LoRA(FLUX.2 Klein LoRA 訓練)

下面是 FLUX.2 Klein LoRA 訓練 的快速路徑:只講你在 UI 裡真的會點到的面板。

Step 0 — 先決定在哪裡跑 AI Toolkit

  • 本機 AI Toolkit(自己的 GPU):更適合 4B Base 與較小規模的 FLUX.2 Klein LoRA 訓練
  • RunComfy 雲端 AI Toolkit:更適合 9B Base 與高解析度訓練,幾乎不用反覆調顯存。

    https://www.runcomfy.com/trainer/ai-toolkit/app


Step 1 — 在 AI Toolkit 建立資料集

在 AI Toolkit UI 打開 Datasets 分頁。

建立一個資料集(示例名):

  • klein_my_lora_v1

上傳圖片,並(可選)上傳對應的 .txt caption 檔。

如果你還不想逐張寫 caption,這個 FLUX.2 Klein LoRA 訓練 也能先用:

  • Trigger Word(JOB 面板),以及
  • 簡短的 Default Caption(DATASETS 面板)。

Step 2 — 建立新 Job(按 UI 順序設定)

Job panel

  • Training Name:取個好辨識的名字(例如 klein4b_character_lora_v1
  • GPU ID:本機選你的 GPU;雲端維持預設
  • Trigger Word
    • 角色/產品:建議(獨特 token)
    • 風格:可選(想要乾淨的開關控制則建議)

Model panel

  • Model Architecture:選 FLUX.2 Klein 4B BaseFLUX.2 Klein 9B Base
  • Name or Path
    • 使用你選的尺寸對應的官方模型 repo(這也是 FLUX.2 Klein LoRA 訓練 的前提)
    • 若選 9B 下載失敗,請看 Troubleshooting(授權 gating)

Quantization panel

量化在 FLUX.2 Klein LoRA 訓練 中主要用來 塞進顯存維持穩定

  • 顯存緊(尤其 9B)就對重組件開量化。
  • 若遇到量化相關錯誤,可先關掉量化驗證流程是否跑得通,跑通後再開回來。

Target panel

這裡決定 FLUX.2 Klein LoRA 訓練 的 LoRA 容量。

  • Target Type:LoRA
  • Linear Rank(起步建議)
    • 4B Base:先 16,不夠再到 32
    • 9B Base:先 16–32(若不穩,優先 16)

若訓練出現崩壞或不穩,快速穩定 FLUX.2 Klein LoRA 訓練 的常見手段之一就是降低 rank。


Save panel

  • Data Type:BF16 是安全預設
  • Save Every:250–500 steps 是實用節奏
  • Max Step Saves to Keep:3–6(控制磁碟佔用)

Training panel

第一次做 FLUX.2 Klein LoRA 訓練,建議先保守:

  • Batch Size:1(有餘裕再加)
  • Gradient Accumulation:1–4(不爆顯存地提高有效 batch)
  • Learning Rate
    • 穩定的話從 1e‑4 起步
    • 若不穩/崩壞,試 5e‑5
  • Steps(起步區間)
    • 小資料集(20–40 張):2000–4000
    • 中資料集(50–120 張):3000–6000

不確定就先做一次 smoke test(也是 FLUX.2 Klein LoRA 訓練 建議流程):

  • 先跑 ~1000 steps,看樣張,再決定續跑或重開並調 rank/LR。

Regularization(9B 出現崩壞時強烈建議)

若資料集很窄(單一角色或單一產品),加入少量正則資料集(同類的通用圖片、較低權重)通常能減少崩壞/過擬合,並改善 FLUX.2 Klein LoRA 訓練 的泛化。


Datasets panel

  • Target Dataset:選你的資料集
  • Default Caption(可選):
    • 角色:photo of [trigger]
    • 風格:[trigger], watercolor illustration, soft edges, pastel palette
    • 產品:product photo of [trigger], clean background, studio lighting
  • Caption Dropout Rate:像 0.05 這類小值,對未快取文字 embedding 的情況可減輕 caption 過擬合
  • Cache Latents:可用就開(大幅加速)
  • Resolutions
    • 首次 FLUX.2 Klein LoRA 訓練 建議先用一個主解析度(例如 1024)
    • 需要更強魯棒性時再加 bucket

Sample panel(Klein 的關鍵)

你訓練的是 Klein Base,所以 FLUX.2 Klein LoRA 訓練 的取樣必須按 Base 口徑設定,而不是照 Distilled 的低步數習慣。

建議起步值:

  • Sample Every:250–500
  • Guidance Scale:約 4
  • Sample Steps:約 50
  • Seed:固定(例如 42)便於比對進度

加入 6–10 條貼近真實用途的 prompt(角色/風格/產品),讓 FLUX.2 Klein LoRA 訓練 的樣張更有參考價值。


Step 3 — 啟動訓練並觀察

Training Queue 啟動 job,重點看:

  • Samples:只用 Base 合適的步數(≈50)來判斷訓練進展,避免誤判 FLUX.2 Klein LoRA 訓練
  • Stability:如果先變好後又變差,建議停下並回到更早的 checkpoint

6. 依顯存分級的 FLUX.2 Klein LoRA 推薦設定(FLUX.2 Klein LoRA 訓練)

以下是 FLUX.2 Klein LoRA 訓練 的「好用預設」,不是硬規則。

Tier A — 24GB 訓練 4B Base(常見本機配置)

  • Quantization:需要就開
  • Batch size:1
  • Rank:16(不夠再到 32)
  • Resolution:768–1024
  • Sampling:steps 50,CFG ~4(Base 測試口徑,適用 FLUX.2 Klein LoRA 訓練

Tier B — 32–48GB 訓練 9B Base(本機「認真」配置)

  • Quantization:強烈建議
  • Batch size:1(有餘裕再加)
  • Rank:先 16(穩定後再考慮 32)
  • 若不穩/崩壞,加入正則資料集
  • Sampling:steps 50,CFG ~4(Base 測試口徑,適用 FLUX.2 Klein LoRA 訓練

Tier C — 雲端 H100/H200(最快迭代、最省心)

  • 若追求最高提示詞忠實度,優先 9B Base
  • Batch size:2–4 常常可行
  • Rank:穩定的話 32 也合理
  • 1024 當預設;必要時再擴 bucket
  • Sampling:steps 50,CFG ~4(FLUX.2 Klein LoRA 訓練 標準口徑)

7. 常見 FLUX.2 Klein LoRA 訓練 問題與解法

本節是 Klein 專用 排錯點,目標是讓你的 FLUX.2 Klein LoRA 訓練 更穩、更好判斷。

「LoRA 看起來很弱/很噪」(但 loss 在下降)

最常見原因: 你用 Distilled 的方式在取樣 Base。

解法

  • Sample 面板設定 Sample Steps ≈ 50Guidance Scale ≈ 4
  • 改完取樣再評估 checkpoint(避免誤判 FLUX.2 Klein LoRA 訓練

9B Base 無法下載 / access denied

最常見原因: 9B 模型需要在模型頁完成授權同意,你的環境未認證。

解法

  • 在模型頁接受授權/申請存取: https://huggingface.co/black-forest-labs/FLUX.2-klein-base-9B
  • 在 AI Toolkit Settings 新增 Hugging Face Read token
  • 存好 token 後重跑 job(繼續 FLUX.2 Klein LoRA 訓練

(想要更細的清單:RunComfy 也有專頁說明:“Hugging Face token for FLUX”.


「我訓練了 LoRA,但完全沒效果」

最可能原因(Klein 常見)

  • 你在 4B 上訓練,卻在 9B 上測試(或相反)
  • 你在 Base 上訓練,卻在其他 Klein 變體/流程中測試

解法

  • 確認 模型尺寸一致(4B LoRA → 4B Base;9B LoRA → 9B Base)
  • 評估流程保持一致,否則 FLUX.2 Klein LoRA 訓練 的比較沒有意義

9B 訓練「崩壞」(品質突然下滑或變得混亂)

這是社群常見的 9B 模式,許多討論都出現在 FLUX.2 Klein LoRA 訓練 的脈絡裡。

建議修復順序(優先級由高到低)

1) 降低 Learning Rate(例如 1e‑4 → 5e‑5

2) 降低 Rank(例如 32 → 16

3) 加入正則資料集(同類通用圖片、低權重)

4) 縮短訓練並 early stop(選最後一個「還可以」的 checkpoint)

若你想少踩坑、快速推進,建議先做 4B Base 的 FLUX.2 Klein LoRA 訓練


AI Toolkit 在 Klein 上的已知邊緣問題(目前常見痛點)

一些使用者回報在 FLUX.2 Klein LoRA 訓練 中遇到:

  • 部分環境下 Klein 9B 的 Layer Offloading 表現不如預期
  • 某些設定下 編輯模式 / 控制圖訓練 會報錯
  • 特定環境(尤其部分 WSL2)出現 GPU 未被使用

實用 workaround

  • 需要「今天就穩定跑完」的話:
    • 改用 4B Base,或
    • 把任務搬到雲端 AI Toolkit,或
    • 更新 AI Toolkit 到最新版再重試

8. 訓練後如何使用你的 FLUX.2 Klein LoRA(FLUX.2 Klein LoRA 訓練)

8.1 測試時也要用 Base 風格的生成設定

在 Klein Base 上測試 LoRA,建議按 FLUX.2 Klein LoRA 訓練 的口徑從以下起步:

  • Steps: ~50
  • CFG: ~4
  • LoRA weight: 0.6 → 1.0(掃幾個值)

8.2 像專業人士一樣測試(快、可重現)

1) 不掛 LoRA 生成(baseline)

2) 掛 LoRA 用 0.6 / 0.8 / 1.0

3) 維持 seed + steps + CFG 不變

4) 評估:

  • 啟用強度(影響是否明顯)
  • 控制能力(不觸發時是否保持關閉)
  • 泛化能力(新 prompt 仍然有效嗎)

8.3 影像編輯工作流

Klein 也支援編輯工作流。當你的 LoRA 在生成裡表現穩定後,可以把它用在編輯管線中,以維持編輯時的身份/風格/產品一致性。這也是 FLUX.2 Klein LoRA 訓練 的實用價值。


更多 AI Toolkit LoRA 訓練指南

準備好開始訓練了嗎?