FLUX.2 dev LoRA 訓練與訓練舊版SD模型有很大不同。FLUX.2 [dev]結合了一個320億參數的巨型整流流Transformer、240億參數的Mistral文字編碼器和高品質自動編碼器,在單一checkpoint中處理文字轉圖片和圖片編輯。本指南涵蓋:
- FLUX.2 [dev]的特別之處
- 這些設計如何影響LoRA訓練
- 如何為不同硬體配置AI Toolkit
- 如何配置資料集、觸發詞和參數以獲得所需的風格/角色/編輯效果
本文是AI Toolkit LoRA訓練系列的一部分。如果您是Ostris AI Toolkit新手,請在深入FLUX.2 [dev] LoRA 訓練之前先閱讀AI Toolkit LoRA訓練概述。
目錄
- 1. 理解FLUX.2 [dev]的LoRA訓練
- 2. 您要訓練哪種類型的FLUX.2 LoRA?
- 3. 影響LoRA設定的FLUX.2特定細節
- 4. FLUX.2 LoRA訓練的硬體和顯存要求
- 5. 為FLUX.2 LoRA設計資料集
- 6. 分步指南:在AI Toolkit中配置Flux2-dev LoRA 訓練
- 7. 除錯FLUX.2 LoRA結果並提高品質
- 8. 在推論中使用您的FLUX.2 LoRA
1. 理解FLUX.2 [dev]的LoRA訓練
在調整參數之前,了解您正在微調的內容會很有幫助。
1.1 高層架構
來自官方FLUX.2-dev模型卡和Black Forest Labs公告:
- 基礎模型
FLUX.2 [dev]是一個320億參數的整流流Transformer(DiT風格的潛在流模型),從頭訓練而成,不是FLUX.1的延續。它在單一checkpoint中結合了文字轉圖片和圖片編輯(單圖和多參考)。 - 文字編碼器
FLUX.2 [dev]使用Mistral Small 3.1 / 3.2 – 24B作為視覺語言文字編碼器。這是在32B DiT之上額外的24B參數。
- 自動編碼器(VAE)
模型使用新的AutoencoderKLFlux2,具有32個潛在通道(FLUX.1使用16個)。它專為高解析度編輯和精細紋理保留而設計。
- 統一生成+編輯
同一架構處理純文字轉圖片、單圖編輯和多參考編輯。
- Guidance蒸餾
FLUX.2 [dev]是guidance蒸餾模型:沒有經典的帶有單獨「條件」和「無條件」通道的CFG。
這對LoRA意味著:
- 核心Transformer巨大。 LoRA秩需要謹慎選擇。
- 文字編碼器很重,對行為至關重要。
- 相同的權重處理T2I和編輯。
- Guidance很特殊。 通常使用
guidance_scale = 1訓練。
2. 您要訓練哪種類型的FLUX.2 LoRA?
使用FLUX.2 [dev]時,您應該首先決定適配器要做什麼。基礎模型在多參考編輯和複雜提示詞跟隨方面已經很強。
Flux 2 dev LoRA 訓練的常見目標:
- 風格LoRA(T2I + 編輯) – 教FLUX.2使用特定的繪畫風格、色彩分級或渲染外觀。
- 角色/身份LoRA – 建模具有一致面部/特徵的特定人物、頭像、吉祥物。
- 物件/道具/品牌LoRA – 捕獲具有嚴格幾何或品牌約束的特定產品、標誌、形狀。
- 指令/編輯LoRA – 改變行為而不是風格。
3. 影響LoRA設定的FLUX.2特定細節
3.1 融合Transformer上的LoRA(秩縮放)
FLUX.2 [dev]將注意力和MLP投影融合到非常寬的矩陣中。這意味著:
- 非常低的秩(4–8)通常感覺太弱。
- 對於FLUX.2 [dev]上的風格或角色LoRA,秩32是VRAM允許時的良好預設值。
- 如果VRAM緊張,可以使用秩8–16。
- 對於複雜的品牌或身份,秩32–64可能有幫助。
在FLUX.2 dev LoRA 微調中,模型通常受益於比舊模型稍高的秩,但您需要付出VRAM和過擬合風險的代價。
3.2 Guidance蒸餾模型:在guidance_scale = 1下訓練
由於FLUX.2 [dev]是guidance蒸餾的,通常的Stable Diffusion「CFG 7–8」直覺不適用。
- 訓練:設定
guidance_scale = 1。 - 推論:2–4範圍內的
guidance_scale效果良好。
3.3 文字編碼器很大(為什麼快取嵌入很重要)
用作FLUX.2文字編碼器的Mistral 24B VLM約有24GB參數。
在AI Toolkit中:
- 使用固定描述且不使用DOP時:開啟Cache Text Embeddings。
- 使用Differential Output Preservation (DOP)時:不能快取文字嵌入。
3.4 自動編碼器和解析度
FLUX.2使用具有32個潛在通道的AutoencoderKLFlux2。實際上,在768–1024解析度下進行AI Toolkit FLUX.2 dev LoRA 訓練可以獲得大部分優勢。
4. FLUX.2 LoRA訓練的硬體和顯存要求
4.1 按顯存級別的建議設定
級別A — 16–24 GB GPU(如4070 Ti、4080、4090)
- 現實範圍:FLUX.2 dev LoRA訓練可行但緊張。Batch Size = 1,896–1024 px。
- 關鍵設定:Low VRAM 開啟,Layer Offloading 開啟,Transformer和Text Encoder設為
float8 (default)。
級別B — 32–48 GB GPU(如RTX 6000 Ada、A6000)
- 現實範圍:訓練變得舒適。在1024×1024下訓練風格和角色LoRA,20–60+圖片,1000–3000步。
- 關鍵設定:Batch Size = 1–2,Steps ≈ 1000–3000,Learning Rate = 0.0001,Linear Rank = 32。
級別C — 64–96+ GB GPU(如RunComfy上的H100、H200)
- 現實範圍:1024×1024,Batch Size = 2–4,DOP預設開啟。
- 關鍵設定:Low VRAM 關閉,Linear Rank = 32–64。
4.2 本機AI Toolkit vs RunComfy雲端AI Toolkit
- 本機AI Toolkit – 從GitHub倉庫安裝。
- RunComfy雲端AI Toolkit – 開啟RunComfy雲端AI Toolkit,在H100/H200 GPU上訓練。
5. 為FLUX.2 LoRA設計資料集
5.1 需要多少圖片?
- 簡單風格LoRA:約15–30張精選圖片。
- 角色/身份LoRA:約20–60張圖片。
- 編輯/指令LoRA:50–200個三元組(來源、目標、指令)。
5.2 描述策略
您在描述中不寫的內容對LoRA來說是「自由的」,可以附加到您的觸發詞上。
風格LoRA:描述圖片中有什麼,不要描述媒介或風格。
角色LoRA:使用簡短獨特的觸發詞(如midnight_tarot)和類別詞(person、woman等)。
5.3 Differential Output Preservation (DOP)
一種正則化策略,當觸發詞不存在時懲罰LoRA的改變。
6. 分步指南:在AI Toolkit中配置FLUX.2 [dev] LoRA訓練
6.1 初始設定
- 安裝AI Toolkit或開啟RunComfy雲端AI Toolkit。
6.2 準備資料集
- 收集圖片並放入
/ai-toolkit/datasets/flux2_midnight_tarot/。 - 新增
.txt描述檔案。在描述中使用[trigger]。
6.3 建立新的訓練任務
6.3.1 JOB面板
- Training Name:如
flux2_midnight_tarot_v1。 - Trigger Word:如
midnight_tarot。
6.3.2 MODEL & QUANTIZATION面板
- Model Architecture:FLUX.2。
- Name or Path:
black-forest-labs/FLUX.2-dev。 - Low VRAM:級別A/B開啟,級別C關閉。
- Transformer和Text Encoder:
float8 (default)。
6.3.3 TARGET面板
- Target Type:
LoRA。 - Linear Rank:32作為良好預設值。
6.3.4 TRAINING & SAVE面板
- Batch Size:24–48GB用
1,64GB+用2。 - Steps:風格800–2000,角色1000–2500,指令1500–3000。
- Learning Rate:
0.0001。 - Optimizer:
AdamW8Bit。 - Cache Text Embeddings:不使用DOP時開啟,使用DOP時關閉。
- Data Type:
BF16。 - Save Every:
250步。
6.3.5 Regularization & Advanced
- Differential Output Preservation:如要保留基礎模型行為則開啟。
- Do Differential Guidance:開啟,Scale
3。
6.3.6 DATASETS面板
- Cache Latents:開啟。
- Resolutions:根據顯存選擇
[768, 896, 1024]。
6.4 預覽取樣配置
- Sample Every:
250步。 - Guidance Scale:
1。 - Prompts:2–4個代表性提示詞。
7. 除錯FLUX.2 LoRA結果並提高品質
7.1 「GatedRepoError / 401」下載FLUX.2-dev時出錯
在Hugging Face上接受授權條款,建立Read權杖並新增到訓練器設定中。
7.2 「1000+步後沒有變化」
- 檢查LoRA是否在取樣中套用。
- 嘗試
Linear Rank = 16–32。 Learning Rate = 0.0001。- 從描述中刪除風格描述詞。
7.3 「我的LoRA覆蓋了基礎模型」
- 開啟Differential Output Preservation。
- 減少到800–1500步。
Linear Rank = 16,Learning Rate = 0.000075。
7.4 「CUDA顯存不足」
- 解析度從1024降到896或768。
- 開啟Gradient checkpointing和accumulation。
- FP8/4-bit量化。
- Cache Latents開啟。
- 遷移到RunComfy的H100/H200。
8. 在推論中使用您的FLUX.2 LoRA
- Run LoRA – 開啟 FLUX.2 Run LoRA 頁面。在這個基礎模型的推論頁面裡,你可以直接選擇你在 RunComfy 上訓練出來的 LoRA 資產,也可以 import 你用 AI Toolkit 訓練好的 LoRA 檔案,接著透過 playground 或 API 進行推論。RunComfy 會使用與你訓練設定一致的 base model,並復用訓練設定裡完整的 AI Toolkit pipeline 定義,所以訓練時看到什麼,推論就得到什麼;這種 training/inference 的強對齊能特別保證推論效果與訓練採樣的一致。
- ComfyUI工作流 – 載入如Flux 2 Dev的工作流。
更多AI Toolkit LoRA訓練指南
Ready to start training?

