FLUX.2 [dev] LoRA训练指南：Ostris AI Toolkit

FLUX.2-dev LoRA训练与训练旧版SD模型有很大不同。FLUX.2 [dev]结合了一个320亿参数的巨型整流流Transformer、240亿参数的Mistral文本编码器和高质量自动编码器，在单一checkpoint中处理文生图和图像编辑。本指南涵盖：

FLUX.2 [dev]的特别之处
这些设计如何影响LoRA训练
如何为不同硬件配置AI Toolkit
如何配置数据集、触发词和参数以获得所需的风格/角色/编辑效果

本文是AI Toolkit LoRA训练系列的一部分。如果您是Ostris AI Toolkit新手，请在深入Flux 2 dev LoRA训练之前先阅读AI Toolkit LoRA训练概述。

1. 理解FLUX.2 [dev]的LoRA训练
2. 您要训练哪种类型的FLUX.2 LoRA？
3. 影响LoRA设置的FLUX.2特定细节
4. FLUX.2 LoRA训练的硬件和显存要求
5. 为FLUX.2 LoRA设计数据集
6. 分步指南：在AI Toolkit中配置FLUX.2 dev LoRA训练
7. 调试FLUX.2 LoRA结果并提高质量
8. 在推理中使用您的FLUX.2 LoRA

1. 理解FLUX.2 [dev]的LoRA训练

在调整参数之前，了解您正在微调的内容会很有帮助。

1.1 高层架构

来自官方FLUX.2-dev模型卡和Black Forest Labs公告：

基础模型
FLUX.2 [dev]是一个320亿参数的整流流Transformer（DiT风格的潜在流模型），从头训练而成，不是FLUX.1的延续。它在单一checkpoint中结合了文生图和图像编辑（单图和多参考）。
文本编码器
FLUX.2 [dev]使用Mistral Small 3.1 / 3.2 – 24B作为视觉语言文本编码器。这是在32B DiT之上额外的24B参数。
自动编码器（VAE）
模型使用新的AutoencoderKLFlux2，具有32个潜在通道（FLUX.1使用16个）。它专为高分辨率编辑和精细纹理保留而设计。
统一生成+编辑
同一架构处理纯文生图、单图编辑和多参考编辑。
Guidance蒸馏
FLUX.2 [dev]是guidance蒸馏模型：没有经典的带有单独"条件"和"无条件"通道的CFG。

这对LoRA意味着：

核心Transformer巨大。 LoRA秩需要谨慎选择。
文本编码器很重，对行为至关重要。
相同的权重处理T2I和编辑。
Guidance很特殊。 通常使用guidance_scale = 1训练。

2. 您要训练哪种类型的FLUX.2 LoRA？

使用FLUX.2 [dev]时，您应该首先决定适配器要做什么。基础模型在多参考编辑和复杂提示词跟随方面已经很强。

FLUX.2 [dev] LoRA训练的常见目标：

风格LoRA（T2I + 编辑） – 教FLUX.2使用特定的绘画风格、色彩分级或渲染外观。
角色/身份LoRA – 建模具有一致面部/特征的特定人物、头像、吉祥物。
物体/道具/品牌LoRA – 捕获具有严格几何或品牌约束的特定产品、标志、形状。
指令/编辑LoRA – 改变行为而不是风格。

3. 影响LoRA设置的FLUX.2特定细节

3.1 融合Transformer上的LoRA（秩缩放）

FLUX.2 [dev]将注意力和MLP投影融合到非常宽的矩阵中。这意味着：

非常低的秩（4–8）通常感觉太弱。
对于FLUX.2 [dev]上的风格或角色LoRA，秩32是VRAM允许时的良好默认值。
如果VRAM紧张，可以使用秩8–16。
对于复杂的品牌或身份，秩32–64可能有帮助。

在FLUX.2-dev LoRA微调中，模型通常受益于比旧模型稍高的秩，但您需要付出VRAM和过拟合风险的代价。

3.2 Guidance蒸馏模型：在`guidance_scale = 1`下训练

由于FLUX.2 [dev]是guidance蒸馏的，通常的Stable Diffusion"CFG 7–8"直觉不适用。

训练：设置guidance_scale = 1。
推理：2–4范围内的guidance_scale效果良好。

3.3 文本编码器很大（为什么缓存嵌入很重要）

用作FLUX.2文本编码器的Mistral 24B VLM约有24GB参数。

在AI Toolkit中：

使用固定描述且不使用DOP时：开启Cache Text Embeddings。
使用Differential Output Preservation (DOP)时：不能缓存文本嵌入。

3.4 自动编码器和分辨率

FLUX.2使用具有32个潜在通道的AutoencoderKLFlux2。实际上，在768–1024分辨率下进行FLUX.2-dev LoRA 训练显存可以获得大部分优势。

4. FLUX.2 LoRA训练的硬件和显存要求

4.1 按显存级别的推荐设置

级别A — 16–24 GB GPU（如4070 Ti、4080、4090）

现实范围：AI Toolkit FLUX.2-dev LoRA训练可行但紧张。Batch Size = 1，896–1024 px。
关键设置：Low VRAM 开启，Layer Offloading 开启，Transformer和Text Encoder设为float8 (default)。

级别B — 32–48 GB GPU（如RTX 6000 Ada、A6000）

现实范围：训练变得舒适。在1024×1024下训练风格和角色LoRA，20–60+图像，1000–3000步。
关键设置：Batch Size = 1–2，Steps ≈ 1000–3000，Learning Rate = 0.0001，Linear Rank = 32。

级别C — 64–96+ GB GPU（如RunComfy上的H100、H200）

现实范围：1024×1024，Batch Size = 2–4，DOP默认开启。
关键设置：Low VRAM 关闭，Linear Rank = 32–64。

4.2 本地AI Toolkit vs RunComfy云端AI Toolkit

本地AI Toolkit – 从GitHub仓库安装。
RunComfy云端AI Toolkit – 打开RunComfy云端AI Toolkit，在H100/H200 GPU上训练。

5. 为FLUX.2 LoRA设计数据集

5.1 需要多少图像？

简单风格LoRA：约15–30张精选图像。
角色/身份LoRA：约20–60张图像。
编辑/指令LoRA：50–200个三元组（源、目标、指令）。

5.2 描述策略

您在描述中不写的内容对LoRA来说是"自由的"，可以附加到您的触发词上。

风格LoRA：描述图像中有什么，不要描述媒介或风格。

角色LoRA：使用简短独特的触发词（如midnight_tarot）和类别词（person、woman等）。

5.3 Differential Output Preservation (DOP)

一种正则化策略，当触发词不存在时惩罚LoRA的改变。

6. 分步指南：在AI Toolkit中配置FLUX.2 [dev] LoRA训练

6.1 初始设置

安装AI Toolkit或打开RunComfy云端AI Toolkit。

6.2 准备数据集

收集图像并放入/ai-toolkit/datasets/flux2_midnight_tarot/。
添加.txt描述文件。在描述中使用[trigger]。

6.3 创建新的训练任务

6.3.1 JOB面板

Training Name：如flux2_midnight_tarot_v1。
Trigger Word：如midnight_tarot。

6.3.2 MODEL & QUANTIZATION面板

Model Architecture：FLUX.2。
Name or Path：black-forest-labs/FLUX.2-dev。
Low VRAM：级别A/B开启，级别C关闭。
Transformer和Text Encoder：float8 (default)。

6.3.3 TARGET面板

Target Type：LoRA。
Linear Rank：32作为良好默认值。

6.3.4 TRAINING & SAVE面板

Batch Size：24–48GB用1，64GB+用2。
Steps：风格800–2000，角色1000–2500，指令1500–3000。
Learning Rate：0.0001。
Optimizer：AdamW8Bit。
Cache Text Embeddings：不使用DOP时开启，使用DOP时关闭。
Data Type：BF16。
Save Every：250步。

6.3.5 Regularization & Advanced

Differential Output Preservation：如要保留基础模型行为则开启。
Do Differential Guidance：开启，Scale 3。

6.3.6 DATASETS面板

Cache Latents：开启。
Resolutions：根据显存选择[768, 896, 1024]。

6.4 预览采样配置

Sample Every：250步。
Guidance Scale：1。
Prompts：2–4个代表性提示词。

7. 调试FLUX.2 LoRA结果并提高质量

7.1 "GatedRepoError / 401"下载FLUX.2-dev时出错

在Hugging Face上接受许可证，创建Read令牌并添加到训练器设置中。

7.2 "1000+步后没有变化"

检查LoRA是否在采样中应用。
尝试Linear Rank = 16–32。
Learning Rate = 0.0001。
从描述中删除风格描述词。

7.3 "我的LoRA覆盖了基础模型"

开启Differential Output Preservation。
减少到800–1500步。
Linear Rank = 16，Learning Rate = 0.000075。

7.4 "CUDA显存不足"

分辨率从1024降到896或768。
开启Gradient checkpointing和accumulation。
FP8/4-bit量化。
Cache Latents开启。
迁移到RunComfy的H100/H200。

8. 在推理中使用您的FLUX.2 LoRA

Run LoRA – 打开 FLUX.2 Run LoRA 页面。在这个基础模型的推理页面里，你可以直接选择你在 RunComfy 上训练出来的 LoRA 资产，也可以 import 你用 AI Toolkit 训练好的 LoRA 文件，然后通过 playground 或 API 进行推理。RunComfy 会使用与你训练配置一致的 base model，并复用训练配置里的完整 AI Toolkit pipeline 定义，所以训练时看到什么，推理就得到什么；这种 training/inference 的强对齐能特别保证推理效果与训练采样的一致。
ComfyUI工作流 – 加载如Flux 2 Dev的工作流。

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

目录