Guia de Treinamento LoRA FLUX.2 [dev] com Ostris AI Toolkit

O Treinamento LoRA FLUX.2 [dev] é muito diferente de treinar modelos SD antigos. FLUX.2 [dev] combina um enorme transformer de fluxo retificado com 32B parâmetros, um codificador de texto Mistral de 24B e um autoencoder de alta qualidade, lidando com texto-para-imagem e edição de imagens em um único checkpoint. Este guia aborda:

O que torna FLUX.2 [dev] especial
Como essas escolhas de design afetam o treinamento LoRA
Como configurar o AI Toolkit para diferentes níveis de hardware
Como configurar datasets, triggers e parâmetros para obter o estilo / personagem / comportamento de edição desejado

Este artigo faz parte da série de treinamento LoRA do AI Toolkit. Se você é novo no Ostris AI Toolkit, comece com a visão geral do treinamento LoRA do AI Toolkit antes de mergulhar em como treinar LoRA no FLUX.2 [dev].

Índice

1. Entendendo FLUX.2 [dev] para treinamento LoRA
2. Que tipo de FLUX.2 LoRA você está treinando?
3. Detalhes específicos do FLUX.2 que alteram as configurações LoRA
4. Requisitos de hardware e VRAM para treinamento LoRA FLUX.2
5. Projetando datasets para FLUX.2 LoRA
6. Passo a passo: configurar treinamento LoRA FLUX.2 dev no AI Toolkit
7. Depurar resultados LoRA FLUX.2 e melhorar qualidade
8. Usando seu FLUX.2 LoRA em inferência

1. Entendendo FLUX.2 [dev] para treinamento LoRA

Antes de mexer nos controles, ajuda entender o que você está ajustando finamente.

1.1 Arquitetura de alto nível

Da ficha oficial do modelo FLUX.2-dev e do anúncio do Black Forest Labs:

Modelo base
FLUX.2 [dev] é um transformer de fluxo retificado de 32B parâmetros (um modelo de fluxo latente estilo DiT) treinado do zero. Combina geração texto-para-imagem e edição de imagens (imagem única e multi-referência) em um único checkpoint.
Codificador de texto
FLUX.2 [dev] usa Mistral Small 3.1 / 3.2 – 24B como codificador de texto visão-linguagem. São outros 24B parâmetros além dos 32B do DiT.
Autoencoder (VAE)
O modelo usa um novo AutoencoderKLFlux2 com 32 canais latentes (FLUX.1 usava 16). É projetado para edição de alta resolução e preservação fina de texturas.
Geração + edição unificadas
A mesma arquitetura lida com texto-para-imagem puro, edição de imagem única e edição multi-referência.
Guidance destilado
FLUX.2 [dev] é um modelo guidance-destilado: não há guidance clássico sem classificador com passes separados.

O que isso significa para LoRA:

O transformer central é enorme. O rank LoRA deve ser escolhido com cuidado.
O codificador de texto é pesado e central para o comportamento.
Os mesmos pesos lidam com T2I e edição.
O guidance é especial. Você treina normalmente com guidance_scale = 1.

2. Que tipo de FLUX.2 LoRA você está treinando?

Com FLUX.2 [dev], você deve primeiro decidir o que quer que o adaptador faça. O modelo base já é forte em edição multi-referência e seguir prompts complexos.

Objetivos comuns ao como treinar LoRA FLUX.2 dev:

LoRA de estilo (T2I + edição) – Ensinar ao FLUX.2 um estilo de pintura específico, gradação de cor ou look de render.
LoRA de personagem / identidade – Modelar uma pessoa específica com rostos/características consistentes.
LoRA de objeto / prop / marca – Capturar produtos específicos, logos ou formas.
LoRA de instrução / edição – Mudar comportamento em vez de estilo.

3. Detalhes específicos do FLUX.2 que alteram as configurações LoRA

3.1 LoRA em um transformer fundido (escalonamento de rank)

FLUX.2 [dev] funde projeções de atenção e MLP em matrizes muito largas. Isso significa:

Ranks muito baixos (4–8) frequentemente parecem fracos demais.
Para LoRAs de estilo ou personagem no FLUX.2 [dev], rank 32 é um bom padrão.
Se VRAM é apertado, use rank 8–16.
Para marcas ou identidades complexas, rank 32–64 pode ajudar.

No FLUX 2 dev treinamento LoRA, o modelo geralmente se beneficia de ranks um pouco mais altos que modelos antigos, mas você paga em VRAM e risco de overfitting.

3.2 Modelo guidance-destilado: treinamento em `guidance_scale = 1`

Treinamento: defina guidance_scale = 1.
Inferência: guidance_scale na faixa 2–4 funciona bem.

3.3 O codificador de texto é enorme (e por que o cache de embeddings importa)

O Mistral 24B VLM usado como codificador de texto do FLUX.2 é cerca de 24GB de parâmetros.

No AI Toolkit:

Com legendas fixas e sem DOP: Ative Cache Text Embeddings.
Com Differential Output Preservation (DOP): Não pode cachear embeddings de texto.

3.4 Autoencoder e resolução

FLUX.2 usa AutoencoderKLFlux2 com 32 canais latentes. Na prática, FLUX.2-dev LoRA treinamento em 768–1024 captura a maioria dos benefícios.

4. Requisitos de hardware e VRAM para treinamento LoRA FLUX.2

4.1 Configurações recomendadas por nível de VRAM

Nível A — GPU 16–24 GB (ex: 4070 Ti, 4080, 4090)

O que é realista: AI Toolkit FLUX.2 dev LoRA possível mas apertado. Batch Size = 1, 896–1024 px.
Configurações chave: Low VRAM LIGADO, Layer Offloading LIGADO, Transformer e Text Encoder em float8 (default).

Nível B — GPU 32–48 GB (ex: RTX 6000 Ada, A6000)

O que é realista: Treinamento se sente confortável. LoRAs de estilo e personagem em 1024×1024, 20–60+ imagens, 1000–3000 passos.
Configurações chave: Batch Size = 1–2, Steps ≈ 1000–3000, Learning Rate = 0.0001, Linear Rank = 32.

Nível C — GPU 64–96+ GB (ex: H100, H200 no RunComfy)

O que é realista: 1024×1024, Batch Size = 2–4, DOP LIGADO por padrão.
Configurações chave: Low VRAM DESLIGADO, Linear Rank = 32–64.

4.2 AI Toolkit local vs. AI Toolkit cloud no RunComfy

Local com AI Toolkit – instale do repositório GitHub.
AI Toolkit cloud no RunComfy – abra o AI Toolkit cloud no RunComfy e treine em GPUs H100/H200.

5. Projetando datasets para FLUX.2 LoRA

5.1 Quantas imagens?

LoRA de estilo simples: cerca de 15–30 imagens curadas.
LoRA de personagem/identidade: cerca de 20–60 imagens.
LoRA de edição/instrução: 50–200 triplos (fonte, alvo, instrução).

5.2 Estratégia de legendas

O que você não descreve na legenda está "livre" para o LoRA anexar ao seu trigger.

LoRA de estilo: descreva o que está na imagem, não o meio ou estilo.

LoRA de personagem: use um trigger único curto (ex: midnight_tarot) e uma palavra de classe (person, woman, etc.).

5.3 Differential Output Preservation (DOP)

Estratégia de regularização que penaliza o LoRA por mudar coisas quando o trigger não está presente.

6. Passo a passo: configurar treinamento LoRA FLUX.2 [dev] no AI Toolkit

6.1 Configuração inicial

Instale o AI Toolkit ou abra o AI Toolkit cloud no RunComfy.

6.2 Prepare o dataset

Colete imagens e coloque em /ai-toolkit/datasets/flux2_midnight_tarot/.
Adicione arquivos de legenda .txt. Use [trigger] nas legendas.

6.3 Criar novo job de treinamento

6.3.1 Painel JOB

Training Name: ex: flux2_midnight_tarot_v1.
Trigger Word: ex: midnight_tarot.

6.3.2 Painéis MODEL & QUANTIZATION

Model Architecture: FLUX.2.
Name or Path: black-forest-labs/FLUX.2-dev.
Low VRAM: LIGADO para Nível A/B, DESLIGADO para Nível C.
Transformer e Text Encoder: float8 (default).

6.3.3 Painel TARGET

Target Type: LoRA.
Linear Rank: 32 como bom padrão.

6.3.4 Painéis TRAINING & SAVE

Batch Size: 1 em 24–48GB, 2 em 64GB+.
Steps: estilo 800–2000, personagem 1000–2500, instrução 1500–3000.
Learning Rate: 0.0001.
Optimizer: AdamW8Bit.
Cache Text Embeddings: LIGADO sem DOP, DESLIGADO com DOP.
Data Type: BF16.
Save Every: 250 passos.

6.3.5 Regularization & Advanced

Differential Output Preservation: LIGADO se quiser preservar comportamento base.
Do Differential Guidance: LIGADO, Scale 3.

6.3.6 Painel DATASETS

Cache Latents: LIGADO.
Resolutions: [768, 896, 1024] conforme VRAM.

6.4 Configuração de amostragem de preview

Sample Every: 250 passos.
Guidance Scale: 1.
Prompts: 2–4 prompts representativos.

7. Depurar resultados LoRA FLUX.2 e melhorar qualidade

7.1 "GatedRepoError / 401" ao baixar FLUX.2-dev

Aceite a licença no Hugging Face, crie um token Read e adicione nas configurações do trainer.

7.2 "Nada muda após 1000+ passos"

Verifique se o LoRA está aplicado na amostragem.
Tente Linear Rank = 16–32.
Learning Rate = 0.0001.
Remova descritores de estilo das legendas.

7.3 "Meu LoRA sobrescreveu o modelo base"

Ative Differential Output Preservation.
Reduza para 800–1500 passos.
Linear Rank = 16, Learning Rate = 0.000075.

7.4 "CUDA out of memory"

Resolução de 1024 → 896 ou 768.
Gradient checkpointing e accumulation.
Quantização FP8/4-bit.
Cache Latents LIGADO.
Migre para H100/H200 no RunComfy.

8. Usando seu FLUX.2 LoRA em inferência

Run LoRA – abra a página Run LoRA do FLUX.2. Nesta página de inferência do modelo base, você pode selecionar um asset de LoRA que treinou no RunComfy ou importar um arquivo LoRA treinado no AI Toolkit, e então rodar a inferência pelo playground ou pela API. O RunComfy usa o mesmo modelo base e a definição completa do pipeline do AI Toolkit da sua config de treino, então o que você viu durante o training é o que você obtém na inferência — esse alinhamento training/inference ajuda a manter resultados consistentes com os seus samples de treino.
Workflows ComfyUI – carregue um workflow como Flux 2 Dev.

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample