O Treinamento LoRA FLUX.2 [dev] é muito diferente de treinar modelos SD antigos. FLUX.2 [dev] combina um enorme transformer de fluxo retificado com 32B parâmetros, um codificador de texto Mistral de 24B e um autoencoder de alta qualidade, lidando com texto-para-imagem e edição de imagens em um único checkpoint. Este guia aborda:
- O que torna FLUX.2 [dev] especial
- Como essas escolhas de design afetam o treinamento LoRA
- Como configurar o AI Toolkit para diferentes níveis de hardware
- Como configurar datasets, triggers e parâmetros para obter o estilo / personagem / comportamento de edição desejado
Este artigo faz parte da série de treinamento LoRA do AI Toolkit. Se você é novo no Ostris AI Toolkit, comece com a visão geral do treinamento LoRA do AI Toolkit antes de mergulhar em como treinar LoRA no FLUX.2 [dev].
Índice
- 1. Entendendo FLUX.2 [dev] para treinamento LoRA
- 2. Que tipo de FLUX.2 LoRA você está treinando?
- 3. Detalhes específicos do FLUX.2 que alteram as configurações LoRA
- 4. Requisitos de hardware e VRAM para treinamento LoRA FLUX.2
- 5. Projetando datasets para FLUX.2 LoRA
- 6. Passo a passo: configurar treinamento LoRA FLUX.2 dev no AI Toolkit
- 7. Depurar resultados LoRA FLUX.2 e melhorar qualidade
- 8. Usando seu FLUX.2 LoRA em inferência
1. Entendendo FLUX.2 [dev] para treinamento LoRA
Antes de mexer nos controles, ajuda entender o que você está ajustando finamente.
1.1 Arquitetura de alto nível
Da ficha oficial do modelo FLUX.2-dev e do anúncio do Black Forest Labs:
- Modelo base
FLUX.2 [dev]é um transformer de fluxo retificado de 32B parâmetros (um modelo de fluxo latente estilo DiT) treinado do zero. Combina geração texto-para-imagem e edição de imagens (imagem única e multi-referência) em um único checkpoint. - Codificador de texto
FLUX.2 [dev] usa Mistral Small 3.1 / 3.2 – 24B como codificador de texto visão-linguagem. São outros 24B parâmetros além dos 32B do DiT.
- Autoencoder (VAE)
O modelo usa um novo AutoencoderKLFlux2 com 32 canais latentes (FLUX.1 usava 16). É projetado para edição de alta resolução e preservação fina de texturas.
- Geração + edição unificadas
A mesma arquitetura lida com texto-para-imagem puro, edição de imagem única e edição multi-referência.
- Guidance destilado
FLUX.2 [dev] é um modelo guidance-destilado: não há guidance clássico sem classificador com passes separados.
O que isso significa para LoRA:
- O transformer central é enorme. O rank LoRA deve ser escolhido com cuidado.
- O codificador de texto é pesado e central para o comportamento.
- Os mesmos pesos lidam com T2I e edição.
- O guidance é especial. Você treina normalmente com
guidance_scale = 1.
2. Que tipo de FLUX.2 LoRA você está treinando?
Com FLUX.2 [dev], você deve primeiro decidir o que quer que o adaptador faça. O modelo base já é forte em edição multi-referência e seguir prompts complexos.
Objetivos comuns ao como treinar LoRA FLUX.2 dev:
- LoRA de estilo (T2I + edição) – Ensinar ao FLUX.2 um estilo de pintura específico, gradação de cor ou look de render.
- LoRA de personagem / identidade – Modelar uma pessoa específica com rostos/características consistentes.
- LoRA de objeto / prop / marca – Capturar produtos específicos, logos ou formas.
- LoRA de instrução / edição – Mudar comportamento em vez de estilo.
3. Detalhes específicos do FLUX.2 que alteram as configurações LoRA
3.1 LoRA em um transformer fundido (escalonamento de rank)
FLUX.2 [dev] funde projeções de atenção e MLP em matrizes muito largas. Isso significa:
- Ranks muito baixos (4–8) frequentemente parecem fracos demais.
- Para LoRAs de estilo ou personagem no FLUX.2 [dev], rank 32 é um bom padrão.
- Se VRAM é apertado, use rank 8–16.
- Para marcas ou identidades complexas, rank 32–64 pode ajudar.
No FLUX 2 dev treinamento LoRA, o modelo geralmente se beneficia de ranks um pouco mais altos que modelos antigos, mas você paga em VRAM e risco de overfitting.
3.2 Modelo guidance-destilado: treinamento em guidance_scale = 1
- Treinamento: defina
guidance_scale = 1. - Inferência:
guidance_scalena faixa 2–4 funciona bem.
3.3 O codificador de texto é enorme (e por que o cache de embeddings importa)
O Mistral 24B VLM usado como codificador de texto do FLUX.2 é cerca de 24GB de parâmetros.
No AI Toolkit:
- Com legendas fixas e sem DOP: Ative Cache Text Embeddings.
- Com Differential Output Preservation (DOP): Não pode cachear embeddings de texto.
3.4 Autoencoder e resolução
FLUX.2 usa AutoencoderKLFlux2 com 32 canais latentes. Na prática, FLUX.2-dev LoRA treinamento em 768–1024 captura a maioria dos benefícios.
4. Requisitos de hardware e VRAM para treinamento LoRA FLUX.2
4.1 Configurações recomendadas por nível de VRAM
Nível A — GPU 16–24 GB (ex: 4070 Ti, 4080, 4090)
- O que é realista: AI Toolkit FLUX.2 dev LoRA possível mas apertado. Batch Size = 1, 896–1024 px.
- Configurações chave: Low VRAM LIGADO, Layer Offloading LIGADO, Transformer e Text Encoder em
float8 (default).
Nível B — GPU 32–48 GB (ex: RTX 6000 Ada, A6000)
- O que é realista: Treinamento se sente confortável. LoRAs de estilo e personagem em 1024×1024, 20–60+ imagens, 1000–3000 passos.
- Configurações chave: Batch Size = 1–2, Steps ≈ 1000–3000, Learning Rate = 0.0001, Linear Rank = 32.
Nível C — GPU 64–96+ GB (ex: H100, H200 no RunComfy)
- O que é realista: 1024×1024, Batch Size = 2–4, DOP LIGADO por padrão.
- Configurações chave: Low VRAM DESLIGADO, Linear Rank = 32–64.
4.2 AI Toolkit local vs. AI Toolkit cloud no RunComfy
- Local com AI Toolkit – instale do repositório GitHub.
- AI Toolkit cloud no RunComfy – abra o AI Toolkit cloud no RunComfy e treine em GPUs H100/H200.
5. Projetando datasets para FLUX.2 LoRA
5.1 Quantas imagens?
- LoRA de estilo simples: cerca de 15–30 imagens curadas.
- LoRA de personagem/identidade: cerca de 20–60 imagens.
- LoRA de edição/instrução: 50–200 triplos (fonte, alvo, instrução).
5.2 Estratégia de legendas
O que você não descreve na legenda está "livre" para o LoRA anexar ao seu trigger.
LoRA de estilo: descreva o que está na imagem, não o meio ou estilo.
LoRA de personagem: use um trigger único curto (ex: midnight_tarot) e uma palavra de classe (person, woman, etc.).
5.3 Differential Output Preservation (DOP)
Estratégia de regularização que penaliza o LoRA por mudar coisas quando o trigger não está presente.
6. Passo a passo: configurar treinamento LoRA FLUX.2 [dev] no AI Toolkit
6.1 Configuração inicial
- Instale o AI Toolkit ou abra o AI Toolkit cloud no RunComfy.
6.2 Prepare o dataset
- Colete imagens e coloque em
/ai-toolkit/datasets/flux2_midnight_tarot/. - Adicione arquivos de legenda
.txt. Use[trigger]nas legendas.
6.3 Criar novo job de treinamento
6.3.1 Painel JOB
- Training Name: ex:
flux2_midnight_tarot_v1. - Trigger Word: ex:
midnight_tarot.
6.3.2 Painéis MODEL & QUANTIZATION
- Model Architecture: FLUX.2.
- Name or Path:
black-forest-labs/FLUX.2-dev. - Low VRAM: LIGADO para Nível A/B, DESLIGADO para Nível C.
- Transformer e Text Encoder:
float8 (default).
6.3.3 Painel TARGET
- Target Type:
LoRA. - Linear Rank: 32 como bom padrão.
6.3.4 Painéis TRAINING & SAVE
- Batch Size:
1em 24–48GB,2em 64GB+. - Steps: estilo 800–2000, personagem 1000–2500, instrução 1500–3000.
- Learning Rate:
0.0001. - Optimizer:
AdamW8Bit. - Cache Text Embeddings: LIGADO sem DOP, DESLIGADO com DOP.
- Data Type:
BF16. - Save Every:
250passos.
6.3.5 Regularization & Advanced
- Differential Output Preservation: LIGADO se quiser preservar comportamento base.
- Do Differential Guidance: LIGADO, Scale
3.
6.3.6 Painel DATASETS
- Cache Latents: LIGADO.
- Resolutions:
[768, 896, 1024]conforme VRAM.
6.4 Configuração de amostragem de preview
- Sample Every:
250passos. - Guidance Scale:
1. - Prompts: 2–4 prompts representativos.
7. Depurar resultados LoRA FLUX.2 e melhorar qualidade
7.1 "GatedRepoError / 401" ao baixar FLUX.2-dev
Aceite a licença no Hugging Face, crie um token Read e adicione nas configurações do trainer.
7.2 "Nada muda após 1000+ passos"
- Verifique se o LoRA está aplicado na amostragem.
- Tente
Linear Rank = 16–32. Learning Rate = 0.0001.- Remova descritores de estilo das legendas.
7.3 "Meu LoRA sobrescreveu o modelo base"
- Ative Differential Output Preservation.
- Reduza para 800–1500 passos.
Linear Rank = 16,Learning Rate = 0.000075.
7.4 "CUDA out of memory"
- Resolução de 1024 → 896 ou 768.
- Gradient checkpointing e accumulation.
- Quantização FP8/4-bit.
- Cache Latents LIGADO.
- Migre para H100/H200 no RunComfy.
8. Usando seu FLUX.2 LoRA em inferência
- Model playground – abra o FLUX.2 LoRA playground.
- Workflows ComfyUI – carregue um workflow como Flux 2 Dev.
Mais guias de treinamento LoRA do AI Toolkit
- Treinamento LoRA Z-Image Turbo com AI Toolkit
- Treinamento LoRA LTX-2 com AI Toolkit
- Treinamento LoRA Qwen-Image-Edit-2511 com AI Toolkit
- Treinamento LoRA Qwen-Image-Edit-2509 com AI Toolkit
- Treinamento LoRA Wan 2.2 I2V 14B imagem-para-vídeo
- Treinamento LoRA Wan 2.2 T2V 14B texto-para-vídeo
- Treinamento LoRA Qwen Image 2512
Ready to start training?

