AI Toolkit LoRA Training Guides

Guia de Treinamento LoRA FLUX.2 [dev] com Ostris AI Toolkit

Este artigo mostra, passo a passo, como fazer fine-tuning do FLUX.2 [dev] com LoRA usando o Ostris AI Toolkit. Você verá o que torna o FLUX.2 único, como seu dual transformer e text encoder afetam rank e VRAM, e como montar datasets e configs que funcionam de GPUs de 24GB até H100/H200, tanto localmente quanto na nuvem.

Train Diffusion Models with Ostris AI Toolkit

Role horizontalmente para ver o formulário completo

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

O Treinamento LoRA FLUX.2 [dev] é muito diferente de treinar modelos SD antigos. FLUX.2 [dev] combina um enorme transformer de fluxo retificado com 32B parâmetros, um codificador de texto Mistral de 24B e um autoencoder de alta qualidade, lidando com texto-para-imagem e edição de imagens em um único checkpoint. Este guia aborda:

  • O que torna FLUX.2 [dev] especial
  • Como essas escolhas de design afetam o treinamento LoRA
  • Como configurar o AI Toolkit para diferentes níveis de hardware
  • Como configurar datasets, triggers e parâmetros para obter o estilo / personagem / comportamento de edição desejado

Este artigo faz parte da série de treinamento LoRA do AI Toolkit. Se você é novo no Ostris AI Toolkit, comece com a visão geral do treinamento LoRA do AI Toolkit antes de mergulhar em como treinar LoRA no FLUX.2 [dev].

Índice


1. Entendendo FLUX.2 [dev] para treinamento LoRA

Antes de mexer nos controles, ajuda entender o que você está ajustando finamente.

1.1 Arquitetura de alto nível

Da ficha oficial do modelo FLUX.2-dev e do anúncio do Black Forest Labs:

  • Modelo base

    FLUX.2 [dev] é um transformer de fluxo retificado de 32B parâmetros (um modelo de fluxo latente estilo DiT) treinado do zero. Combina geração texto-para-imagem e edição de imagens (imagem única e multi-referência) em um único checkpoint.

  • Codificador de texto

    FLUX.2 [dev] usa Mistral Small 3.1 / 3.2 – 24B como codificador de texto visão-linguagem. São outros 24B parâmetros além dos 32B do DiT.

  • Autoencoder (VAE)

    O modelo usa um novo AutoencoderKLFlux2 com 32 canais latentes (FLUX.1 usava 16). É projetado para edição de alta resolução e preservação fina de texturas.

  • Geração + edição unificadas

    A mesma arquitetura lida com texto-para-imagem puro, edição de imagem única e edição multi-referência.

  • Guidance destilado

    FLUX.2 [dev] é um modelo guidance-destilado: não há guidance clássico sem classificador com passes separados.

O que isso significa para LoRA:

  1. O transformer central é enorme. O rank LoRA deve ser escolhido com cuidado.
  2. O codificador de texto é pesado e central para o comportamento.
  3. Os mesmos pesos lidam com T2I e edição.
  4. O guidance é especial. Você treina normalmente com guidance_scale = 1.

2. Que tipo de FLUX.2 LoRA você está treinando?

Com FLUX.2 [dev], você deve primeiro decidir o que quer que o adaptador faça. O modelo base já é forte em edição multi-referência e seguir prompts complexos.

Objetivos comuns ao como treinar LoRA FLUX.2 dev:

  1. LoRA de estilo (T2I + edição) – Ensinar ao FLUX.2 um estilo de pintura específico, gradação de cor ou look de render.
  2. LoRA de personagem / identidade – Modelar uma pessoa específica com rostos/características consistentes.
  3. LoRA de objeto / prop / marca – Capturar produtos específicos, logos ou formas.
  4. LoRA de instrução / edição – Mudar comportamento em vez de estilo.

3. Detalhes específicos do FLUX.2 que alteram as configurações LoRA

3.1 LoRA em um transformer fundido (escalonamento de rank)

FLUX.2 [dev] funde projeções de atenção e MLP em matrizes muito largas. Isso significa:

  • Ranks muito baixos (4–8) frequentemente parecem fracos demais.
  • Para LoRAs de estilo ou personagem no FLUX.2 [dev], rank 32 é um bom padrão.
  • Se VRAM é apertado, use rank 8–16.
  • Para marcas ou identidades complexas, rank 32–64 pode ajudar.

No FLUX 2 dev treinamento LoRA, o modelo geralmente se beneficia de ranks um pouco mais altos que modelos antigos, mas você paga em VRAM e risco de overfitting.


3.2 Modelo guidance-destilado: treinamento em guidance_scale = 1

  • Treinamento: defina guidance_scale = 1.
  • Inferência: guidance_scale na faixa 2–4 funciona bem.

3.3 O codificador de texto é enorme (e por que o cache de embeddings importa)

O Mistral 24B VLM usado como codificador de texto do FLUX.2 é cerca de 24GB de parâmetros.

No AI Toolkit:

  • Com legendas fixas e sem DOP: Ative Cache Text Embeddings.
  • Com Differential Output Preservation (DOP): Não pode cachear embeddings de texto.

3.4 Autoencoder e resolução

FLUX.2 usa AutoencoderKLFlux2 com 32 canais latentes. Na prática, FLUX.2-dev LoRA treinamento em 768–1024 captura a maioria dos benefícios.


4. Requisitos de hardware e VRAM para treinamento LoRA FLUX.2

4.1 Configurações recomendadas por nível de VRAM

Nível A — GPU 16–24 GB (ex: 4070 Ti, 4080, 4090)

  • O que é realista: AI Toolkit FLUX.2 dev LoRA possível mas apertado. Batch Size = 1, 896–1024 px.
  • Configurações chave: Low VRAM LIGADO, Layer Offloading LIGADO, Transformer e Text Encoder em float8 (default).

Nível B — GPU 32–48 GB (ex: RTX 6000 Ada, A6000)

  • O que é realista: Treinamento se sente confortável. LoRAs de estilo e personagem em 1024×1024, 20–60+ imagens, 1000–3000 passos.
  • Configurações chave: Batch Size = 1–2, Steps ≈ 1000–3000, Learning Rate = 0.0001, Linear Rank = 32.

Nível C — GPU 64–96+ GB (ex: H100, H200 no RunComfy)

  • O que é realista: 1024×1024, Batch Size = 2–4, DOP LIGADO por padrão.
  • Configurações chave: Low VRAM DESLIGADO, Linear Rank = 32–64.

4.2 AI Toolkit local vs. AI Toolkit cloud no RunComfy


5. Projetando datasets para FLUX.2 LoRA

5.1 Quantas imagens?

  • LoRA de estilo simples: cerca de 15–30 imagens curadas.
  • LoRA de personagem/identidade: cerca de 20–60 imagens.
  • LoRA de edição/instrução: 50–200 triplos (fonte, alvo, instrução).

5.2 Estratégia de legendas

O que você não descreve na legenda está "livre" para o LoRA anexar ao seu trigger.

LoRA de estilo: descreva o que está na imagem, não o meio ou estilo.

LoRA de personagem: use um trigger único curto (ex: midnight_tarot) e uma palavra de classe (person, woman, etc.).

5.3 Differential Output Preservation (DOP)

Estratégia de regularização que penaliza o LoRA por mudar coisas quando o trigger não está presente.


6. Passo a passo: configurar treinamento LoRA FLUX.2 [dev] no AI Toolkit

6.1 Configuração inicial

6.2 Prepare o dataset

  • Colete imagens e coloque em /ai-toolkit/datasets/flux2_midnight_tarot/.
  • Adicione arquivos de legenda .txt. Use [trigger] nas legendas.

6.3 Criar novo job de treinamento

6.3.1 Painel JOB

  • Training Name: ex: flux2_midnight_tarot_v1.
  • Trigger Word: ex: midnight_tarot.

6.3.2 Painéis MODEL & QUANTIZATION

  • Model Architecture: FLUX.2.
  • Name or Path: black-forest-labs/FLUX.2-dev.
  • Low VRAM: LIGADO para Nível A/B, DESLIGADO para Nível C.
  • Transformer e Text Encoder: float8 (default).

6.3.3 Painel TARGET

  • Target Type: LoRA.
  • Linear Rank: 32 como bom padrão.

6.3.4 Painéis TRAINING & SAVE

  • Batch Size: 1 em 24–48GB, 2 em 64GB+.
  • Steps: estilo 800–2000, personagem 1000–2500, instrução 1500–3000.
  • Learning Rate: 0.0001.
  • Optimizer: AdamW8Bit.
  • Cache Text Embeddings: LIGADO sem DOP, DESLIGADO com DOP.
  • Data Type: BF16.
  • Save Every: 250 passos.

6.3.5 Regularization & Advanced

  • Differential Output Preservation: LIGADO se quiser preservar comportamento base.
  • Do Differential Guidance: LIGADO, Scale 3.

6.3.6 Painel DATASETS

  • Cache Latents: LIGADO.
  • Resolutions: [768, 896, 1024] conforme VRAM.

6.4 Configuração de amostragem de preview

  • Sample Every: 250 passos.
  • Guidance Scale: 1.
  • Prompts: 2–4 prompts representativos.

7. Depurar resultados LoRA FLUX.2 e melhorar qualidade

7.1 "GatedRepoError / 401" ao baixar FLUX.2-dev

Aceite a licença no Hugging Face, crie um token Read e adicione nas configurações do trainer.

7.2 "Nada muda após 1000+ passos"

  • Verifique se o LoRA está aplicado na amostragem.
  • Tente Linear Rank = 16–32.
  • Learning Rate = 0.0001.
  • Remova descritores de estilo das legendas.

7.3 "Meu LoRA sobrescreveu o modelo base"

  • Ative Differential Output Preservation.
  • Reduza para 800–1500 passos.
  • Linear Rank = 16, Learning Rate = 0.000075.

7.4 "CUDA out of memory"

  • Resolução de 1024 → 896 ou 768.
  • Gradient checkpointing e accumulation.
  • Quantização FP8/4-bit.
  • Cache Latents LIGADO.
  • Migre para H100/H200 no RunComfy.

8. Usando seu FLUX.2 LoRA em inferência


Mais guias de treinamento LoRA do AI Toolkit

Ready to start training?