Guias de treinamento LoRA com AI Toolkit

FLUX.2 Klein 9B LoRA de Personagem Alta Semelhança: Configurações que Importam

Guia sem chutes para treinamento de LoRA de personagem FLUX.2 Klein 9B. Cobre a fórmula repeats-per-image, defaults de boas práticas para batch size, gradient accumulation, learning rate, rank, resolução, captions e sampling Base correto para previews.

Treine modelos de difusão com Ostris AI Toolkit

FLUX.2 Klein 9B High‑Likeness Character LoRA (AI Toolkit): o que realmente importa (e o que você deve digitar)

Se você está treinando uma LoRA de personagem / identidade no FLUX.2 Klein 9B Base e vive perguntando:

  • “O que Num Repeats realmente faz?”
  • “Como eu calculo Training Steps?”
  • “Se eu mudar Gradient Accumulation, também preciso mudar Steps?”
  • “Quais outras configurações mais importam para high likeness?”

Este tutorial é a resposta “sem chute”.


0) O motivo #1 de confusão: existem DOIS “steps”

O AI Toolkit mostra Training Steps e você também verá Sample Steps (preview / inference).

  • Training → Steps = por quanto tempo o otimizador treina (é o contador de parada).
  • Sample Steps (preview / inference) = quantos steps de denoising são usados para renderizar imagens de amostra.

Não misture as duas coisas.

Se alguém disser “28 steps é o sweet spot”, pode estar falando de inference/sample steps, não da duração do treinamento.

Para Base Klein, não julgue sua LoRA usando poucos sample steps. Para preview, use um sampling adequado à Base (mais abaixo).


1) A única métrica que você deve otimizar: “repeats per image” (dose de treinamento)

Para LoRAs de personagem com alta semelhança, você quer que cada imagem de treino seja “vista” aproximadamente:

  • 50–90 repetições por imagem = treino normal de identidade de personagem
  • 90–120 repetições por imagem = empurrão de alta semelhança (trava de identidade mais forte)

A fórmula (copy/paste)

Considere:

  • N = número de imagens de treino
  • B = batch size
  • G = gradient accumulation
  • S = training steps

Então:

Repeats per image


repeats_per_image ≈ (S × B × G) / N

Steps you should enter


S ≈ ceil( N × target_repeats / (B × G) )

✅ Se você mudar Gradient Accumulation, seus Steps precisam mudar para manter a mesma dose de treinamento.


2) “O que eu devo colocar?” (defaults de boas práticas para alta semelhança)

A) Training panel (maior impacto)

Use como ponto de partida:

  • Batch Size: 1
  • Gradient Accumulation: 1 (melhor semelhança)
    • Se a VRAM estiver apertada, use 2–4 e reduza Steps proporcionalmente.
  • Learning Rate: comece em 1e-4
    • Se o treino ficar instável / “collapses”, teste 5e-5
  • Steps: calcule com a fórmula acima (não chute)
  • Optimizer / timestep settings: mantenha os defaults no começo (mude só se estiver debugando)

B) Target panel (capacidade da LoRA)

  • Linear Rank (9B Base): comece em 16
    • Se estiver claramente underfitting e o treino estiver estável, teste 32
    • Se houver instabilidade/collapse, volte para 16

C) Dataset panel (supervisão por texto = controle de identidade)

Para LoRAs de personagem:

  • Default Caption: photo of [trigger]
  • Caption Dropout Rate: 0.05 (em alguns setups ajuda a evitar “caption overfitting”)
  • Resolutions: use 1024 como padrão para Klein quando possível
    • Adicione 768 apenas se você quiser mais flexibilidade entre tamanhos.

D) Sample panel (como fazer preview corretamente)

Se sua LoRA parece “fraca” nas amostras, muitas vezes não é o treino — é o sampling.

Para Base Klein, use configurações de preview como:

  • Sample Steps: ~50
  • Guidance / CFG: ~4

Depois compare os checkpoints novamente.


3) O exemplo de “55 imagens” (números reais)

Digamos que você tenha:

  • N = 55 imagens
  • target repeats = 100 (empurrão de alta semelhança)
  • batch size B = 1

Opção 1 (melhor semelhança): Grad Accum = 1


Steps = 55 × 100 / (1 × 1) = 5500

Coloque:

  • Gradient Accumulation: 1
  • Steps: 5500

Opção 2 (mais amigável para VRAM): Grad Accum = 4


Steps = 55 × 100 / (1 × 4) = 1375  (~1400)

Coloque:

  • Gradient Accumulation: 4
  • Steps: 1375 (ou 1400)

✅ As duas opções entregam ~100 repetições por imagem.

A diferença é quantos mini-batches são agregados em cada step.


4) Mini “cheat sheet” (LoRA de personagem alta semelhança)

Se você só quer algo para copiar:

Klein 9B Base – High Likeness Starter

  • Batch Size: 1
  • Grad Accum: 1 (ou 2–4 se precisar)
  • Target repeats per image: 90–110
  • Steps: ceil(N × repeats / (B × G))
  • LR: 1e-4 (baixe para 5e-5 se instável)
  • Rank: 16 (teste 32 só se estável + underfitting)
  • Resolution: 1024
  • Default caption: photo of [trigger]
  • Caption dropout: 0.05
  • Preview sampling (Base): Sample steps ~50, Guidance ~4

5) Troubleshooting (correções rápidas)

“Minha LoRA parece fraca / noisy, mas a loss está caindo”

Quase sempre você está fazendo preview com o sampling errado.

  • Ajuste Sample Steps ~50 e Guidance ~4, e confira de novo.

“Estava ficando bom e, de repente, tudo ficou caótico / pior” (9B “collapse”)

Tente nesta ordem:

1) Baixe LR (1e-4 → 5e-5)

2) Baixe Rank (32 → 16)

3) Adicione um pequeno dataset de regularização com menor peso

4) Pare cedo e use o último checkpoint “bom”

“Eu ganho qualidade se reduzir Gradient Accumulation?”

Muitas vezes sim para identidade/semelhança:

  • Reduzir G pode ajudar a LoRA a ficar mais “específica” (menos média).
  • Mas você precisa aumentar Steps para manter a mesma dose de treinamento.

6) Resumo

Para semelhança de personagem no FLUX.2 Klein 9B, as maiores alavancas são:

1) Dose de treinamento (Steps × Batch × Grad Accum relativo ao número de imagens)

2) Learning rate

3) Rank

4) Resolution

5) Caption strategy

6) Sampling correto da Base para previews

Se você controla isso de forma deliberada, para de chutar — e seus resultados ficam consistentes.

Pronto para começar o treinamento?