AI Toolkit LoRA Training Guides

FLUX.2 Klein 9B LoRA Personaggio Alta Somiglianza: Impostazioni Importanti

Guida senza tirare a indovinare per training LoRA personaggio FLUX.2 Klein 9B. Copre la formula repeats-per-image, defaults best-practice per batch size, gradient accumulation, learning rate, rank, risoluzione, captions e sampling Base corretto per preview.

Train Diffusion Models with Ostris AI Toolkit

FLUX.2 Klein 9B High‑Likeness Character LoRA (AI Toolkit): quali impostazioni contano davvero (e cosa digitare)

Se stai addestrando una LoRA di personaggio / identità su FLUX.2 Klein 9B Base e continui a chiederti:

  • “Che cosa fa davvero Num Repeats?”
  • “Come calcolo i Training Steps?”
  • “Se cambio Gradient Accumulation, devo cambiare anche Steps?”
  • “Quali altre impostazioni contano di più per un high likeness?”

Questo tutorial è la risposta “senza tirare a indovinare”.


0) Il motivo n.1 per cui ci si confonde: ci sono DUE “steps”

AI Toolkit mostra Training Steps e vedrai anche Sample Steps (preview / inference).

  • Training → Steps = quanto a lungo l’optimizer addestra (è il contatore di stop).
  • Sample Steps (preview / inference) = quanti passi di denoising vengono usati per renderizzare le immagini di sample.

Non confonderli.

Se qualcuno dice “28 steps è lo sweet spot”, potrebbe riferirsi agli inference/sample steps, non alla durata dell’addestramento.

Per Base Klein, non giudicare la tua LoRA usando pochi sample steps. In preview, usa un sampling adatto alla Base (più sotto).


1) L’unica metrica da ottimizzare: “repeats per image” (dose di training)

Per LoRA di personaggio ad alta somiglianza, vuoi che ogni immagine di training venga “vista” circa:

  • 50–90 ripetizioni per immagine = training normale di identità del personaggio
  • 90–120 ripetizioni per immagine = spinta alta somiglianza (blocco identità più forte)

La formula (copy/paste)

Sia:

  • N = numero di immagini di training
  • B = batch size
  • G = gradient accumulation
  • S = training steps

Quindi:

Repeats per image


repeats_per_image ≈ (S × B × G) / N

Steps you should enter


S ≈ ceil( N × target_repeats / (B × G) )

✅ Se cambi Gradient Accumulation, i tuoi Steps devono cambiare per mantenere la stessa dose di training.


2) “Che cosa devo inserire?” (defaults best practice per alta somiglianza)

A) Training panel (impatto maggiore)

Usa questi valori come punto di partenza:

  • Batch Size: 1
  • Gradient Accumulation: 1 (miglior somiglianza)
    • Se la VRAM è stretta, usa 2–4 e riduci Steps in proporzione.
  • Learning Rate: parti da 1e-4
    • Se il training diventa instabile / “collapses”, prova 5e-5
  • Steps: calcolali con la formula sopra (non andare a intuito)
  • Optimizer / timestep settings: lascia i default all’inizio (cambia solo se stai facendo debug)

B) Target panel (capacità della LoRA)

  • Linear Rank (9B Base): parti da 16
    • Se la LoRA è chiaramente in underfitting e il training è stabile, prova 32
    • Se vedi instabilità/collapse, torna a 16

C) Dataset panel (supervisione testuale = controllo identità)

Per LoRA di personaggio:

  • Default Caption: photo of [trigger]
  • Caption Dropout Rate: 0.05 (in alcuni setup aiuta a evitare il “caption overfitting”)
  • Resolutions: usa 1024 come default per Klein quando possibile
    • Aggiungi 768 solo se vuoi più flessibilità tra dimensioni.

D) Sample panel (come fare preview correttamente)

Se la tua LoRA sembra “debole” nei samples, spesso non è il training: è il sampling.

Per Base Klein, usa impostazioni di preview come:

  • Sample Steps: ~50
  • Guidance / CFG: ~4

Poi confronta di nuovo i checkpoint.


3) L’esempio “55 immagini” (numeri reali)

Mettiamo che tu abbia:

  • N = 55 immagini
  • target repeats = 100 (spinta alta somiglianza)
  • batch size B = 1

Opzione 1 (miglior somiglianza): Grad Accum = 1


Steps = 55 × 100 / (1 × 1) = 5500

Inserisci:

  • Gradient Accumulation: 1
  • Steps: 5500

Opzione 2 (più VRAM‑friendly): Grad Accum = 4


Steps = 55 × 100 / (1 × 4) = 1375  (~1400)

Inserisci:

  • Gradient Accumulation: 4
  • Steps: 1375 (o 1400)

✅ Entrambe le opzioni danno ~100 ripetizioni per immagine.

La differenza è quanti mini-batch vengono aggregati dentro ogni step.


4) Mini “cheat sheet” (LoRA di personaggio ad alta somiglianza)

Se vuoi solo qualcosa da copiare:

Klein 9B Base – High Likeness Starter

  • Batch Size: 1
  • Grad Accum: 1 (o 2–4 se serve)
  • Target repeats per image: 90–110
  • Steps: ceil(N × repeats / (B × G))
  • LR: 1e-4 (scendi a 5e-5 se instabile)
  • Rank: 16 (prova 32 solo se stabile + underfitting)
  • Resolution: 1024
  • Default caption: photo of [trigger]
  • Caption dropout: 0.05
  • Preview sampling (Base): Sample steps ~50, Guidance ~4

5) Troubleshooting (fix rapidi)

“La mia LoRA sembra debole / rumorosa, ma la loss sta scendendo”

Molto probabilmente stai facendo preview con il setup di sampling sbagliato.

  • Imposta Sample Steps ~50 e Guidance ~4, poi ricontrolla.

“Stava andando bene, poi all’improvviso tutto è diventato caotico / peggiore” (9B “collapse”)

Prova in quest’ordine:

1) Abbassa LR (1e-4 → 5e-5)

2) Abbassa Rank (32 → 16)

3) Aggiungi un piccolo dataset di regolarizzazione con peso minore

4) Ferma in anticipo e usa l’ultimo checkpoint “buono”

“Ottengo qualità migliore se riduco Gradient Accumulation?”

Spesso sì per identità/somiglianza:

  • Ridurre G può aiutare la LoRA a restare più “specifica” (meno mediata).
  • Ma devi aumentare Steps per mantenere la stessa dose di training.

6) In sintesi

Per la somiglianza del personaggio su FLUX.2 Klein 9B, le leve principali sono:

1) Dose di training (Steps × Batch × Grad Accum rispetto al numero di immagini)

2) Learning rate

3) Rank

4) Resolution

5) Caption strategy

6) Sampling Base corretto per le previews

Se controlli questi fattori in modo deliberato, smetti di andare a intuito e i risultati diventano consistenti.

Ready to start training?