FLUX.2 Klein 9B High‑Likeness Character LoRA (AI Toolkit): Qué ajustes importan de verdad (y qué escribir)

Si estás entrenando un LoRA de personaje / identidad en FLUX.2 Klein 9B Base y no paras de preguntar:

“¿Qué hace realmente Num Repeats?”
“¿Cómo calculo Training Steps?”
“Si cambio Gradient Accumulation, ¿también tengo que cambiar Steps?”
“¿Qué otros ajustes importan más para un high likeness?”

Este tutorial es la respuesta “sin ir a ciegas”.

0) El motivo #1 por el que la gente se lía: hay DOS “steps”

AI Toolkit muestra Training Steps y también verás Sample Steps (preview / inference).

Training → Steps = cuánto tiempo entrena el optimizador (es el contador de parada).
Sample Steps (preview / inference) = cuántos pasos de denoising se usan para renderizar imágenes de muestra.

No los mezcles.

Si alguien dice “28 steps es el sweet spot”, puede estar hablando de inference/sample steps, no de la duración del entrenamiento.

Para Base Klein, no juzgues tu LoRA usando pocos sample steps. Al previsualizar, usa un sampling apropiado para Base (más abajo).

1) La única métrica que deberías optimizar: “repeats per image” (dosis de entrenamiento)

Para LoRAs de personaje con alta similitud, quieres que cada imagen de entrenamiento se “vea” aproximadamente:

50–90 repeticiones por imagen = entrenamiento normal de identidad de personaje
90–120 repeticiones por imagen = empuje de alta similitud (bloqueo de identidad más fuerte)

La fórmula (copia/pega)

Sea:

N = número de imágenes de entrenamiento
B = batch size
G = gradient accumulation
S = training steps

Entonces:

Repeats per image


repeats_per_image ≈ (S × B × G) / N

Steps you should enter


S ≈ ceil( N × target_repeats / (B × G) )

✅ Si cambias Gradient Accumulation, tus Steps deben cambiar para mantener la misma dosis de entrenamiento.

2) “¿Qué debería poner?” (defaults de buenas prácticas para alta similitud)

A) Training panel (mayor impacto)

Úsalo como punto de partida:

Batch Size: 1
Gradient Accumulation: 1 (mejor similitud)

Si vas justo de VRAM, usa 2–4 y baja Steps proporcionalmente.

Learning Rate: empieza con 1e-4

Si el entrenamiento se vuelve inestable / “collapses”, prueba 5e-5

Steps: calcúlalos con la fórmula de arriba (no adivines)
Optimizer / timestep settings: deja los defaults al principio (cambia solo si estás depurando)

B) Target panel (capacidad de la LoRA)

Linear Rank (9B Base): empieza con 16

Si la LoRA está claramente en underfitting y el entrenamiento es estable, prueba 32
Si ves inestabilidad/collapse, vuelve a 16

C) Dataset panel (supervisión de texto = control de identidad)

Para LoRAs de personaje:

Default Caption: photo of [trigger]
Caption Dropout Rate: 0.05 (en algunos setups ayuda a evitar el “caption overfitting”)
Resolutions: usa 1024 como default para Klein cuando puedas

Añade 768 solo si quieres más flexibilidad entre tamaños.

D) Sample panel (cómo previsualizar correctamente)

Si tu LoRA se ve “débil” en los samples, muchas veces no es el entrenamiento: es el sampling.

Para Base Klein, usa ajustes de preview como:

Sample Steps: ~50
Guidance / CFG: ~4

Luego compara los checkpoints otra vez.

3) El ejemplo de “55 imágenes” (números reales)

Supongamos que tienes:

N = 55 imágenes
target repeats = 100 (empuje de alta similitud)
batch size B = 1

Opción 1 (mejor similitud): Grad Accum = 1


Steps = 55 × 100 / (1 × 1) = 5500

Pon:

Gradient Accumulation: 1
Steps: 5500

Opción 2 (más amable con VRAM): Grad Accum = 4


Steps = 55 × 100 / (1 × 4) = 1375  (~1400)

Pon:

Gradient Accumulation: 4
Steps: 1375 (o 1400)

✅ Ambas opciones dan ~100 repeticiones por imagen.

La diferencia es cuántos mini-batches se agregan dentro de cada step.

4) Mini “cheat sheet” (LoRA de personaje de alta similitud)

Si solo quieres algo que puedas copiar:

Klein 9B Base – High Likeness Starter

Batch Size: 1
Grad Accum: 1 (o 2–4 si hace falta)
Target repeats per image: 90–110
Steps: ceil(N × repeats / (B × G))
LR: 1e-4 (baja a 5e-5 si es inestable)
Rank: 16 (prueba 32 solo si estable + underfitting)
Resolution: 1024
Default caption: photo of [trigger]
Caption dropout: 0.05
Preview sampling (Base): Sample steps ~50, Guidance ~4

5) Troubleshooting (arreglos rápidos)

“Mi LoRA se ve débil / ruidosa, pero la loss baja”

Lo más probable es que estés previsualizando con el sampling equivocado.

Pon Sample Steps ~50 y Guidance ~4, y vuelve a comprobar.

“Iba mejorando y de repente todo se volvió caótico / peor” (9B “collapse”)

Prueba en este orden:

1) Baja LR (1e-4 → 5e-5)

2) Baja Rank (32 → 16)

3) Añade un pequeño dataset de regularización con menor peso

4) Para temprano y usa el último checkpoint “bueno”

“¿Gano calidad si reduzco Gradient Accumulation?”

A menudo sí para identidad/similitud:

Bajar G puede ayudar a que la LoRA se mantenga más “específica” (menos promediada).
Pero tienes que subir Steps para mantener la misma dosis de entrenamiento.

6) En resumen

Para la similitud de personaje en FLUX.2 Klein 9B, las palancas principales son:

1) Dosis de entrenamiento (Steps × Batch × Grad Accum relativo al nº de imágenes)

2) Learning rate

3) Rank

4) Resolution

5) Caption strategy

6) Sampling correcto de Base para previews

Si controlas esas variables de forma deliberada, dejas de adivinar y tus resultados se vuelven consistentes.