Guida all’addestramento LoRA FLUX.2 [dev] con Ostris AI Toolkit

L'Addestramento LoRA FLUX.2-dev è molto diverso dall'addestrare i vecchi modelli SD. FLUX.2 [dev] combina un enorme transformer a flusso rettificato da 32B parametri, un encoder di testo Mistral da 24B e un autoencoder di alta qualità, gestendo text-to-image e modifica immagini in un unico checkpoint. Questa guida copre:

Cosa rende speciale FLUX.2 [dev]
Come queste scelte di design influenzano l'addestramento LoRA
Come configurare AI Toolkit per diversi livelli hardware
Come configurare dataset, trigger e parametri per ottenere lo stile / personaggio / comportamento di modifica desiderato

Questo articolo fa parte della serie di addestramento LoRA AI Toolkit. Se sei nuovo su Ostris AI Toolkit, inizia con la panoramica dell'addestramento LoRA AI Toolkit prima di immergerti in come addestrare una LoRA per FLUX.2-dev.

Indice

1. Capire FLUX.2 [dev] per l'addestramento LoRA
2. Che tipo di FLUX.2 LoRA stai addestrando?
3. Dettagli specifici di FLUX.2 che cambiano le impostazioni LoRA
4. Requisiti hardware e VRAM per l'addestramento LoRA FLUX.2
5. Progettare dataset per FLUX.2 LoRA
6. Passo dopo passo: configurare l'addestramento LoRA FLUX.2 dev in AI Toolkit
7. Debug dei risultati LoRA FLUX.2 e miglioramento della qualità
8. Usare il tuo FLUX.2 LoRA in inferenza

1. Capire FLUX.2 [dev] per l'addestramento LoRA

Prima di toccare i cursori, è utile capire cosa stai affinando.

1.1 Architettura ad alto livello

Dalla scheda ufficiale del modello FLUX.2-dev e dall'annuncio di Black Forest Labs:

Modello base
FLUX.2 [dev] è un transformer a flusso rettificato da 32B parametri (un modello di flusso latente in stile DiT) addestrato da zero, non una continuazione di FLUX.1. Combina generazione text-to-image e modifica immagini (immagine singola e multi-riferimento) in un unico checkpoint.
Encoder di testo
FLUX.2 [dev] usa Mistral Small 3.1 / 3.2 – 24B come encoder di testo vision-language. Sono altri 24B parametri oltre ai 32B del DiT. A precisione normale, questo da solo consuma un'enorme porzione di VRAM.
Autoencoder (VAE)
Il modello usa un nuovo AutoencoderKLFlux2 con 32 canali latenti (FLUX.1 ne usava 16). È progettato per modifica ad alta risoluzione e preservazione fine delle texture.
Generazione + modifica unificate
La stessa architettura gestisce text-to-image puro, modifica immagine singola e modifica multi-riferimento (fino a circa 10 immagini di riferimento).
Guidance distillato
FLUX.2 [dev] è un modello guidance-distilled: non c'è guidance classico senza classificatore con passaggi separati.

Cosa significa per LoRA:

Il transformer centrale è enorme. Il rank LoRA deve essere scelto con cura.
L'encoder di testo è pesante e centrale per il comportamento.
Gli stessi pesi gestiscono T2I e modifica.
Il guidance è speciale perché il modello è guidance-distilled. Si addestra con guidance_scale = 1.

2. Che tipo di FLUX.2 LoRA stai addestrando?

Con FLUX.2 [dev], dovresti prima decidere cosa vuoi che l'adattatore faccia. Il modello base è già forte nella modifica multi-riferimento e nel seguire prompt complessi.

Obiettivi comuni per addestrare LoRA Flux 2 dev:

LoRA di stile (T2I + modifica) – Insegnare a FLUX.2 uno stile di pittura specifico.
LoRA di personaggio / identità – Modellare una persona specifica con volti/caratteristiche consistenti.
LoRA di oggetto / prop / brand – Catturare prodotti specifici, loghi o forme.
LoRA di istruzione / modifica – Cambiare comportamento invece che stile.

3. Dettagli specifici di FLUX.2 che cambiano le impostazioni LoRA

3.1 LoRA su un transformer fuso (scaling del rank)

FLUX.2 [dev] fonde proiezioni attention e MLP in matrici molto larghe. Questo significa:

Rank molto bassi (4–8) spesso sembrano troppo deboli.
Per LoRA di stile o personaggio su FLUX.2 [dev], rank 32 è un buon default.
Per VRAM limitato o stili semplici, usa rank 8–16.
Per brand o identità complesse, rank 32–64 può aiutare.

Nel FLUX.2 [dev] LoRA addestramento, il modello beneficia di rank leggermente più alti dei modelli vecchi, ma paghi in VRAM e rischio di overfitting.

3.2 Modello guidance-distilled: addestramento a `guidance_scale = 1`

Addestramento: imposta guidance_scale = 1.
Inferenza: guidance_scale nel range 2–4 funziona bene.

3.3 L'encoder di testo è enorme (e perché il caching degli embedding conta)

Il Mistral 24B VLM usato come encoder di testo di FLUX.2 è circa 24GB di parametri.

In AI Toolkit:

Con caption fisse e senza DOP: Attiva Cache Text Embeddings.
Con Differential Output Preservation (DOP): Non puoi fare cache degli embedding.

3.4 Autoencoder e risoluzione

FLUX.2 usa AutoencoderKLFlux2 con 32 canali latenti. In pratica, addestrare LoRA FLUX.2 a 768–1024 cattura la maggior parte dei benefici.

4. Requisiti hardware e VRAM per l'addestramento LoRA FLUX.2

4.1 Impostazioni raccomandate per livello VRAM

Livello A — GPU 16–24 GB (es. 4070 Ti, 4080, 4090)

Cosa è realistico: Fine-tuning LoRA FLUX 2 dev possibile ma stretto. Batch Size = 1, risoluzioni 896–1024 px.
Impostazioni chiave: Low VRAM ON, Layer Offloading ON, Transformer e Text Encoder a float8 (default).

Livello B — GPU 32–48 GB (es. RTX 6000 Ada, A6000)

Cosa è realistico: AI Toolkit FLUX.2 dev LoRA si sente confortevole. LoRA di stile e personaggio a 1024×1024, 20–60+ immagini, 1000–3000 step.
Impostazioni chiave: Low VRAM ON, Batch Size = 1–2, Learning Rate = 0.0001, Linear Rank = 32.

Livello C — GPU 64–96+ GB (es. H100, H200 su RunComfy)

Cosa è realistico: 1024×1024 con Batch Size = 2–4, DOP ON di default.
Impostazioni chiave: Low VRAM OFF, Linear Rank = 32–64.

4.2 AI Toolkit locale vs. cloud AI Toolkit su RunComfy

Locale con AI Toolkit – installa dal repository GitHub.
Cloud AI Toolkit su RunComfy – apri il cloud AI Toolkit su RunComfy e addestra su GPU H100/H200.

5. Progettare dataset per FLUX.2 LoRA

5.1 Quante immagini?

LoRA stile semplice: 15–30 immagini curate.
LoRA personaggio/identità: 20–60 immagini con viste chiare.
LoRA modifica/istruzione: 50–200 triple (fonte, target, istruzione).

5.2 Strategia di captioning

Quello che non descrivi nella caption è "libero" per il LoRA da attaccare al tuo trigger.

Per LoRA di stile: descrivi cosa c'è nell'immagine, non il medio o lo stile.

Per LoRA di personaggio: usa un trigger unico (es. midnight_tarot) e una parola classe (person, woman, ecc.).

5.3 Differential Output Preservation (DOP)

Confronta l'output del modello base senza LoRA con l'output con LoRA attivo, penalizzando i cambiamenti quando il trigger è assente.

6. Passo dopo passo: configurare l'addestramento LoRA FLUX.2 [dev] in AI Toolkit

6.1 Setup iniziale

Installa AI Toolkit o apri il cloud AI Toolkit su RunComfy.

6.2 Prepara il dataset

Raccogli immagini, mettile in /ai-toolkit/datasets/flux2_midnight_tarot/.
Aggiungi file caption .txt. Usa [trigger] nelle caption.

6.3 Crea un nuovo job di addestramento

6.3.1 Pannello JOB

Training Name: es. flux2_midnight_tarot_v1.
Trigger Word: es. midnight_tarot.

6.3.2 Pannelli MODEL & QUANTIZATION

Model Architecture: FLUX.2.
Name or Path: black-forest-labs/FLUX.2-dev.
Low VRAM: ON per Livello A/B, OFF per Livello C.
Transformer e Text Encoder: float8 (default).

6.3.3 Pannello TARGET

Target Type: LoRA.
Linear Rank: 32 come buon default.

6.3.4 Pannelli TRAINING & SAVE

Batch Size: 1 su 24–48GB, 2 su 64GB+.
Steps: 800–2000 (stile), 1000–2500 (personaggio), 1500–3000 (istruzione).
Learning Rate: 0.0001.
Optimizer: AdamW8Bit.
Cache Text Embeddings: ON senza DOP, OFF con DOP.
Data Type: BF16.
Save Every: 250 step.

6.3.5 Regularization & Advanced

Differential Output Preservation: ON se vuoi preservare il comportamento base.
Do Differential Guidance: ON con Scale 3.

6.3.6 Pannello DATASETS

Cache Latents: ON.
Resolutions: [768, 896, 1024] secondo VRAM.
Caption Dropout Rate: 0.05 se cache embeddings OFF, altrimenti 0.

6.4 Configurazione sampling preview

Sample Every: 250 step.
Guidance Scale: 1.
Prompts: 2–4 prompt rappresentativi.

7. Debug dei risultati LoRA FLUX.2 e miglioramento della qualità

7.1 "GatedRepoError / 401 scaricando FLUX.2-dev"

Accetta la licenza su Hugging Face, crea un token Read e aggiungilo nelle Settings del trainer.

7.2 "Nulla cambia dopo 1000+ step"

Verifica che LoRA sia applicato nel sampling.
Linear Rank = 16–32 invece di 4–8.
Learning Rate = 0.0001.
Rimuovi descrittori stilistici dalle caption.

7.3 "Il mio LoRA ha sovrascritto il modello base"

Attiva Differential Output Preservation.
Riduci a 800–1500 step.
Linear Rank = 16, Learning Rate = 0.000075.

7.4 "CUDA out of memory"

Risoluzione da 1024 → 896 o 768.
Gradient checkpointing e accumulation.
Quantizzazione FP8/4-bit.
Cache Latents ON.
Migra a H100/H200 su RunComfy.

8. Usare il tuo FLUX.2 LoRA in inferenza

Run LoRA – apri la pagina Run LoRA di FLUX.2. In questa pagina di inferenza del modello base puoi selezionare un asset LoRA che hai addestrato su RunComfy oppure importare un file LoRA addestrato con AI Toolkit, quindi eseguire l’inferenza tramite il playground o l’API. RunComfy usa lo stesso modello base e la definizione completa della pipeline AI Toolkit dalla tua configurazione di training, quindi ciò che hai visto durante il training è ciò che ottieni in inferenza — questo allineamento stretto training/inference aiuta a mantenere risultati coerenti con i tuoi sample di training.
Workflow ComfyUI – carica un workflow come Flux 2 Dev.

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample