L'Addestramento LoRA FLUX.2-dev è molto diverso dall'addestrare i vecchi modelli SD. FLUX.2 [dev] combina un enorme transformer a flusso rettificato da 32B parametri, un encoder di testo Mistral da 24B e un autoencoder di alta qualità, gestendo text-to-image e modifica immagini in un unico checkpoint. Questa guida copre:
- Cosa rende speciale FLUX.2 [dev]
- Come queste scelte di design influenzano l'addestramento LoRA
- Come configurare AI Toolkit per diversi livelli hardware
- Come configurare dataset, trigger e parametri per ottenere lo stile / personaggio / comportamento di modifica desiderato
Questo articolo fa parte della serie di addestramento LoRA AI Toolkit. Se sei nuovo su Ostris AI Toolkit, inizia con la panoramica dell'addestramento LoRA AI Toolkit prima di immergerti in come addestrare una LoRA per FLUX.2-dev.
Indice
- 1. Capire FLUX.2 [dev] per l'addestramento LoRA
- 2. Che tipo di FLUX.2 LoRA stai addestrando?
- 3. Dettagli specifici di FLUX.2 che cambiano le impostazioni LoRA
- 4. Requisiti hardware e VRAM per l'addestramento LoRA FLUX.2
- 5. Progettare dataset per FLUX.2 LoRA
- 6. Passo dopo passo: configurare l'addestramento LoRA FLUX.2 dev in AI Toolkit
- 7. Debug dei risultati LoRA FLUX.2 e miglioramento della qualità
- 8. Usare il tuo FLUX.2 LoRA in inferenza
1. Capire FLUX.2 [dev] per l'addestramento LoRA
Prima di toccare i cursori, è utile capire cosa stai affinando.
1.1 Architettura ad alto livello
Dalla scheda ufficiale del modello FLUX.2-dev e dall'annuncio di Black Forest Labs:
- Modello base
FLUX.2 [dev]è un transformer a flusso rettificato da 32B parametri (un modello di flusso latente in stile DiT) addestrato da zero, non una continuazione di FLUX.1. Combina generazione text-to-image e modifica immagini (immagine singola e multi-riferimento) in un unico checkpoint. - Encoder di testo
FLUX.2 [dev] usa Mistral Small 3.1 / 3.2 – 24B come encoder di testo vision-language. Sono altri 24B parametri oltre ai 32B del DiT. A precisione normale, questo da solo consuma un'enorme porzione di VRAM.
- Autoencoder (VAE)
Il modello usa un nuovo AutoencoderKLFlux2 con 32 canali latenti (FLUX.1 ne usava 16). È progettato per modifica ad alta risoluzione e preservazione fine delle texture.
- Generazione + modifica unificate
La stessa architettura gestisce text-to-image puro, modifica immagine singola e modifica multi-riferimento (fino a circa 10 immagini di riferimento).
- Guidance distillato
FLUX.2 [dev] è un modello guidance-distilled: non c'è guidance classico senza classificatore con passaggi separati.
Cosa significa per LoRA:
- Il transformer centrale è enorme. Il rank LoRA deve essere scelto con cura.
- L'encoder di testo è pesante e centrale per il comportamento.
- Gli stessi pesi gestiscono T2I e modifica.
- Il guidance è speciale perché il modello è guidance-distilled. Si addestra con
guidance_scale = 1.
2. Che tipo di FLUX.2 LoRA stai addestrando?
Con FLUX.2 [dev], dovresti prima decidere cosa vuoi che l'adattatore faccia. Il modello base è già forte nella modifica multi-riferimento e nel seguire prompt complessi.
Obiettivi comuni per addestrare LoRA Flux 2 dev:
- LoRA di stile (T2I + modifica) – Insegnare a FLUX.2 uno stile di pittura specifico.
- LoRA di personaggio / identità – Modellare una persona specifica con volti/caratteristiche consistenti.
- LoRA di oggetto / prop / brand – Catturare prodotti specifici, loghi o forme.
- LoRA di istruzione / modifica – Cambiare comportamento invece che stile.
3. Dettagli specifici di FLUX.2 che cambiano le impostazioni LoRA
3.1 LoRA su un transformer fuso (scaling del rank)
FLUX.2 [dev] fonde proiezioni attention e MLP in matrici molto larghe. Questo significa:
- Rank molto bassi (4–8) spesso sembrano troppo deboli.
- Per LoRA di stile o personaggio su FLUX.2 [dev], rank 32 è un buon default.
- Per VRAM limitato o stili semplici, usa rank 8–16.
- Per brand o identità complesse, rank 32–64 può aiutare.
Nel FLUX.2 [dev] LoRA addestramento, il modello beneficia di rank leggermente più alti dei modelli vecchi, ma paghi in VRAM e rischio di overfitting.
3.2 Modello guidance-distilled: addestramento a guidance_scale = 1
- Addestramento: imposta
guidance_scale = 1. - Inferenza:
guidance_scalenel range 2–4 funziona bene.
3.3 L'encoder di testo è enorme (e perché il caching degli embedding conta)
Il Mistral 24B VLM usato come encoder di testo di FLUX.2 è circa 24GB di parametri.
In AI Toolkit:
- Con caption fisse e senza DOP: Attiva Cache Text Embeddings.
- Con Differential Output Preservation (DOP): Non puoi fare cache degli embedding.
3.4 Autoencoder e risoluzione
FLUX.2 usa AutoencoderKLFlux2 con 32 canali latenti. In pratica, addestrare LoRA FLUX.2 a 768–1024 cattura la maggior parte dei benefici.
4. Requisiti hardware e VRAM per l'addestramento LoRA FLUX.2
4.1 Impostazioni raccomandate per livello VRAM
Livello A — GPU 16–24 GB (es. 4070 Ti, 4080, 4090)
- Cosa è realistico: Fine-tuning LoRA FLUX 2 dev possibile ma stretto. Batch Size = 1, risoluzioni 896–1024 px.
- Impostazioni chiave: Low VRAM ON, Layer Offloading ON, Transformer e Text Encoder a
float8 (default).
Livello B — GPU 32–48 GB (es. RTX 6000 Ada, A6000)
- Cosa è realistico: AI Toolkit FLUX.2 dev LoRA si sente confortevole. LoRA di stile e personaggio a 1024×1024, 20–60+ immagini, 1000–3000 step.
- Impostazioni chiave: Low VRAM ON, Batch Size = 1–2, Learning Rate = 0.0001, Linear Rank = 32.
Livello C — GPU 64–96+ GB (es. H100, H200 su RunComfy)
- Cosa è realistico: 1024×1024 con Batch Size = 2–4, DOP ON di default.
- Impostazioni chiave: Low VRAM OFF, Linear Rank = 32–64.
4.2 AI Toolkit locale vs. cloud AI Toolkit su RunComfy
- Locale con AI Toolkit – installa dal repository GitHub.
- Cloud AI Toolkit su RunComfy – apri il cloud AI Toolkit su RunComfy e addestra su GPU H100/H200.
5. Progettare dataset per FLUX.2 LoRA
5.1 Quante immagini?
- LoRA stile semplice: 15–30 immagini curate.
- LoRA personaggio/identità: 20–60 immagini con viste chiare.
- LoRA modifica/istruzione: 50–200 triple (fonte, target, istruzione).
5.2 Strategia di captioning
Quello che non descrivi nella caption è "libero" per il LoRA da attaccare al tuo trigger.
Per LoRA di stile: descrivi cosa c'è nell'immagine, non il medio o lo stile.
Per LoRA di personaggio: usa un trigger unico (es. midnight_tarot) e una parola classe (person, woman, ecc.).
5.3 Differential Output Preservation (DOP)
Confronta l'output del modello base senza LoRA con l'output con LoRA attivo, penalizzando i cambiamenti quando il trigger è assente.
6. Passo dopo passo: configurare l'addestramento LoRA FLUX.2 [dev] in AI Toolkit
6.1 Setup iniziale
- Installa AI Toolkit o apri il cloud AI Toolkit su RunComfy.
6.2 Prepara il dataset
- Raccogli immagini, mettile in
/ai-toolkit/datasets/flux2_midnight_tarot/. - Aggiungi file caption
.txt. Usa[trigger]nelle caption.
6.3 Crea un nuovo job di addestramento
6.3.1 Pannello JOB
- Training Name: es.
flux2_midnight_tarot_v1. - Trigger Word: es.
midnight_tarot.
6.3.2 Pannelli MODEL & QUANTIZATION
- Model Architecture: FLUX.2.
- Name or Path:
black-forest-labs/FLUX.2-dev. - Low VRAM: ON per Livello A/B, OFF per Livello C.
- Transformer e Text Encoder:
float8 (default).
6.3.3 Pannello TARGET
- Target Type:
LoRA. - Linear Rank: 32 come buon default.
6.3.4 Pannelli TRAINING & SAVE
- Batch Size:
1su 24–48GB,2su 64GB+. - Steps: 800–2000 (stile), 1000–2500 (personaggio), 1500–3000 (istruzione).
- Learning Rate:
0.0001. - Optimizer:
AdamW8Bit. - Cache Text Embeddings: ON senza DOP, OFF con DOP.
- Data Type:
BF16. - Save Every:
250step.
6.3.5 Regularization & Advanced
- Differential Output Preservation: ON se vuoi preservare il comportamento base.
- Do Differential Guidance: ON con Scale
3.
6.3.6 Pannello DATASETS
- Cache Latents: ON.
- Resolutions:
[768, 896, 1024]secondo VRAM. - Caption Dropout Rate:
0.05se cache embeddings OFF, altrimenti0.
6.4 Configurazione sampling preview
- Sample Every:
250step. - Guidance Scale:
1. - Prompts: 2–4 prompt rappresentativi.
7. Debug dei risultati LoRA FLUX.2 e miglioramento della qualità
7.1 "GatedRepoError / 401 scaricando FLUX.2-dev"
Accetta la licenza su Hugging Face, crea un token Read e aggiungilo nelle Settings del trainer.
7.2 "Nulla cambia dopo 1000+ step"
- Verifica che LoRA sia applicato nel sampling.
Linear Rank = 16–32invece di 4–8.Learning Rate = 0.0001.- Rimuovi descrittori stilistici dalle caption.
7.3 "Il mio LoRA ha sovrascritto il modello base"
- Attiva Differential Output Preservation.
- Riduci a 800–1500 step.
Linear Rank = 16,Learning Rate = 0.000075.
7.4 "CUDA out of memory"
- Risoluzione da 1024 → 896 o 768.
- Gradient checkpointing e accumulation.
- Quantizzazione FP8/4-bit.
- Cache Latents ON.
- Migra a H100/H200 su RunComfy.
8. Usare il tuo FLUX.2 LoRA in inferenza
- Model playground – apri il FLUX.2 LoRA playground.
- Workflow ComfyUI – carica un workflow come Flux 2 Dev.
Altre guide di addestramento LoRA AI Toolkit
- Addestramento LoRA Z-Image Turbo con AI Toolkit
- Addestramento LoRA LTX-2 con AI Toolkit
- Addestramento LoRA Qwen-Image-Edit-2511 con AI Toolkit
- Addestramento LoRA Qwen-Image-Edit-2509 con AI Toolkit
- Addestramento LoRA Wan 2.2 I2V 14B image-to-video
- Addestramento LoRA Wan 2.2 T2V 14B text-to-video
- Addestramento LoRA Qwen Image 2512
Ready to start training?

