AI Toolkit LoRA Training Guides

Guida all’addestramento LoRA FLUX.2 [dev] con Ostris AI Toolkit

Questo articolo spiega passo dopo passo come fare fine-tuning di FLUX.2 [dev] con LoRA usando Ostris AI Toolkit. Vedrai cosa rende FLUX.2 unico, come dual transformer e text encoder influenzano rank LoRA e uso VRAM, e come progettare dataset e configurazioni di training che funzionano da GPU 24GB fino a H100/H200, in locale o in cloud.

Train Diffusion Models with Ostris AI Toolkit

Scorri orizzontalmente per vedere il modulo completo

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

L'Addestramento LoRA FLUX.2-dev è molto diverso dall'addestrare i vecchi modelli SD. FLUX.2 [dev] combina un enorme transformer a flusso rettificato da 32B parametri, un encoder di testo Mistral da 24B e un autoencoder di alta qualità, gestendo text-to-image e modifica immagini in un unico checkpoint. Questa guida copre:

  • Cosa rende speciale FLUX.2 [dev]
  • Come queste scelte di design influenzano l'addestramento LoRA
  • Come configurare AI Toolkit per diversi livelli hardware
  • Come configurare dataset, trigger e parametri per ottenere lo stile / personaggio / comportamento di modifica desiderato

Questo articolo fa parte della serie di addestramento LoRA AI Toolkit. Se sei nuovo su Ostris AI Toolkit, inizia con la panoramica dell'addestramento LoRA AI Toolkit prima di immergerti in come addestrare una LoRA per FLUX.2-dev.

Indice


1. Capire FLUX.2 [dev] per l'addestramento LoRA

Prima di toccare i cursori, è utile capire cosa stai affinando.

1.1 Architettura ad alto livello

Dalla scheda ufficiale del modello FLUX.2-dev e dall'annuncio di Black Forest Labs:

  • Modello base

    FLUX.2 [dev] è un transformer a flusso rettificato da 32B parametri (un modello di flusso latente in stile DiT) addestrato da zero, non una continuazione di FLUX.1. Combina generazione text-to-image e modifica immagini (immagine singola e multi-riferimento) in un unico checkpoint.

  • Encoder di testo

    FLUX.2 [dev] usa Mistral Small 3.1 / 3.2 – 24B come encoder di testo vision-language. Sono altri 24B parametri oltre ai 32B del DiT. A precisione normale, questo da solo consuma un'enorme porzione di VRAM.

  • Autoencoder (VAE)

    Il modello usa un nuovo AutoencoderKLFlux2 con 32 canali latenti (FLUX.1 ne usava 16). È progettato per modifica ad alta risoluzione e preservazione fine delle texture.

  • Generazione + modifica unificate

    La stessa architettura gestisce text-to-image puro, modifica immagine singola e modifica multi-riferimento (fino a circa 10 immagini di riferimento).

  • Guidance distillato

    FLUX.2 [dev] è un modello guidance-distilled: non c'è guidance classico senza classificatore con passaggi separati.

Cosa significa per LoRA:

  1. Il transformer centrale è enorme. Il rank LoRA deve essere scelto con cura.
  2. L'encoder di testo è pesante e centrale per il comportamento.
  3. Gli stessi pesi gestiscono T2I e modifica.
  4. Il guidance è speciale perché il modello è guidance-distilled. Si addestra con guidance_scale = 1.

2. Che tipo di FLUX.2 LoRA stai addestrando?

Con FLUX.2 [dev], dovresti prima decidere cosa vuoi che l'adattatore faccia. Il modello base è già forte nella modifica multi-riferimento e nel seguire prompt complessi.

Obiettivi comuni per addestrare LoRA Flux 2 dev:

  1. LoRA di stile (T2I + modifica) – Insegnare a FLUX.2 uno stile di pittura specifico.
  2. LoRA di personaggio / identità – Modellare una persona specifica con volti/caratteristiche consistenti.
  3. LoRA di oggetto / prop / brand – Catturare prodotti specifici, loghi o forme.
  4. LoRA di istruzione / modifica – Cambiare comportamento invece che stile.

3. Dettagli specifici di FLUX.2 che cambiano le impostazioni LoRA

3.1 LoRA su un transformer fuso (scaling del rank)

FLUX.2 [dev] fonde proiezioni attention e MLP in matrici molto larghe. Questo significa:

  • Rank molto bassi (4–8) spesso sembrano troppo deboli.
  • Per LoRA di stile o personaggio su FLUX.2 [dev], rank 32 è un buon default.
  • Per VRAM limitato o stili semplici, usa rank 8–16.
  • Per brand o identità complesse, rank 32–64 può aiutare.

Nel FLUX.2 [dev] LoRA addestramento, il modello beneficia di rank leggermente più alti dei modelli vecchi, ma paghi in VRAM e rischio di overfitting.


3.2 Modello guidance-distilled: addestramento a guidance_scale = 1

  • Addestramento: imposta guidance_scale = 1.
  • Inferenza: guidance_scale nel range 2–4 funziona bene.

3.3 L'encoder di testo è enorme (e perché il caching degli embedding conta)

Il Mistral 24B VLM usato come encoder di testo di FLUX.2 è circa 24GB di parametri.

In AI Toolkit:

  • Con caption fisse e senza DOP: Attiva Cache Text Embeddings.
  • Con Differential Output Preservation (DOP): Non puoi fare cache degli embedding.

3.4 Autoencoder e risoluzione

FLUX.2 usa AutoencoderKLFlux2 con 32 canali latenti. In pratica, addestrare LoRA FLUX.2 a 768–1024 cattura la maggior parte dei benefici.


4. Requisiti hardware e VRAM per l'addestramento LoRA FLUX.2

4.1 Impostazioni raccomandate per livello VRAM

Livello A — GPU 16–24 GB (es. 4070 Ti, 4080, 4090)

  • Cosa è realistico: Fine-tuning LoRA FLUX 2 dev possibile ma stretto. Batch Size = 1, risoluzioni 896–1024 px.
  • Impostazioni chiave: Low VRAM ON, Layer Offloading ON, Transformer e Text Encoder a float8 (default).

Livello B — GPU 32–48 GB (es. RTX 6000 Ada, A6000)

  • Cosa è realistico: AI Toolkit FLUX.2 dev LoRA si sente confortevole. LoRA di stile e personaggio a 1024×1024, 20–60+ immagini, 1000–3000 step.
  • Impostazioni chiave: Low VRAM ON, Batch Size = 1–2, Learning Rate = 0.0001, Linear Rank = 32.

Livello C — GPU 64–96+ GB (es. H100, H200 su RunComfy)

  • Cosa è realistico: 1024×1024 con Batch Size = 2–4, DOP ON di default.
  • Impostazioni chiave: Low VRAM OFF, Linear Rank = 32–64.

4.2 AI Toolkit locale vs. cloud AI Toolkit su RunComfy


5. Progettare dataset per FLUX.2 LoRA

5.1 Quante immagini?

  • LoRA stile semplice: 15–30 immagini curate.
  • LoRA personaggio/identità: 20–60 immagini con viste chiare.
  • LoRA modifica/istruzione: 50–200 triple (fonte, target, istruzione).

5.2 Strategia di captioning

Quello che non descrivi nella caption è "libero" per il LoRA da attaccare al tuo trigger.

Per LoRA di stile: descrivi cosa c'è nell'immagine, non il medio o lo stile.

Per LoRA di personaggio: usa un trigger unico (es. midnight_tarot) e una parola classe (person, woman, ecc.).

5.3 Differential Output Preservation (DOP)

Confronta l'output del modello base senza LoRA con l'output con LoRA attivo, penalizzando i cambiamenti quando il trigger è assente.


6. Passo dopo passo: configurare l'addestramento LoRA FLUX.2 [dev] in AI Toolkit

6.1 Setup iniziale

6.2 Prepara il dataset

  • Raccogli immagini, mettile in /ai-toolkit/datasets/flux2_midnight_tarot/.
  • Aggiungi file caption .txt. Usa [trigger] nelle caption.

6.3 Crea un nuovo job di addestramento

6.3.1 Pannello JOB

  • Training Name: es. flux2_midnight_tarot_v1.
  • Trigger Word: es. midnight_tarot.

6.3.2 Pannelli MODEL & QUANTIZATION

  • Model Architecture: FLUX.2.
  • Name or Path: black-forest-labs/FLUX.2-dev.
  • Low VRAM: ON per Livello A/B, OFF per Livello C.
  • Transformer e Text Encoder: float8 (default).

6.3.3 Pannello TARGET

  • Target Type: LoRA.
  • Linear Rank: 32 come buon default.

6.3.4 Pannelli TRAINING & SAVE

  • Batch Size: 1 su 24–48GB, 2 su 64GB+.
  • Steps: 800–2000 (stile), 1000–2500 (personaggio), 1500–3000 (istruzione).
  • Learning Rate: 0.0001.
  • Optimizer: AdamW8Bit.
  • Cache Text Embeddings: ON senza DOP, OFF con DOP.
  • Data Type: BF16.
  • Save Every: 250 step.

6.3.5 Regularization & Advanced

  • Differential Output Preservation: ON se vuoi preservare il comportamento base.
  • Do Differential Guidance: ON con Scale 3.

6.3.6 Pannello DATASETS

  • Cache Latents: ON.
  • Resolutions: [768, 896, 1024] secondo VRAM.
  • Caption Dropout Rate: 0.05 se cache embeddings OFF, altrimenti 0.

6.4 Configurazione sampling preview

  • Sample Every: 250 step.
  • Guidance Scale: 1.
  • Prompts: 2–4 prompt rappresentativi.

7. Debug dei risultati LoRA FLUX.2 e miglioramento della qualità

7.1 "GatedRepoError / 401 scaricando FLUX.2-dev"

Accetta la licenza su Hugging Face, crea un token Read e aggiungilo nelle Settings del trainer.

7.2 "Nulla cambia dopo 1000+ step"

  • Verifica che LoRA sia applicato nel sampling.
  • Linear Rank = 16–32 invece di 4–8.
  • Learning Rate = 0.0001.
  • Rimuovi descrittori stilistici dalle caption.

7.3 "Il mio LoRA ha sovrascritto il modello base"

  • Attiva Differential Output Preservation.
  • Riduci a 800–1500 step.
  • Linear Rank = 16, Learning Rate = 0.000075.

7.4 "CUDA out of memory"

  • Risoluzione da 1024 → 896 o 768.
  • Gradient checkpointing e accumulation.
  • Quantizzazione FP8/4-bit.
  • Cache Latents ON.
  • Migra a H100/H200 su RunComfy.

8. Usare il tuo FLUX.2 LoRA in inferenza


Altre guide di addestramento LoRA AI Toolkit

Ready to start training?