AI Toolkit LoRA Training Guides

Addestramento LoRA Qwen 2512 (Qwen-Image-2512) con Ostris AI Toolkit

Questo tutorial spiega come addestrare LoRA Qwen-Image-2512 con Ostris AI Toolkit. Include le impostazioni di default consigliate per LoRA di personaggio, stile e prodotto/concetto, come configurare dataset e trigger, quando usare ARA + Low VRAM (ad esempio su GPU da 24GB), come monitorare i sample durante il training e come risolvere i problemi più comuni.

Train Diffusion Models with Ostris AI Toolkit

Scorri orizzontalmente per vedere il modulo completo

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Qwen‑Image‑2512 (spesso abbreviato in Qwen 2512) è un grande modello base testo-immagine che può essere affinato con piccoli adattatori per imparare in modo affidabile un personaggio (somiglianza), uno stile o un prodotto/concetto. Questa guida ti mostra come eseguire un Addestramento LoRA Qwen Image 2512 pratico usando Ostris AI Toolkit, con impostazioni predefinite stabili e soluzioni ai problemi comuni.

Alla fine di questa guida su come addestrare una LoRA Qwen Image 2512, sarai in grado di:

  • Scegliere le impostazioni predefinite corrette per LoRA personaggio vs stile vs prodotto su Qwen-Image-2512.
  • Pianificare i requisiti VRAM e decidere quando ARA è utile.
  • Costruire dataset, didascalie e trigger che evitano i problemi comuni (overfitting/bleeding).
  • Eseguire un breve smoke test, poi fissare i passi e le impostazioni con sicurezza.
Questo articolo fa parte della serie Qwen-Image-2512 addestramento LoRA con AI-Toolkit. Se sei nuovo su Ostris AI Toolkit, inizia con l'introduzione all'addestramento LoRA con AI Toolkit prima di approfondire questa guida sull'Addestramento LoRA Qwen Image 2512.

Indice


1. Panoramica di Qwen‑Image‑2512: cosa può fare questo modello testo-immagine

Cos'è l'Addestramento LoRA Qwen Image 2512 (e cosa significa "buono")

Nell'Addestramento LoRA Qwen Image 2512, non stai sostituendo il modello base—stai aggiungendo un piccolo adattatore che lo orienta verso un'identità, uno stile o un concetto di prodotto specifico.

Una LoRA forte ha tre qualità:

  • Forza: cambia chiaramente gli output quando è attiva
  • Controllo: si attiva solo quando lo vuoi
  • Generalizzazione: funziona su nuovi prompt, non solo sulle tue immagini di addestramento

Scegli il tuo obiettivo: Personaggio vs Stile vs Prodotto/Concetto

Il tuo obiettivo determina le migliori impostazioni predefinite per la progettazione del dataset e le impostazioni di addestramento nel Qwen-Image-2512 addestramento LoRA.

Personaggio / somiglianza

  • Ideale per: una persona specifica, personaggio, somiglianza con celebrità, volto/identità coerente
  • Rischi principali: bleeding dell'identità (influenza altre persone), volti stracotti, overfitting rapido
  • Richiede: strategia timestep più stretta, passi attenti, solitamente un trigger, spesso DOP

Stile

  • Ideale per: un look/grade, stile illustrazione, stile illuminazione, linguaggio delle texture
  • Rischi principali: diventare un "filtro universale", perdere fedeltà al prompt
  • Richiede: più varietà, spesso meno ripetizioni/immagine rispetto ai personaggi, trigger opzionale

Prodotto / concetto

  • Ideale per: un prodotto specifico (scarpa, bottiglia), packaging con logo, un nuovo concetto di oggetto
  • Rischi principali: deriva della forma, materiali incoerenti, geometria instabile
  • Richiede: inquadratura coerente + didascalie pulite; trigger solitamente raccomandato
Se non sei sicuro, inizia l'Addestramento LoRA Qwen Image 2512 come smoke test (esecuzione breve), poi fissa i passi finali una volta che vedi quanto velocemente il tuo dataset "si imprime".

2. Opzioni ambiente: AI Toolkit locale vs AI Toolkit cloud su RunComfy

Per l'Addestramento LoRA Qwen Image 2512, puoi usare gli stessi due ambienti di altri workflow LoRA AI Toolkit:

  • AI Toolkit locale sulla tua GPU
  • AI Toolkit cloud su RunComfy con GPU grandi (H100 / H200)

L'interfaccia di addestramento, i parametri e il workflow sono identici in entrambi i casi. L'unica differenza è dove si trova la GPU e quanta VRAM hai disponibile.


2.1 AI Toolkit locale (la tua GPU)

Installa AI Toolkit dal repository GitHub di AI Toolkit, poi avvia l'interfaccia Web. L'addestramento locale è una buona scelta se:

  • Hai già una GPU NVIDIA (tipicamente 24GB VRAM o più per un addestramento confortevole a 1024)
  • Sei a tuo agio nella gestione di CUDA, driver, spazio disco e job di lunga durata

2.2 AI Toolkit cloud su RunComfy (H100 / H200)

Con l'AI Toolkit cloud su RunComfy, l'AI-Toolkit Qwen Image 2512 LoRA funziona interamente nel browser:

  • Non installi nulla localmente
  • Apri un browser, accedi e arrivi direttamente nell'interfaccia di addestramento AI Toolkit
  • Puoi selezionare GPU grandi come H100 (80GB) o H200 (141GB) quando avvii un job
  • Ottieni un workspace persistente dove dataset, configurazioni e checkpoint sono salvati e possono essere riutilizzati tra le sessioni

Questo ambiente è particolarmente utile per l'Addestramento LoRA Qwen Image 2512 quando:

  • Vuoi iterazione più veloce a 1024×1024 senza trucchi di memoria aggressivi
  • Vuoi sperimentare con rank LoRA più grandi, più bucket o batch size più alti
  • Non vuoi passare tempo a debuggare problemi CUDA o driver

👉 Aprilo qui: AI Toolkit cloud su RunComfy


3. Hardware e requisiti VRAM per Addestramento LoRA Qwen Image 2512

3.1 Pianificazione hardware: livelli VRAM e quando ARA conta

Qwen 2512 è grande. Per un Addestramento LoRA Qwen Image 2512 pratico, pensa a livelli:

  • 24GB VRAM (comune): fattibile, ma tipicamente hai bisogno di quantizzazione a basso bit + ARA per addestramento a 1024
  • 40–48GB VRAM: addestramento confortevole a 1024 con meno compromessi
  • 80GB+ VRAM: setup più semplice, iterazione più veloce, meno bisogno di ottimizzare la memoria

Se sei sotto i 24GB: a volte puoi addestrare a risoluzione più bassa (es. 768) con tattiche di memoria aggressive, ma aspettati esecuzioni più lente e stabilità più delicata.


3.2 ARA spiegato: cos'è, quando usarlo e come influenza l'addestramento

Cos'è ARA

ARA (Accuracy Recovery Adapter) è un meccanismo di recupero usato con quantizzazione a bit molto bassi (comunemente 3-bit o 4-bit). Il modello base gira quantizzato per risparmiare VRAM, mentre ARA aiuta a recuperare la precisione persa per la quantizzazione.

Quando usare ARA per Qwen 2512

Usa ARA se vuoi uno di questi:

  • Addestrare Qwen 2512 a 1024×1024 su 24GB
  • Meno problemi OOM
  • Convergenza stabile senza offload CPU pesante

Come ARA influenza l'addestramento (compromessi)

Pro

  • Rende l'addestramento a 1024 fattibile su GPU consumer
  • Spesso migliora la stabilità rispetto alla quantizzazione "semplice a basso bit"

Contro

  • Aggiunge parti mobili extra (la compatibilità strumenti/versioni conta)
  • Se la quantizzazione fallisce, potresti dover aggiustare la modalità di quantizzazione o aggiornare il tuo ambiente

Guida pratica per Addestramento LoRA Qwen Image 2512

  • Inizia con ARA 3-bit su 24GB
  • Se ci sono errori di quantizzazione, prova ARA 4-bit
  • Se i problemi persistono, usa temporaneamente una modalità di quantizzazione a precisione più alta per validare il resto della tua pipeline, poi torna a ARA

4. Costruire un dataset per Qwen 2512 training LoRA

4.1 Design del dataset: cosa raccogliere per ogni obiettivo

La maggior parte dei fallimenti nell'Addestramento LoRA Qwen Image 2512 sono fallimenti del dataset mascherati.

Regole universali

  • Converti tutto in RGB (evita scala di grigi/CMYK)
  • Rimuovi immagini rotte/corrotte
  • Evita quasi-duplicati a meno che tu non voglia intenzionalmente che quello scatto domini
  • Mantieni la risoluzione coerente dove possibile (o usa un piccolo set di bucket)

Dataset personaggio (15–50 immagini)

Punta a:

  • 30–60% primi piani / testa e spalle
  • 30–50% piani medi
  • 10–20% corpo intero (opzionale ma aiuta la generalizzazione abbigliamento/posa)

Mantieni illuminazione e sfondi abbastanza variati perché "identità" sia il segnale coerente.

Dataset stile (30–200 immagini)

Punta a:

  • Ampia varietà di soggetti (persone, oggetti, ambienti)
  • Composizione e situazioni di colore variate
  • Segnali di stile coerenti (pennello, ombreggiatura, palette, grana della pellicola, ecc.)

Le LoRA di stile nel Qwen 2512 training LoRA generalizzano meglio quando lo stile è l'unico fattore coerente.

Dataset prodotto / concetto (20–80 immagini)

Punta a:

  • Angoli e inquadratura coerenti (frontale/laterale/45 gradi)
  • Scala del prodotto coerente nell'inquadratura (evita differenze di zoom estreme)
  • Multiple condizioni di illuminazione se il materiale conta (opaco vs lucido)
  • Sfondi puliti aiutano all'inizio (puoi aggiungere scene complesse dopo)

4.2 Didascalie e trigger: template per Personaggio / Stile / Prodotto

Puoi addestrare Qwen 2512 con solo trigger o con brevi didascalie coerenti.

4.2.1 La regola chiave delle didascalie

Se una caratteristica appare in molte immagini di addestramento ma non la menzioni mai nelle didascalie, il modello può imparare che il trigger implicitamente significa quella caratteristica—quindi proverà a riprodurla ogni volta che usi il trigger.

Questo è un motivo comune per cui una LoRA "forza" un taglio di capelli, outfit, colore di sfondo o stile di camera ogni volta che si attiva.

4.2.2 Template didascalie per personaggio

Raccomandato: usa un trigger. Mantieni le didascalie corte.

  • Solo trigger:

    [trigger]

  • Breve didascalia:

    portrait photo of [trigger], studio lighting, sharp focus

    photo of [trigger], natural skin texture, realistic

Evita di descrivere eccessivamente le parti del viso (occhi, naso, ecc.). Lascia che il modello impari l'identità dalle immagini.

4.2.3 Template didascalie per stile

Il trigger è opzionale. Se ne usi uno, hai un interruttore on/off.

  • Senza trigger, breve didascalia:

    in a watercolor illustration style, soft edges, pastel palette

  • Trigger + breve didascalia:

    [trigger], watercolor illustration, pastel palette, soft edges

Per lo stile, le didascalie dovrebbero descrivere attributi di stile, non contenuto della scena.

4.2.4 Template didascalie per prodotto/concetto

Il trigger è fortemente raccomandato per il controllo.

  • Semplice:

    product photo of [trigger], clean background, studio lighting

  • Se il prodotto ha caratteristiche distintive:

    product photo of [trigger], transparent bottle, blue label, studio lighting

Evita didascalie lunghe. Per i prodotti, una formulazione coerente migliora la stabilità della geometria.


5. Passo dopo passo: Addestramento LoRA Qwen Image 2512 in AI Toolkit

Questa sezione segue lo stesso flusso dell'interfaccia di addestramento AI Toolkit. Crea prima i tuoi dataset, poi configura un nuovo job pannello per pannello.

5.1 Passo 0 – Scegli il tuo obiettivo (Personaggio vs Stile vs Prodotto)

Prima di toccare le impostazioni, decidi cosa stai addestrando. Questo determina le migliori impostazioni predefinite per didascalie, passi e regolarizzazione.

  • Personaggio / somiglianza: coerenza identità più forte (volto/aspetto). Rischio più alto di bleeding e overfitting rapido.
  • Stile: look visivo coerente (palette/texture/illuminazione). Rischio più alto di diventare un "filtro universale".
  • Prodotto / concetto: identità oggetto stabile e geometria. Rischio più alto di deriva forma/materiale.

Se non sei sicuro, esegui prima un breve smoke test (vedi TRAINING + SAMPLE sotto), poi fissa i passi una volta che vedi quanto velocemente il tuo dataset "si imprime".


5.2 Passo 1 – Creare dataset in AI Toolkit

Nell'interfaccia AI Toolkit, apri la scheda Datasets.

Crea almeno un dataset (nome esempio):

  • my_dataset_2512

Carica le tue immagini in questo dataset.

Regole qualità dataset (tutti gli obiettivi)

  • Converti tutto in RGB (evita scala di grigi/CMYK).
  • Rimuovi file rotti/corrotti.
  • Evita quasi-duplicati a meno che tu non voglia intenzionalmente che quel look/posa domini.

Dimensioni dataset suggerite

  • Personaggio: 15–50 immagini
  • Stile: 30–200 immagini (più varietà aiuta)
  • Prodotto: 20–80 immagini (inquadratura coerente aiuta)

5.3 Passo 2 – Creare un nuovo Job

Apri la scheda New Job. Configura ogni pannello nell'ordine in cui appaiono.


5.3.1 Pannello JOB – Training Name, GPU ID, Trigger Word

  • Training Name

    Scegli un nome chiaro che riconoscerai dopo (es. qwen_2512_character_v1, qwen_2512_style_v1, qwen_2512_product_v1).

  • GPU ID – su un'installazione locale, scegli la GPU sulla tua macchina. Nel AI Toolkit cloud su RunComfy, lascia GPU ID al valore predefinito. Il tipo di macchina effettivo (H100 / H200) viene scelto dopo quando avvii il job dalla Training Queue.
  • Trigger Word

    Uso raccomandato in base al tuo obiettivo:

    • Personaggio: fortemente raccomandato (ti dà controllo on/off pulito e aiuta a prevenire bleeding).
    • Stile: opzionale (usalo se vuoi uno "stile richiamabile" invece di sempre attivo).
    • Prodotto: fortemente raccomandato (aiuta a mantenere il concetto appreso controllabile).

Se usi un trigger, le tue didascalie possono includere un placeholder come [trigger] e seguire template coerenti (vedi sotto).


5.3.2 Pannello MODEL – Model Architecture, Name or Path, Options

  • Model Architecture

    Seleziona Qwen-Image-2512.

  • Name or Path

    Usa Qwen/Qwen-Image-2512. Nella maggior parte delle build AI Toolkit, selezionando Qwen‑Image‑2512 questo valore verrà compilato automaticamente.

    Se lo sovrascrivi, usa il formato ID repo Hugging Face: org-or-user/model-name (opzionalmente org-or-user/model-name@revision).

  • Options
    • Low VRAM: attivalo per GPU da 24GB durante l'Addestramento LoRA Qwen Image 2512.
    • Layer Offloading: trattalo come ultima risorsa se hai ancora OOM dopo quantizzazione, rank più basso e meno bucket.

Ordine offloading (migliori pratiche):

1) ARA + Low VRAM

2) Ridurre rank

3) Ridurre bucket di risoluzione

4) Ridurre frequenza/risoluzione sampling

5) Poi attivare Layer Offloading


5.3.3 Pannello QUANTIZATION – Transformer, Text Encoder

Qui è dove la maggior parte delle esecuzioni di Addestramento LoRA Qwen Image 2512 su 24GB ha successo o fallisce.

  • Baseline 24GB (raccomandato per addestramento a 1024)
    • Quantizza il Transformer e usa ARA (3-bit prima, 4-bit se necessario).
    • Quantizza il Text Encoder a float8 se hai bisogno di margine VRAM extra.
  • GPU con VRAM grande

    Puoi ridurre la quantizzazione o disabilitarla per semplicità se l'addestramento è stabile e abbastanza veloce.

Se la quantizzazione fallisce (errori dtype/quantize), trattalo prima come problema di compatibilità strumenti:

  • passa da ARA 3-bit ↔ 4-bit,
  • aggiorna AI Toolkit/dipendenze,
  • o usa temporaneamente una modalità a precisione più alta per validare il resto del tuo setup job, poi torna a ARA.

5.3.4 Pannello TARGET – Target Type, Linear Rank

  • Target Type: scegli LoRA.
  • Linear Rank

    Punti di partenza raccomandati per obiettivo:

    • Personaggio: 32
    • Stile: 16–32
    • Prodotto: 32

Regole generali:

  • Se OOM → riduci il rank prima di toccare tutto il resto.
  • Se underfitting → regola prima timesteps/steps/LR, poi considera di aumentare il rank.
  • Se overfitting → riduci ripetizioni/passi, riduci rank, aggiungi varietà, considera DOP.

5.3.5 Pannello SAVE – Data Type, Save Every, Max Step Saves to Keep

  • Data Type: BF16 (valore predefinito stabile).
  • Save Every: 250 (buona cadenza di checkpoint).
  • Max Step Saves to Keep: 4 (mantiene l'uso del disco sotto controllo).

5.3.6 Pannello TRAINING – iperparametri principali

Questi sono i valori predefiniti con cui iniziano la maggior parte delle esecuzioni:

  • Batch Size: 1
  • Gradient Accumulation: 1
  • Optimizer: AdamW8Bit
  • Learning Rate: 0.0001
  • Weight Decay: 0.0001
  • Timestep Type: Weighted
  • Timestep Bias: Balanced
  • Loss Type: Mean Squared Error
  • Use EMA: OFF (per LoRA Qwen 2512)

Guida Timestep Type per obiettivo

  • Personaggio: Weighted è una baseline sicura; se la somiglianza non si fissa o sembra incoerente, prova un'impostazione timestep più favorevole all'identità (spesso migliora l'impronta del personaggio).
  • Stile: Weighted di solito funziona; aumenta la varietà prima di aumentare i passi.
  • Prodotto: Weighted è una baseline stabile; se la geometria deriva, riduci prima le ripetizioni o stringa le didascalie/trigger.
Steps: valori raccomandati per Personaggio vs Stile vs Prodotto

Gli steps non dovrebbero essere un singolo numero magico. Un modo più affidabile sono le ripetizioni per immagine:

  • ripetizioni ≈ (steps × batch_size × grad_accum) ÷ num_images
  • con batch_size=1 e grad_accum=1: steps ≈ ripetizioni × num_images

Se aumenti gradient accumulation a 2 o 4, riduci gli steps proporzionalmente.

Ripetizioni per immagine per personaggio (somiglianza)

  • Smoke test: 30–50
  • Sweet spot tipico: 50–90
  • Push alta somiglianza: 90–120 (attenzione al bleeding)

Esempi (batch=1, accum=1):

Immagini 30–50 rip. 50–90 rip. 90–120 rip.
15 450–750 750–1350 1350–1800
25 750–1250 1250–2250 2250–3000
40 1200–2000 2000–3600 3600–4800

Ripetizioni per immagine per stile

  • Smoke test: 15–30
  • Sweet spot tipico: 25–60
  • Limite superiore: 60–80 (solo con dataset grandi e diversi)

Esempi (batch=1, accum=1):

Immagini 15–30 rip. 25–60 rip. 60–80 rip.
30 450–900 750–1800 1800–2400
100 1500–3000 2500–6000 6000–8000

Ripetizioni per immagine per prodotto / concetto

  • Smoke test: 20–40
  • Sweet spot tipico: 30–70
  • Push alta fedeltà: 70–90 (solo se forma/materiale è ancora in underfitting)

Esempi (batch=1, accum=1):

Immagini 20–40 rip. 30–70 rip. 70–90 rip.
20 400–800 600–1400 1400–1800
50 1000–2000 1500–3500 3500–4500
80 1600–3200 2400–5600 5600–7200

Ottimizzazioni Text Encoder (lato destro di TRAINING)
  • Unload TE

    Usa solo per workflow solo-trigger dove vuoi minimizzare l'uso VRAM e non dipendi dalle didascalie per immagine.

  • Cache Text Embeddings

    Attiva solo se:

    • le didascalie sono statiche,
    • caption dropout è OFF,
    • DOP è OFF.

Se usi caption dropout o DOP, tienilo OFF.


Regolarizzazione (lato destro di TRAINING)

Differential Output Preservation (DOP) può aiutare a prevenire il bleeding.

  • Cosa fa DOP

    Incoraggia la LoRA a comportarsi come un delta controllato:

    • effetto forte quando il trigger è presente,
    • effetto minimo quando il trigger è assente.
  • Quando attivare DOP
    • Personaggio: di solito sì (specialmente per comportamento trigger on/off pulito).
    • Stile: opzionale (usalo se vuoi uno stile richiamabile).
    • Prodotto: raccomandato se l'identità del prodotto si propaga ovunque.

Regola di compatibilità chiave per Addestramento LoRA Qwen Image 2512

Se DOP è ON, non cacheare i text embeddings.

Blank Prompt Preservation

Lascia OFF a meno che tu non abbia un motivo specifico per preservare il comportamento per prompt vuoti.


5.3.7 Pannello ADVANCED – Opzioni velocità e stabilità

  • Do Differential Guidance

    Regolazione opzionale per aumentare il "segnale di apprendimento". Se lo attivi, inizia conservativamente (un valore medio) e aumenta solo se l'apprendimento sembra troppo lento.

  • Latent caching

    Nella sezione DATASETS puoi attivare Cache Latents (raccomandato per velocità se hai abbastanza disco e vuoi iterazioni più veloci).


5.3.8 Pannello DATASETS – Target Dataset, Default Caption, Settings, Resolutions

Dentro Dataset 1:

  • Target Dataset

    Scegli il dataset che hai caricato (es. my_dataset_2512).

  • Default Caption

    Scegli in base alla tua strategia di didascalie:

    • solo trigger: lascialo vuoto o solo [trigger]
    • brevi didascalie: usa un template coerente per tutto il dataset

Template didascalie:

  • Personaggio: portrait photo of [trigger], studio lighting, sharp focus
  • Stile: [trigger], watercolor illustration, pastel palette, soft edges (trigger opzionale)
  • Prodotto: product photo of [trigger], clean background, studio lighting

Regola chiave delle didascalie

Se una caratteristica appare in molte immagini di addestramento ma non la menzioni mai nelle didascalie, il modello può imparare che il trigger implicitamente significa quella caratteristica—quindi proverà a riprodurla ogni volta che usi il trigger.

  • Caption Dropout Rate

    0.05 è un punto di partenza comune quando non stai cacheando i text embeddings.

    Se attivi il cache dei text embeddings, imposta dropout a 0.

  • Settings
    • Cache Latents: raccomandato per velocità (specialmente su dataset grandi).
    • Is Regularization: usa solo se questo dataset è un dataset di regolarizzazione.
    • Flip X / Flip Y: OFF di default. Attiva solo se i ribaltamenti a specchio sono sicuri per il tuo soggetto/prodotto (nota: ribaltare può rompere testo/loghi).
  • Resolutions

    Inizia semplice:

    • Personaggio: solo 1024 (impronta pulita), aggiungi 768 dopo se necessario
    • Stile: 768 + 1024 se il dataset mescola dimensioni
    • Prodotto: solo 1024 all'inizio, aggiungi un altro bucket una volta che la forma è stabile

5.3.9 Pannello SAMPLE – anteprime di addestramento

Il sampling è il tuo sistema di allarme precoce per l'Addestramento LoRA Qwen Image 2512.

Valori predefiniti raccomandati:

  • Sample Every: 250
  • Sampler: FlowMatch (corrisponde all'addestramento)
  • Guidance Scale: 4
  • Sample Steps: 25
  • Width/Height: corrisponde al tuo bucket principale di addestramento (spesso 1024×1024)
  • Seed: 42
  • Walk Seed: opzionale (più varietà nelle anteprime)

Segnali di arresto anticipato

  • Personaggio: la somiglianza raggiunge il picco poi si stracuoce; inizia il bleeding dell'identità; la fedeltà al prompt cala.
  • Stile: diventa un "filtro universale"; appaiono texture ripetitive; i prompt non vengono più rispettati.
  • Prodotto: la geometria si deforma dopo il miglioramento; etichette/loghi diventano troppo assertivi; i materiali si degradano.

5.4 Passo 3 – Avviare l'addestramento e monitorare

Dopo aver configurato il job, vai alla Training Queue, seleziona il tuo job e avvia l'addestramento.

Osserva due cose:

  • Uso VRAM (specialmente con GPU da 24GB)
  • Immagini campione (ti dicono quando fermarti e quale checkpoint è migliore)

La maggior parte degli utenti ottiene risultati migliori nel Qwen 2512 training LoRA selezionando il miglior checkpoint dal sampling (spesso prima) piuttosto che finire sempre i passi massimi.


6. Configurazioni raccomandate per AI-Toolkit Qwen Image 2512 LoRA per livello VRAM

Qwen 2512 è grande. Per un Addestramento LoRA Qwen Image 2512 pratico, pensa a livelli:

  • 24GB VRAM (comune): fattibile, ma tipicamente hai bisogno di quantizzazione a basso bit + ARA per addestramento a 1024
  • 40–48GB VRAM: addestramento confortevole a 1024 con meno compromessi
  • 80GB+ VRAM: setup più semplice, iterazione più veloce, meno bisogno di ottimizzare la memoria

Se sei sotto i 24GB: a volte puoi addestrare a risoluzione più bassa (es. 768) con tattiche di memoria aggressive, ma aspettati esecuzioni più lente e stabilità più delicata.

Usa ARA se vuoi uno di questi:

  • Addestrare Qwen 2512 a 1024×1024 su 24GB
  • Meno problemi OOM
  • Convergenza stabile senza offload CPU pesante

7. Problemi comuni dell'Addestramento LoRA Qwen Image 2512 e come risolverli

7.1 La quantizzazione fallisce all'avvio (ARA / mismatch dtype su Qwen-Image-2512)

Sintomi

  • L'addestramento si ferma immediatamente durante l'avvio.
  • Errori come "Failed to quantize … Expected dtype …".

Perché succede

  • La modalità ARA o quantizzazione selezionata non è completamente compatibile con la build corrente di AI Toolkit o l'ambiente.

Soluzione (ordine più veloce)

  1. Aggiorna AI Toolkit e dipendenze a una versione nota per supportare Qwen-Image-2512.
  2. Cambia modalità ARA:
    • Se ARA 3-bit fallisce → prova ARA 4-bit.
    • Se ARA 4-bit fallisce → prova ARA 3-bit.
  3. Usa temporaneamente una modalità di quantizzazione a precisione più alta per confermare che il resto del setup di addestramento funziona, poi torna a ARA.

7.2 L'identità del personaggio diventa generica quando batch size > 1

Sintomi

  • I campioni precoci sembrano promettenti, ma la LoRA finale sembra "mediata".
  • Il personaggio non sembra più una persona specifica.

Perché succede

  • Batch più grandi possono incoraggiare la sovra-generalizzazione nel Qwen-Image-2512 addestramento LoRA per personaggi.

Soluzione

  • Preferisci Batch Size = 1 e Gradient Accumulation = 1.
  • Se hai bisogno di un batch effettivo più grande, aumenta Gradient Accumulation invece di Batch Size e monitora i campioni da vicino.

7.3 La somiglianza non "si fissa mai" (comportamento timestep sbagliato)

Sintomi

  • Abbigliamento, posa o vibe sono corretti, ma il volto o l'identità è incoerente.
  • I risultati variano molto tra i prompt.

Perché succede

  • Per personaggi realistici, Qwen-Image-2512 spesso risponde meglio al comportamento timestep di tipo sigmoid che ai timestep pesati.

Soluzione

  • Per LoRA personaggio (e spesso prodotto), cambia Timestep Type a sigmoid.
  • Valuta i campioni presto; non aspettare la fine dell'addestramento.

7.4 I volti diventano "fritti" o cerosi ai checkpoint tardivi

Sintomi

  • Un checkpoint sembra ottimo, ma quelli successivi sembrano troppo affilati, plastici o instabili.
  • Il bleeding dell'identità aumenta rapidamente.

Perché succede

  • Le LoRA di personaggio nel Qwen-Image-2512 addestramento LoRA possono degradarsi velocemente una volta superati circa ~100 ripetizioni per immagine.

Soluzione

  1. Seleziona un checkpoint precedente (spesso la soluzione migliore).
  2. Riduci il totale di ripetizioni/passi e resta più vicino al range raccomandato.
  3. Se necessario, abbassa il rank LoRA o aggiungi più varietà al dataset prima di aumentare i passi.

7.5 La LoRA di stile è incoerente o agisce come un "filtro universale"

Sintomi

  • A volte lo stile appare, a volte no.
  • O sovrascrive sempre il contenuto del prompt.

Perché succede

  • Le LoRA di stile spesso hanno bisogno di più ampiezza di dataset e addestramento complessivo più lungo delle LoRA di personaggio.

Soluzione

  • Aggiungi più esempi di stile diversi (persone, oggetti, ambienti).
  • Mantieni le ripetizioni per immagine ragionevoli e aumenta il segnale totale tramite più immagini piuttosto che ripetizioni estreme.
  • Fai sampling spesso per evitare che lo stile diventi un filtro globale contundente.

8. Usare la tua LoRA Qwen 2512 dopo l'addestramento

Una volta completato l'addestramento, puoi usare la tua LoRA Qwen 2512 in due modi semplici:

  • Model playground – apri il Qwen‑Image‑2512 LoRA playground e incolla l'URL della tua LoRA addestrata per vedere rapidamente come si comporta sul modello base.
  • Workflow ComfyUI – avvia un'istanza ComfyUI e costruisci il tuo workflow o caricane uno come Qwen Image 2512, aggiungi un nodo caricatore LoRA, inserisci la tua LoRA, e regola il peso LoRA e altre impostazioni per un controllo più dettagliato.

Testare la tua LoRA Qwen 2512 in inferenza

Test personaggio

  • Prompt ritratto primo piano
  • Prompt piano medio
  • Prompt corpo intero

Test stile

  • Multiple categorie di soggetti (umano/oggetto/ambiente)

Test prodotto

  • Prompt studio pulito + un prompt scena complessa

Altre guide di addestramento LoRA con AI Toolkit

Ready to start training?