Guida all'addestramento LoRA Qwen-Image-2512 con Ostris AI Toolkit

Qwen‑Image‑2512 (spesso abbreviato in Qwen 2512) è un grande modello base testo-immagine che può essere affinato con piccoli adattatori per imparare in modo affidabile un personaggio (somiglianza), uno stile o un prodotto/concetto. Questa guida ti mostra come eseguire un Addestramento LoRA Qwen Image 2512 pratico usando Ostris AI Toolkit, con impostazioni predefinite stabili e soluzioni ai problemi comuni.

Alla fine di questa guida su come addestrare una LoRA Qwen Image 2512, sarai in grado di:

Scegliere le impostazioni predefinite corrette per LoRA personaggio vs stile vs prodotto su Qwen-Image-2512.
Pianificare i requisiti VRAM e decidere quando ARA è utile.
Costruire dataset, didascalie e trigger che evitano i problemi comuni (overfitting/bleeding).
Eseguire un breve smoke test, poi fissare i passi e le impostazioni con sicurezza.

Questo articolo fa parte della serie Qwen-Image-2512 addestramento LoRA con AI-Toolkit. Se sei nuovo su Ostris AI Toolkit, inizia con l'introduzione all'addestramento LoRA con AI Toolkit prima di approfondire questa guida sull'Addestramento LoRA Qwen Image 2512.

Indice

1. Panoramica di Qwen‑Image‑2512: cosa può fare questo modello testo-immagine
2. Opzioni ambiente: lavorare nell'interfaccia di addestramento AI Toolkit
3. Hardware e requisiti VRAM per Addestramento LoRA Qwen Image 2512
4. Costruire un dataset per Qwen 2512 training LoRA
5. Passo dopo passo: Addestramento LoRA Qwen Image 2512 in AI Toolkit
6. Configurazioni raccomandate per AI-Toolkit Qwen Image 2512 LoRA per livello VRAM
7. Problemi comuni dell'Addestramento LoRA Qwen Image 2512 e come risolverli
8. Usare la tua LoRA Qwen‑Image‑2512 dopo l'addestramento

1. Panoramica di Qwen‑Image‑2512: cosa può fare questo modello testo-immagine

Cos'è l'Addestramento LoRA Qwen Image 2512 (e cosa significa "buono")

Nell'Addestramento LoRA Qwen Image 2512, non stai sostituendo il modello base—stai aggiungendo un piccolo adattatore che lo orienta verso un'identità, uno stile o un concetto di prodotto specifico.

Una LoRA forte ha tre qualità:

Forza: cambia chiaramente gli output quando è attiva
Controllo: si attiva solo quando lo vuoi
Generalizzazione: funziona su nuovi prompt, non solo sulle tue immagini di addestramento

Scegli il tuo obiettivo: Personaggio vs Stile vs Prodotto/Concetto

Il tuo obiettivo determina le migliori impostazioni predefinite per la progettazione del dataset e le impostazioni di addestramento nel Qwen-Image-2512 addestramento LoRA.

Personaggio / somiglianza

Ideale per: una persona specifica, personaggio, somiglianza con celebrità, volto/identità coerente
Rischi principali: bleeding dell'identità (influenza altre persone), volti stracotti, overfitting rapido
Richiede: strategia timestep più stretta, passi attenti, solitamente un trigger, spesso DOP

Stile

Ideale per: un look/grade, stile illustrazione, stile illuminazione, linguaggio delle texture
Rischi principali: diventare un "filtro universale", perdere fedeltà al prompt
Richiede: più varietà, spesso meno ripetizioni/immagine rispetto ai personaggi, trigger opzionale

Prodotto / concetto

Ideale per: un prodotto specifico (scarpa, bottiglia), packaging con logo, un nuovo concetto di oggetto
Rischi principali: deriva della forma, materiali incoerenti, geometria instabile
Richiede: inquadratura coerente + didascalie pulite; trigger solitamente raccomandato

Se non sei sicuro, inizia l'Addestramento LoRA Qwen Image 2512 come smoke test (esecuzione breve), poi fissa i passi finali una volta che vedi quanto velocemente il tuo dataset "si imprime".

2. Opzioni ambiente: AI Toolkit locale vs AI Toolkit cloud su RunComfy

Per l'Addestramento LoRA Qwen Image 2512, puoi usare gli stessi due ambienti di altri workflow LoRA AI Toolkit:

AI Toolkit locale sulla tua GPU
AI Toolkit cloud su RunComfy con GPU grandi (H100 / H200)

L'interfaccia di addestramento, i parametri e il workflow sono identici in entrambi i casi. L'unica differenza è dove si trova la GPU e quanta VRAM hai disponibile.

2.1 AI Toolkit locale (la tua GPU)

Installa AI Toolkit dal repository GitHub di AI Toolkit, poi avvia l'interfaccia Web. L'addestramento locale è una buona scelta se:

Hai già una GPU NVIDIA (tipicamente 24GB VRAM o più per un addestramento confortevole a 1024)
Sei a tuo agio nella gestione di CUDA, driver, spazio disco e job di lunga durata

2.2 AI Toolkit cloud su RunComfy (H100 / H200)

Con l'AI Toolkit cloud su RunComfy, l'AI-Toolkit Qwen Image 2512 LoRA funziona interamente nel browser:

Non installi nulla localmente
Apri un browser, accedi e arrivi direttamente nell'interfaccia di addestramento AI Toolkit
Puoi selezionare GPU grandi come H100 (80GB) o H200 (141GB) quando avvii un job
Ottieni un workspace persistente dove dataset, configurazioni e checkpoint sono salvati e possono essere riutilizzati tra le sessioni

Questo ambiente è particolarmente utile per l'Addestramento LoRA Qwen Image 2512 quando:

Vuoi iterazione più veloce a 1024×1024 senza trucchi di memoria aggressivi
Vuoi sperimentare con rank LoRA più grandi, più bucket o batch size più alti
Non vuoi passare tempo a debuggare problemi CUDA o driver

👉 Aprilo qui: AI Toolkit cloud su RunComfy

3. Hardware e requisiti VRAM per Addestramento LoRA Qwen Image 2512

3.1 Pianificazione hardware: livelli VRAM e quando ARA conta

Qwen 2512 è grande. Per un Addestramento LoRA Qwen Image 2512 pratico, pensa a livelli:

24GB VRAM (comune): fattibile, ma tipicamente hai bisogno di quantizzazione a basso bit + ARA per addestramento a 1024
40–48GB VRAM: addestramento confortevole a 1024 con meno compromessi
80GB+ VRAM: setup più semplice, iterazione più veloce, meno bisogno di ottimizzare la memoria

Se sei sotto i 24GB: a volte puoi addestrare a risoluzione più bassa (es. 768) con tattiche di memoria aggressive, ma aspettati esecuzioni più lente e stabilità più delicata.

3.2 ARA spiegato: cos'è, quando usarlo e come influenza l'addestramento

Cos'è ARA

ARA (Accuracy Recovery Adapter) è un meccanismo di recupero usato con quantizzazione a bit molto bassi (comunemente 3-bit o 4-bit). Il modello base gira quantizzato per risparmiare VRAM, mentre ARA aiuta a recuperare la precisione persa per la quantizzazione.

Quando usare ARA per Qwen 2512

Usa ARA se vuoi uno di questi:

Addestrare Qwen 2512 a 1024×1024 su 24GB
Meno problemi OOM
Convergenza stabile senza offload CPU pesante

Come ARA influenza l'addestramento (compromessi)

Pro

Rende l'addestramento a 1024 fattibile su GPU consumer
Spesso migliora la stabilità rispetto alla quantizzazione "semplice a basso bit"

Contro

Aggiunge parti mobili extra (la compatibilità strumenti/versioni conta)
Se la quantizzazione fallisce, potresti dover aggiustare la modalità di quantizzazione o aggiornare il tuo ambiente

Guida pratica per Addestramento LoRA Qwen Image 2512

Inizia con ARA 3-bit su 24GB
Se ci sono errori di quantizzazione, prova ARA 4-bit
Se i problemi persistono, usa temporaneamente una modalità di quantizzazione a precisione più alta per validare il resto della tua pipeline, poi torna a ARA

4. Costruire un dataset per Qwen 2512 training LoRA

4.1 Design del dataset: cosa raccogliere per ogni obiettivo

La maggior parte dei fallimenti nell'Addestramento LoRA Qwen Image 2512 sono fallimenti del dataset mascherati.

Regole universali

Converti tutto in RGB (evita scala di grigi/CMYK)
Rimuovi immagini rotte/corrotte
Evita quasi-duplicati a meno che tu non voglia intenzionalmente che quello scatto domini
Mantieni la risoluzione coerente dove possibile (o usa un piccolo set di bucket)

Dataset personaggio (15–50 immagini)

Punta a:

30–60% primi piani / testa e spalle
30–50% piani medi
10–20% corpo intero (opzionale ma aiuta la generalizzazione abbigliamento/posa)

Mantieni illuminazione e sfondi abbastanza variati perché "identità" sia il segnale coerente.

Dataset stile (30–200 immagini)

Punta a:

Ampia varietà di soggetti (persone, oggetti, ambienti)
Composizione e situazioni di colore variate
Segnali di stile coerenti (pennello, ombreggiatura, palette, grana della pellicola, ecc.)

Le LoRA di stile nel Qwen 2512 training LoRA generalizzano meglio quando lo stile è l'unico fattore coerente.

Dataset prodotto / concetto (20–80 immagini)

Punta a:

Angoli e inquadratura coerenti (frontale/laterale/45 gradi)
Scala del prodotto coerente nell'inquadratura (evita differenze di zoom estreme)
Multiple condizioni di illuminazione se il materiale conta (opaco vs lucido)
Sfondi puliti aiutano all'inizio (puoi aggiungere scene complesse dopo)

4.2 Didascalie e trigger: template per Personaggio / Stile / Prodotto

Puoi addestrare Qwen 2512 con solo trigger o con brevi didascalie coerenti.

4.2.1 La regola chiave delle didascalie

Se una caratteristica appare in molte immagini di addestramento ma non la menzioni mai nelle didascalie, il modello può imparare che il trigger implicitamente significa quella caratteristica—quindi proverà a riprodurla ogni volta che usi il trigger.

Questo è un motivo comune per cui una LoRA "forza" un taglio di capelli, outfit, colore di sfondo o stile di camera ogni volta che si attiva.

4.2.2 Template didascalie per personaggio

Raccomandato: usa un trigger. Mantieni le didascalie corte.

Solo trigger:
[trigger]
Breve didascalia:
portrait photo of [trigger], studio lighting, sharp focus

photo of [trigger], natural skin texture, realistic

Evita di descrivere eccessivamente le parti del viso (occhi, naso, ecc.). Lascia che il modello impari l'identità dalle immagini.

4.2.3 Template didascalie per stile

Il trigger è opzionale. Se ne usi uno, hai un interruttore on/off.

Senza trigger, breve didascalia:
in a watercolor illustration style, soft edges, pastel palette
Trigger + breve didascalia:
[trigger], watercolor illustration, pastel palette, soft edges

Per lo stile, le didascalie dovrebbero descrivere attributi di stile, non contenuto della scena.

4.2.4 Template didascalie per prodotto/concetto

Il trigger è fortemente raccomandato per il controllo.

Semplice:
product photo of [trigger], clean background, studio lighting
Se il prodotto ha caratteristiche distintive:
product photo of [trigger], transparent bottle, blue label, studio lighting

Evita didascalie lunghe. Per i prodotti, una formulazione coerente migliora la stabilità della geometria.

5. Passo dopo passo: Addestramento LoRA Qwen Image 2512 in AI Toolkit

Questa sezione segue lo stesso flusso dell'interfaccia di addestramento AI Toolkit. Crea prima i tuoi dataset, poi configura un nuovo job pannello per pannello.

5.1 Passo 0 – Scegli il tuo obiettivo (Personaggio vs Stile vs Prodotto)

Prima di toccare le impostazioni, decidi cosa stai addestrando. Questo determina le migliori impostazioni predefinite per didascalie, passi e regolarizzazione.

Personaggio / somiglianza: coerenza identità più forte (volto/aspetto). Rischio più alto di bleeding e overfitting rapido.
Stile: look visivo coerente (palette/texture/illuminazione). Rischio più alto di diventare un "filtro universale".
Prodotto / concetto: identità oggetto stabile e geometria. Rischio più alto di deriva forma/materiale.

Se non sei sicuro, esegui prima un breve smoke test (vedi TRAINING + SAMPLE sotto), poi fissa i passi una volta che vedi quanto velocemente il tuo dataset "si imprime".

5.2 Passo 1 – Creare dataset in AI Toolkit

Nell'interfaccia AI Toolkit, apri la scheda Datasets.

Crea almeno un dataset (nome esempio):

my_dataset_2512

Carica le tue immagini in questo dataset.

Regole qualità dataset (tutti gli obiettivi)

Converti tutto in RGB (evita scala di grigi/CMYK).
Rimuovi file rotti/corrotti.
Evita quasi-duplicati a meno che tu non voglia intenzionalmente che quel look/posa domini.

Dimensioni dataset suggerite

Personaggio: 15–50 immagini
Stile: 30–200 immagini (più varietà aiuta)
Prodotto: 20–80 immagini (inquadratura coerente aiuta)

5.3 Passo 2 – Creare un nuovo Job

Apri la scheda New Job. Configura ogni pannello nell'ordine in cui appaiono.

5.3.1 Pannello JOB – Training Name, GPU ID, Trigger Word

Training Name
Scegli un nome chiaro che riconoscerai dopo (es. qwen_2512_character_v1, qwen_2512_style_v1, qwen_2512_product_v1).
GPU ID – su un'installazione locale, scegli la GPU sulla tua macchina. Nel AI Toolkit cloud su RunComfy, lascia GPU ID al valore predefinito. Il tipo di macchina effettivo (H100 / H200) viene scelto dopo quando avvii il job dalla Training Queue.
Trigger Word
Uso raccomandato in base al tuo obiettivo:

Personaggio: fortemente raccomandato (ti dà controllo on/off pulito e aiuta a prevenire bleeding).
Stile: opzionale (usalo se vuoi uno "stile richiamabile" invece di sempre attivo).
Prodotto: fortemente raccomandato (aiuta a mantenere il concetto appreso controllabile).

Se usi un trigger, le tue didascalie possono includere un placeholder come [trigger] e seguire template coerenti (vedi sotto).

5.3.2 Pannello MODEL – Model Architecture, Name or Path, Options

Model Architecture
Seleziona Qwen-Image-2512.
Name or Path
Usa Qwen/Qwen-Image-2512. Nella maggior parte delle build AI Toolkit, selezionando Qwen‑Image‑2512 questo valore verrà compilato automaticamente.

Se lo sovrascrivi, usa il formato ID repo Hugging Face: org-or-user/model-name (opzionalmente org-or-user/model-name@revision).
Options

Low VRAM: attivalo per GPU da 24GB durante l'Addestramento LoRA Qwen Image 2512.
Layer Offloading: trattalo come ultima risorsa se hai ancora OOM dopo quantizzazione, rank più basso e meno bucket.

Ordine offloading (migliori pratiche):

1) ARA + Low VRAM

2) Ridurre rank

3) Ridurre bucket di risoluzione

4) Ridurre frequenza/risoluzione sampling

5) Poi attivare Layer Offloading

5.3.3 Pannello QUANTIZATION – Transformer, Text Encoder

Qui è dove la maggior parte delle esecuzioni di Addestramento LoRA Qwen Image 2512 su 24GB ha successo o fallisce.

Baseline 24GB (raccomandato per addestramento a 1024)

Quantizza il Transformer e usa ARA (3-bit prima, 4-bit se necessario).
Quantizza il Text Encoder a float8 se hai bisogno di margine VRAM extra.

GPU con VRAM grande
Puoi ridurre la quantizzazione o disabilitarla per semplicità se l'addestramento è stabile e abbastanza veloce.

Se la quantizzazione fallisce (errori dtype/quantize), trattalo prima come problema di compatibilità strumenti:

passa da ARA 3-bit ↔ 4-bit,
aggiorna AI Toolkit/dipendenze,
o usa temporaneamente una modalità a precisione più alta per validare il resto del tuo setup job, poi torna a ARA.

5.3.4 Pannello TARGET – Target Type, Linear Rank

Target Type: scegli LoRA.
Linear Rank
Punti di partenza raccomandati per obiettivo:

Personaggio: 32
Stile: 16–32
Prodotto: 32

Regole generali:

Se OOM → riduci il rank prima di toccare tutto il resto.
Se underfitting → regola prima timesteps/steps/LR, poi considera di aumentare il rank.
Se overfitting → riduci ripetizioni/passi, riduci rank, aggiungi varietà, considera DOP.

5.3.5 Pannello SAVE – Data Type, Save Every, Max Step Saves to Keep

Data Type: BF16 (valore predefinito stabile).
Save Every: 250 (buona cadenza di checkpoint).
Max Step Saves to Keep: 4 (mantiene l'uso del disco sotto controllo).

5.3.6 Pannello TRAINING – iperparametri principali

Questi sono i valori predefiniti con cui iniziano la maggior parte delle esecuzioni:

Batch Size: 1
Gradient Accumulation: 1
Optimizer: AdamW8Bit
Learning Rate: 0.0001
Weight Decay: 0.0001
Timestep Type: Weighted
Timestep Bias: Balanced
Loss Type: Mean Squared Error
Use EMA: OFF (per LoRA Qwen 2512)

Guida Timestep Type per obiettivo

Personaggio: Weighted è una baseline sicura; se la somiglianza non si fissa o sembra incoerente, prova un'impostazione timestep più favorevole all'identità (spesso migliora l'impronta del personaggio).
Stile: Weighted di solito funziona; aumenta la varietà prima di aumentare i passi.
Prodotto: Weighted è una baseline stabile; se la geometria deriva, riduci prima le ripetizioni o stringa le didascalie/trigger.

Steps: valori raccomandati per Personaggio vs Stile vs Prodotto

Gli steps non dovrebbero essere un singolo numero magico. Un modo più affidabile sono le ripetizioni per immagine:

ripetizioni ≈ (steps × batch_size × grad_accum) ÷ num_images
con batch_size=1 e grad_accum=1: steps ≈ ripetizioni × num_images

Se aumenti gradient accumulation a 2 o 4, riduci gli steps proporzionalmente.

Ripetizioni per immagine per personaggio (somiglianza)

Smoke test: 30–50
Sweet spot tipico: 50–90
Push alta somiglianza: 90–120 (attenzione al bleeding)

Esempi (batch=1, accum=1):

Immagini	30–50 rip.	50–90 rip.	90–120 rip.
15	450–750	750–1350	1350–1800
25	750–1250	1250–2250	2250–3000
40	1200–2000	2000–3600	3600–4800

Ripetizioni per immagine per stile

Smoke test: 15–30
Sweet spot tipico: 25–60
Limite superiore: 60–80 (solo con dataset grandi e diversi)

Esempi (batch=1, accum=1):

Immagini	15–30 rip.	25–60 rip.	60–80 rip.
30	450–900	750–1800	1800–2400
100	1500–3000	2500–6000	6000–8000

Ripetizioni per immagine per prodotto / concetto

Smoke test: 20–40
Sweet spot tipico: 30–70
Push alta fedeltà: 70–90 (solo se forma/materiale è ancora in underfitting)

Esempi (batch=1, accum=1):

Immagini	20–40 rip.	30–70 rip.	70–90 rip.
20	400–800	600–1400	1400–1800
50	1000–2000	1500–3500	3500–4500
80	1600–3200	2400–5600	5600–7200

Ottimizzazioni Text Encoder (lato destro di TRAINING)

Unload TE
Usa solo per workflow solo-trigger dove vuoi minimizzare l'uso VRAM e non dipendi dalle didascalie per immagine.
Cache Text Embeddings
Attiva solo se:

le didascalie sono statiche,
caption dropout è OFF,
DOP è OFF.

Se usi caption dropout o DOP, tienilo OFF.

Regolarizzazione (lato destro di TRAINING)

Differential Output Preservation (DOP) può aiutare a prevenire il bleeding.

Cosa fa DOP
Incoraggia la LoRA a comportarsi come un delta controllato:

effetto forte quando il trigger è presente,
effetto minimo quando il trigger è assente.

Quando attivare DOP

Personaggio: di solito sì (specialmente per comportamento trigger on/off pulito).
Stile: opzionale (usalo se vuoi uno stile richiamabile).
Prodotto: raccomandato se l'identità del prodotto si propaga ovunque.

Regola di compatibilità chiave per Addestramento LoRA Qwen Image 2512

Se DOP è ON, non cacheare i text embeddings.

Blank Prompt Preservation

Lascia OFF a meno che tu non abbia un motivo specifico per preservare il comportamento per prompt vuoti.

5.3.7 Pannello ADVANCED – Opzioni velocità e stabilità

Do Differential Guidance
Regolazione opzionale per aumentare il "segnale di apprendimento". Se lo attivi, inizia conservativamente (un valore medio) e aumenta solo se l'apprendimento sembra troppo lento.
Latent caching
Nella sezione DATASETS puoi attivare Cache Latents (raccomandato per velocità se hai abbastanza disco e vuoi iterazioni più veloci).

5.3.8 Pannello DATASETS – Target Dataset, Default Caption, Settings, Resolutions

Dentro Dataset 1:

Target Dataset
Scegli il dataset che hai caricato (es. my_dataset_2512).
Default Caption
Scegli in base alla tua strategia di didascalie:

solo trigger: lascialo vuoto o solo [trigger]
brevi didascalie: usa un template coerente per tutto il dataset

Template didascalie:

Personaggio: portrait photo of [trigger], studio lighting, sharp focus
Stile: [trigger], watercolor illustration, pastel palette, soft edges (trigger opzionale)
Prodotto: product photo of [trigger], clean background, studio lighting

Regola chiave delle didascalie

Caption Dropout Rate
0.05 è un punto di partenza comune quando non stai cacheando i text embeddings.

Se attivi il cache dei text embeddings, imposta dropout a 0.
Settings

Cache Latents: raccomandato per velocità (specialmente su dataset grandi).
Is Regularization: usa solo se questo dataset è un dataset di regolarizzazione.
Flip X / Flip Y: OFF di default. Attiva solo se i ribaltamenti a specchio sono sicuri per il tuo soggetto/prodotto (nota: ribaltare può rompere testo/loghi).

Resolutions
Inizia semplice:

Personaggio: solo 1024 (impronta pulita), aggiungi 768 dopo se necessario
Stile: 768 + 1024 se il dataset mescola dimensioni
Prodotto: solo 1024 all'inizio, aggiungi un altro bucket una volta che la forma è stabile

5.3.9 Pannello SAMPLE – anteprime di addestramento

Il sampling è il tuo sistema di allarme precoce per l'Addestramento LoRA Qwen Image 2512.

Valori predefiniti raccomandati:

Sample Every: 250
Sampler: FlowMatch (corrisponde all'addestramento)
Guidance Scale: 4
Sample Steps: 25
Width/Height: corrisponde al tuo bucket principale di addestramento (spesso 1024×1024)
Seed: 42
Walk Seed: opzionale (più varietà nelle anteprime)

Segnali di arresto anticipato

Personaggio: la somiglianza raggiunge il picco poi si stracuoce; inizia il bleeding dell'identità; la fedeltà al prompt cala.
Stile: diventa un "filtro universale"; appaiono texture ripetitive; i prompt non vengono più rispettati.
Prodotto: la geometria si deforma dopo il miglioramento; etichette/loghi diventano troppo assertivi; i materiali si degradano.

5.4 Passo 3 – Avviare l'addestramento e monitorare

Dopo aver configurato il job, vai alla Training Queue, seleziona il tuo job e avvia l'addestramento.

Osserva due cose:

Uso VRAM (specialmente con GPU da 24GB)
Immagini campione (ti dicono quando fermarti e quale checkpoint è migliore)

La maggior parte degli utenti ottiene risultati migliori nel Qwen 2512 training LoRA selezionando il miglior checkpoint dal sampling (spesso prima) piuttosto che finire sempre i passi massimi.

6. Configurazioni raccomandate per AI-Toolkit Qwen Image 2512 LoRA per livello VRAM

Qwen 2512 è grande. Per un Addestramento LoRA Qwen Image 2512 pratico, pensa a livelli:

24GB VRAM (comune): fattibile, ma tipicamente hai bisogno di quantizzazione a basso bit + ARA per addestramento a 1024
40–48GB VRAM: addestramento confortevole a 1024 con meno compromessi
80GB+ VRAM: setup più semplice, iterazione più veloce, meno bisogno di ottimizzare la memoria

Se sei sotto i 24GB: a volte puoi addestrare a risoluzione più bassa (es. 768) con tattiche di memoria aggressive, ma aspettati esecuzioni più lente e stabilità più delicata.

Usa ARA se vuoi uno di questi:

Addestrare Qwen 2512 a 1024×1024 su 24GB
Meno problemi OOM
Convergenza stabile senza offload CPU pesante

7. Problemi comuni dell'Addestramento LoRA Qwen Image 2512 e come risolverli

7.1 La quantizzazione fallisce all'avvio (ARA / mismatch dtype su Qwen-Image-2512)

Sintomi

L'addestramento si ferma immediatamente durante l'avvio.
Errori come "Failed to quantize … Expected dtype …".

Perché succede

La modalità ARA o quantizzazione selezionata non è completamente compatibile con la build corrente di AI Toolkit o l'ambiente.

Soluzione (ordine più veloce)

Aggiorna AI Toolkit e dipendenze a una versione nota per supportare Qwen-Image-2512.
Cambia modalità ARA:

Se ARA 3-bit fallisce → prova ARA 4-bit.
Se ARA 4-bit fallisce → prova ARA 3-bit.

Usa temporaneamente una modalità di quantizzazione a precisione più alta per confermare che il resto del setup di addestramento funziona, poi torna a ARA.

7.2 L'identità del personaggio diventa generica quando batch size > 1

Sintomi

I campioni precoci sembrano promettenti, ma la LoRA finale sembra "mediata".
Il personaggio non sembra più una persona specifica.

Perché succede

Batch più grandi possono incoraggiare la sovra-generalizzazione nel Qwen-Image-2512 addestramento LoRA per personaggi.

Soluzione

Preferisci Batch Size = 1 e Gradient Accumulation = 1.
Se hai bisogno di un batch effettivo più grande, aumenta Gradient Accumulation invece di Batch Size e monitora i campioni da vicino.

7.3 La somiglianza non "si fissa mai" (comportamento timestep sbagliato)

Sintomi

Abbigliamento, posa o vibe sono corretti, ma il volto o l'identità è incoerente.
I risultati variano molto tra i prompt.

Perché succede

Per personaggi realistici, Qwen-Image-2512 spesso risponde meglio al comportamento timestep di tipo sigmoid che ai timestep pesati.

Soluzione

Per LoRA personaggio (e spesso prodotto), cambia Timestep Type a sigmoid.
Valuta i campioni presto; non aspettare la fine dell'addestramento.

7.4 I volti diventano "fritti" o cerosi ai checkpoint tardivi

Sintomi

Un checkpoint sembra ottimo, ma quelli successivi sembrano troppo affilati, plastici o instabili.
Il bleeding dell'identità aumenta rapidamente.

Perché succede

Le LoRA di personaggio nel Qwen-Image-2512 addestramento LoRA possono degradarsi velocemente una volta superati circa ~100 ripetizioni per immagine.

Soluzione

Seleziona un checkpoint precedente (spesso la soluzione migliore).
Riduci il totale di ripetizioni/passi e resta più vicino al range raccomandato.
Se necessario, abbassa il rank LoRA o aggiungi più varietà al dataset prima di aumentare i passi.

7.5 La LoRA di stile è incoerente o agisce come un "filtro universale"

Sintomi

A volte lo stile appare, a volte no.
O sovrascrive sempre il contenuto del prompt.

Perché succede

Le LoRA di stile spesso hanno bisogno di più ampiezza di dataset e addestramento complessivo più lungo delle LoRA di personaggio.

Soluzione

Aggiungi più esempi di stile diversi (persone, oggetti, ambienti).
Mantieni le ripetizioni per immagine ragionevoli e aumenta il segnale totale tramite più immagini piuttosto che ripetizioni estreme.
Fai sampling spesso per evitare che lo stile diventi un filtro globale contundente.

8. Usare la tua LoRA Qwen 2512 dopo l'addestramento

Una volta completato l'addestramento, puoi usare la tua LoRA Qwen 2512 in due modi semplici:

Run LoRA – apri la pagina Run LoRA di Qwen‑Image‑2512. In questa pagina di inferenza del modello base puoi selezionare un asset LoRA che hai addestrato su RunComfy oppure importare un file LoRA addestrato con AI Toolkit, quindi eseguire l’inferenza tramite il playground o l’API. RunComfy usa lo stesso modello base e la definizione completa della pipeline AI Toolkit dalla tua configurazione di training, quindi ciò che hai visto durante il training è ciò che ottieni in inferenza — questo allineamento stretto training/inference aiuta a mantenere risultati coerenti con i tuoi sample di training.
Workflow ComfyUI – avvia un'istanza ComfyUI e costruisci il tuo workflow o caricane uno come Qwen Image 2512, aggiungi un nodo caricatore LoRA, inserisci la tua LoRA, e regola il peso LoRA e altre impostazioni per un controllo più dettagliato.

Testare la tua LoRA Qwen 2512 in inferenza

Test personaggio

Prompt ritratto primo piano
Prompt piano medio
Prompt corpo intero

Test stile

Multiple categorie di soggetti (umano/oggetto/ambiente)

Test prodotto

Prompt studio pulito + un prompt scena complessa

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Indice

1. Panoramica di Qwen‑Image‑2512: cosa può fare questo modello testo-immagine

Cos'è l'Addestramento LoRA Qwen Image 2512 (e cosa significa "buono")

Scegli il tuo obiettivo: Personaggio vs Stile vs Prodotto/Concetto

Personaggio / somiglianza

Stile

Prodotto / concetto

2. Opzioni ambiente: AI Toolkit locale vs AI Toolkit cloud su RunComfy

2.1 AI Toolkit locale (la tua GPU)

2.2 AI Toolkit cloud su RunComfy (H100 / H200)

3. Hardware e requisiti VRAM per Addestramento LoRA Qwen Image 2512

3.1 Pianificazione hardware: livelli VRAM e quando ARA conta

3.2 ARA spiegato: cos'è, quando usarlo e come influenza l'addestramento

Cos'è ARA

Quando usare ARA per Qwen 2512

Come ARA influenza l'addestramento (compromessi)

4. Costruire un dataset per Qwen 2512 training LoRA

4.1 Design del dataset: cosa raccogliere per ogni obiettivo

Regole universali

Dataset personaggio (15–50 immagini)

Dataset stile (30–200 immagini)

Dataset prodotto / concetto (20–80 immagini)

4.2 Didascalie e trigger: template per Personaggio / Stile / Prodotto

4.2.1 La regola chiave delle didascalie

4.2.2 Template didascalie per personaggio

4.2.3 Template didascalie per stile

4.2.4 Template didascalie per prodotto/concetto

5. Passo dopo passo: Addestramento LoRA Qwen Image 2512 in AI Toolkit

5.1 Passo 0 – Scegli il tuo obiettivo (Personaggio vs Stile vs Prodotto)

5.2 Passo 1 – Creare dataset in AI Toolkit

5.3 Passo 2 – Creare un nuovo Job

5.3.1 Pannello JOB – Training Name, GPU ID, Trigger Word

5.3.2 Pannello MODEL – Model Architecture, Name or Path, Options

5.3.3 Pannello QUANTIZATION – Transformer, Text Encoder

5.3.4 Pannello TARGET – Target Type, Linear Rank

5.3.5 Pannello SAVE – Data Type, Save Every, Max Step Saves to Keep

5.3.6 Pannello TRAINING – iperparametri principali

Steps: valori raccomandati per Personaggio vs Stile vs Prodotto

Ottimizzazioni Text Encoder (lato destro di TRAINING)

Regolarizzazione (lato destro di TRAINING)

5.3.7 Pannello ADVANCED – Opzioni velocità e stabilità

5.3.8 Pannello DATASETS – Target Dataset, Default Caption, Settings, Resolutions

5.3.9 Pannello SAMPLE – anteprime di addestramento

5.4 Passo 3 – Avviare l'addestramento e monitorare

6. Configurazioni raccomandate per AI-Toolkit Qwen Image 2512 LoRA per livello VRAM

7. Problemi comuni dell'Addestramento LoRA Qwen Image 2512 e come risolverli

7.1 La quantizzazione fallisce all'avvio (ARA / mismatch dtype su Qwen-Image-2512)

7.2 L'identità del personaggio diventa generica quando batch size > 1

7.3 La somiglianza non "si fissa mai" (comportamento timestep sbagliato)

7.4 I volti diventano "fritti" o cerosi ai checkpoint tardivi

7.5 La LoRA di stile è incoerente o agisce come un "filtro universale"

8. Usare la tua LoRA Qwen 2512 dopo l'addestramento

Altre guide di addestramento LoRA con AI Toolkit