Addestramento LoRA Qwen-Image-Edit-2509 con Ostris AI Toolkit

Qwen‑Image‑Edit‑2509 è un modello di editing multi‑immagine da 20B che può elaborare fino a tre immagini contemporaneamente (target, controllo e design) per eseguire modifiche precise e consapevoli della geometria. Questa guida ti mostra come effettuare l'Addestramento LoRA Qwen-Edit-2509. Alla fine, sarai in grado di:

Completare un Addestramento LoRA Qwen-Edit-2509 per attività di editing mirate affidabili (ad esempio, mettere qualsiasi design su una maglietta) usando AI Toolkit by Ostris.
Eseguire l'intero workflow di Addestramento LoRA Qwen Edit 2509 sia localmente (anche con <10GB VRAM usando layer offloading), sia nel browser con il Cloud AI Toolkit su RunComfy su H100 / H200 (80GB / 141GB VRAM).
Capire perché i parametri chiave sono importanti per questo modello: le opzioni Match Target Res e Low VRAM, la quantizzazione Transformer/Text Encoder, il Layer Offloading, Cache Text Embeddings, Differential Output Preservation, Differential Guidance, oltre agli iperparametri base come Batch Size, Steps e LoRA Rank.
Configurare con sicurezza i tuoi propri LoRA di editing (relighting, prova vestiti, pelle, sostituzione oggetti…).

Se cerchi il checkpoint più recente e un comportamento di editing più orientato alla "coerenza prima", consulta il Tutorial di addestramento LoRA Qwen-Edit-2509 versione 2511.

Questo articolo fa parte della serie di addestramento LoRA AI Toolkit. Se sei nuovo su Ostris AI Toolkit, inizia con la panoramica sull'addestramento LoRA AI Toolkit prima di approfondire questa guida.

Indice

1. Panoramica di Qwen‑Image‑Edit‑2509: cosa può fare questo modello di editing
2. Opzioni di ambiente: AI Toolkit locale vs Cloud AI Toolkit su RunComfy
3. Requisiti hardware e VRAM per l'Addestramento LoRA Qwen-Edit-2509
4. Costruire un dataset per l'Addestramento LoRA Qwen-Edit-2509
5. Passo dopo passo: Come addestrare LoRA Qwen Edit 2509 in AI Toolkit
6. Configurazioni raccomandate per l'Addestramento LoRA Qwen-Edit-2509 per livello di VRAM
7. Problemi comuni nell'Addestramento LoRA Qwen-Edit-2509 e come risolverli
8. Usare il tuo LoRA Qwen Edit 2509 dopo l'addestramento

1. Panoramica di Qwen‑Image‑Edit‑2509: cosa può fare questo modello di editing

Qwen‑Image‑Edit‑2509 (spesso abbreviato in Qwen Edit 2509 o Qwen Image Edit Plus) è l'iterazione di settembre 2025 del modello Qwen‑Image‑Edit. È costruito sulla base 20B Qwen‑Image, con pesi ufficiali sulla pagina del modello Qwen‑Image‑Edit‑2509 su Hugging Face.

Rispetto alla prima versione di Qwen‑Image‑Edit, 2509 aggiunge:

Editing multi-immagine – il modello può prendere 1–3 immagini di input contemporaneamente (es. persona + vestito + posa, o foto sorgente + riferimento illuminazione).
Comportamento di concatenazione immagini – nelle pipeline ufficiali ogni immagine di input viene ridimensionata a circa 1 megapixel e poi elaborata insieme. Il modello vede effettivamente un budget di pixel fisso anche quando fornisci più controlli.
Migliore editing di testo e dettagli – alimentato da Qwen2.5-VL e un VAE dedicato, gestisce molto meglio testi piccoli, loghi e dettagli fini.

Casi d'uso tipici di LoRA dove le persone già usano Fine-tuning LoRA Qwen Edit 2509:

Prova vestiti / cambio outfit – Qwen‑Image‑Edit‑2509‑Clothing‑Tryon‑LoRA.
Relighting / raffinamento illuminazione – Qwen‑Image‑Edit‑2509‑Relight‑LoRA.
Fusione stile e dettagli multi-effetto – Qwen‑Image‑Edit‑2509‑Multi‑Effect‑Fusion‑LoRA.
Restauro leggero, più conversione di foto sfondo bianco in scene complete – Qwen‑Image‑Edit‑2509‑White‑Film‑To‑Rendering‑LoRA.
Stilizzazione foto verso anime – Qwen‑Image‑Edit‑2509‑Anime‑Stylization‑LoRA.
Editing posa romantica / bacio – Qwen‑Image‑Edit‑2509‑Passionate‑Kiss‑LoRA.
Stile caricatura / ritratto esagerato – Qwen‑Image‑Edit‑2509‑Caricature‑LoRA.

Qwen‑Image‑Edit e Qwen‑Image condividono essenzialmente la stessa base. I test della community mostrano che i LoRA addestrati su Qwen‑Image sono compatibili con Qwen‑Image‑Edit / 2509 e viceversa, perché gli adapter si collegano allo stesso backbone.

2. Opzioni di ambiente: AI Toolkit locale vs Cloud AI Toolkit su RunComfy

2.1 AI Toolkit locale (la tua GPU)

Installa AI Toolkit dal repository GitHub AI Toolkit, poi avvia la Web UI. L'addestramento locale è una buona scelta se hai già una scheda NVIDIA da 24GB+, sei a tuo agio con la gestione di CUDA / driver / spazio disco, e non ti dispiace lasciare l'addestramento girare tutta la notte.

2.2 Cloud AI Toolkit su RunComfy (H100 / H200)

Con il Cloud AI Toolkit su RunComfy, AI Toolkit gira interamente nel cloud:

Non devi installare nulla – basta aprire un browser, accedere, e sei nell'UI di AI Toolkit.
Hai accesso a GPU potenti come H100 (80GB) e H200 (141GB) per lavori pesanti di Addestramento LoRA Qwen-Edit-2509.
Ottieni un workspace persistente – dataset, configurazioni e lavori passati rimangono legati al tuo account così puoi tornare e iterare.

👉 Aprilo qui: Cloud AI Toolkit su RunComfy

Il resto di questo tutorial funziona in modo identico in entrambi gli ambienti; solo il posto dove risiede la GPU è diverso.

3. Requisiti hardware e VRAM per l'Addestramento LoRA Qwen-Edit-2509

Qwen‑Image‑Edit‑2509 è un modello pesante:

Il modello base ha circa 20B parametri.
La pipeline di editing può passare fino a 3 × ~1MP immagini attraverso il transformer contemporaneamente.

Nella configurazione esempio standard da 32GB per 2509 (train_lora_qwen_image_edit_2509_32gb.yaml), gli utenti riportano circa:

27–28.5GB VRAM per addestramento a 1024×1024.
25–26GB VRAM per addestramento a 768×768 — ancora niente fortuna per 24GB.

Ecco perché l'esempio ufficiale è esplicitamente una configurazione da 32GB. Ma con quantizzazione ARA 3-bit + modalità Low VRAM + Layer Offloading (RAMTorch), Ostris mostra che puoi fare l'Addestramento LoRA Qwen-Edit-2509 con solo ~8–9GB GPU VRAM, al costo di alta RAM CPU (60GB+) e addestramento più lento.

Livello	Dove	Hardware esempio	Come appare
VRAM bassa (~10–12GB)	Locale	RTX 3060 12GB, 4070, etc.	Devi abilitare la quantizzazione nel pannello QUANTIZATION (ARA 3-bit per il modello base) e usare Layer Offloading aggressivo. Aspettati ~8–9GB GPU VRAM e 60GB+ CPU RAM, con ~10–12s/step su una CPU di fascia media. Questa configurazione (2 flussi di controllo) addestra comodamente fino a 1024×1024; considera 1024² come la tua risoluzione massima pratica a questo livello.
24GB stretta	Locale	RTX 3090 / 4090 / 5090	24GB non può far girare la config standard 32GB Qwen‑Edit LoRA a 1024² con 2 controlli senza offloading (picco intorno a ~24.7GB VRAM), quindi hai ancora bisogno di trucchi Low VRAM come ARA 3-bit, gradient checkpointing e/o offload parziale. Considera 768×768 come la risoluzione target massima pratica con 2 controlli a meno che non aggiungi un po' di offloading.
32GB comoda	Locale	RTX 4090 32GB, schede più recenti	Questo è il livello per cui è calibrato l'ufficiale `train_lora_qwen_image_edit_32gb.yaml`: quantizzazione ARA 3-bit, bucket di risoluzione 1024², rank LoRA medio, nessun offloading. Con 32GB puoi considerare 1024×1024 (con 2–3 flussi di controllo) come una risoluzione di lavoro normale.
VRAM alta (80–141GB)	Cloud AI Toolkit su RunComfy	H100 80GB / H200 141GB	Puoi mantenere le configurazioni semplici (quantizzazione attiva, offloading disattivo), usare batch più grandi (4–8), e addestrare a 1024×1024 di default senza preoccuparti di OOM. A questo livello puoi anche sperimentare con risoluzioni leggermente più alte (es. 1280–1536px), ma 1024² rimane la dimensione target più sicura e testata.

Su una 4090 con offloading completo, l'esempio di Ostris raggiunge ~9GB VRAM e ~64GB CPU RAM, eseguendo ~5k step in circa un giorno. Su una 5090 senza offload, le iterazioni sono circa 2–3× più veloci.

4. Costruire un dataset per l'Addestramento LoRA Qwen-Edit-2509

Replicheremo l'esempio del "design maglietta" dal tutorial di Ostris e lo generalizzeremo così puoi adattarlo ad altre attività.

4.1 Tre flussi logici di immagini

Per un LoRA di design vestiti, il modello deve imparare: Data una persona che indossa una maglietta vuota e un'immagine di design, mettere questo design sulla loro maglietta preservando posa, illuminazione e pieghe.

Immagini target (cosa vuoi come risultato) – una persona che indossa una maglietta con il design già sopra. Questi sono gli output che vuoi che il modello riproduca.
Immagini di controllo (magliette vuote, stesse persone) – gli stessi soggetti e pose dei target, ma senza il design (o con una maglietta semplice). Questi controllano geometria, pieghe, illuminazione e occlusioni (braccia, capelli, collane, etc.).
Immagini di design – il design stesso su uno sfondo neutro (grigio, nero o bianco). Puoi includere alcune varianti (diversi colori di sfondo) per aumentare la robustezza.

Nell'esempio di Ostris, circa 26 triplette (persona + maglietta vuota + design) sono state sufficienti per ottenere prestazioni molto forti, inclusi QR code e loghi complessi che si mappano correttamente sul tessuto. Per LoRA di produzione, iniziare con 20–60 triplette ben curate (target + controllo + design) è una buona base.

4.2 Risoluzione e rapporto d'aspetto

Qwen‑Image‑Edit‑2509:

Ridimensiona internamente ogni input a circa 1MP (es. 1024×1024 o equivalente).
Funziona meglio quando le tue immagini di addestramento sono quadrate o quasi quadrate (useremo 1024×1024 qui), o un rapporto d'aspetto consistente (es. tutte 3:4).

In questo tutorial assumiamo immagini quadrate così il bucketing è semplice:

Target, controlli e design tutti intorno a 1024×1024. AI Toolkit farà bucket in 512 / 768 / 1024 a seconda di cosa abiliti nel pannello DATASETS.

4.3 Didascalie

Per questo LoRA di design vestiti, usiamo nessuna didascalia per immagine, solo una singola didascalia predefinita a livello di dataset: put this design on their shirt

Questo funziona perché:

La semantica è semplice e identica per tutti i campioni.
Le immagini di controllo e design portano la maggior parte delle informazioni interessanti.

Per LoRA di editing più complessi (come "illuminare come luce di bordo da studio" vs "ora dorata"), dovresti usare didascalie per immagine che descrivono l'edit desiderato.

5. Passo dopo passo: Come addestrare LoRA Qwen Edit 2509 in AI Toolkit

5.1 Step 0 – Scegli dove eseguirai AI Toolkit

Puoi eseguire AI Toolkit in due modi per questo tutorial:

AI Toolkit locale (la tua GPU) – installa AI Toolkit, avvia la Web UI, e aprila localmente. Assicurati di avere una GPU NVIDIA con almeno 10–12GB VRAM (24GB+ preferito) e abbastanza RAM CPU (idealmente 64GB+ se prevedi di usare Layer Offloading).
Cloud AI Toolkit su RunComfy – accedi al Cloud AI Toolkit su RunComfy. Atterri direttamente nell'UI AI Toolkit in esecuzione nel cloud. Quando avvii un job dalla Training Queue scegli una macchina H100 (80GB) o H200 (141GB).

5.2 Step 1 – Creare dataset in AI Toolkit

Nell'UI AI Toolkit, apri la scheda Datasets.

Crea tre dataset (i nomi sono solo esempi):

shirt_target
shirt_control
shirt_design

Carica le tue immagini così ogni dataset ha un ruolo chiaro:

shirt_target – 20–60 foto di persone che indossano magliette con design.
shirt_control – le stesse persone e pose senza design (o con una maglietta vuota).
shirt_design – immagini di design quadrate su sfondi semplici (grigio, nero o bianco).

Se non hai preparato didascalie come file .txt, lascia le didascalie per immagine vuote per ora. Aggiungeremo una singola Didascalia Predefinita a livello di job più tardi.

Nota importante sull'accoppiamento

Le immagini target e di controllo dovrebbero essere accoppiate in ordine (stessa persona, stessa posa) il più possibile. Per mantenere stabile l'accoppiamento, usa nomi file corrispondenti tra le cartelle così l'ordine alfabetico si allinea, ad esempio: shirt_target/img_0001.jpg, shirt_control/img_0001.jpg, shirt_design/img_0001.png. Ogni immagine target dovrebbe avere un'immagine di controllo e design corrispondente con lo stesso indice.

5.3 Step 2 – Creare un nuovo Job

Apri la scheda New Job. Configuriamo ogni pannello nell'ordine in cui appaiono.

5.3.1 Pannello JOB – nome job, GPU, parola trigger

Training Name – imposta qualsiasi nome descrittivo, ad esempio qwen_edit2509_shirt_lora_v1. Questo diventa il nome del job e il nome della cartella dove vengono salvati i checkpoint.
GPU ID – su un'installazione locale, scegli la GPU sulla tua macchina. Nel Cloud AI Toolkit su RunComfy, lascia GPU ID al valore predefinito. Il tipo di macchina effettivo (H100 / H200) viene scelto dopo quando avvii il job dalla Training Queue.
Trigger Word – inserisci la frase che vuoi digitare al momento dell'inferenza, ad esempio: put this design on their shirt. Nelle didascalie del tuo dataset puoi usare [trigger] come segnaposto. AI Toolkit sostituisce [trigger] con il Trigger Word durante l'addestramento. Una frase trigger chiara ti dà un interruttore on/off pulito per il LoRA: i prompt che non lo contengono dovrebbero rimanere vicini al comportamento base di Qwen‑Image‑Edit‑2509, specialmente se abiliti anche Differential Output Preservation (DOP) come raccomandato più avanti.

5.3.2 Pannello MODEL – modello base e opzioni VRAM

Model Architecture – seleziona Qwen‑Image‑Edit‑2509.
Name or Path – l'ID modello Hugging Face (repo id) per il checkpoint base, ad esempio: Qwen/Qwen-Image-Edit-2509.
Nella maggior parte delle build AI Toolkit, selezionare Qwen‑Image‑Edit‑2509 compilerà automaticamente questo valore; lascialo così a meno che tu non abbia una ragione per cambiarlo.

In Options:

Low VRAM – attiva ON per GPU con ≤ 24GB VRAM. Questo abilita checkpointing extra e trucchi di risparmio memoria dentro il backbone così il grande modello Qwen entra più facilmente.
Match Target Res – attiva ON per job di Addestramento LoRA Qwen-Edit-2509. Questo ridimensiona le immagini di controllo per corrispondere allo stesso bucket di risoluzione dell'immagine target (es. 768×768 o 1024×1024). Mantiene la geometria di editing allineata e evita di sprecare VRAM su controlli sovradimensionati.
Layer Offloading – tratta questo come una valvola di sicurezza. Attivalo ON su GPU molto piccole se ottieni ancora CUDA OOM dopo aver abilitato Low VRAM e quantizzazione; questo scaricherà alcuni layer sulla RAM CPU al costo di step più lenti. Lascialo OFF su GPU da 24GB+ o GPU cloud su RunComfy per la migliore velocità.

5.3.3 Pannello QUANTIZATION – adattare il grande transformer

Qwen‑Image‑Edit‑2509 è abbastanza grande che la quantizzazione è quasi sempre una buona idea.

Transformer – imposta su float8 (default). In AI Toolkit questo tipicamente corrisponde a una base ARA 3-bit con un adapter di "recupero" 8-bit, così ottieni utilizzo VRAM vicino a un modello 3-bit con qualità vicina alla precisione completa.
Text Encoder – imposta anche su float8 (default). Il text encoder è grande, e farlo girare in fp8 risparmia molta VRAM con perdita di qualità minima.

Non devi configurare manualmente i file ARA nell'UI; selezionare le opzioni float8 è sufficiente.

5.3.4 Pannello TARGET – tipo LoRA e rank

Questo pannello dice ad AI Toolkit che stai addestrando un LoRA e quanta capacità dovrebbe avere.

Target Type – scegli LoRA.
Linear Rank – per l'Addestramento LoRA Qwen-Edit-2509, 32 è un buon valore predefinito. È abbastanza espressivo per comportamenti come "mettere questo design sulla loro maglietta" ma ancora leggero da addestrare e caricare. Su GPU molto piccole puoi scendere a 16; per comportamenti più complessi puoi sperimentare con 48–64 (osserva attentamente l'overfitting con rank più alti).

5.3.5 Pannello SAVE – tipo checkpoint e frequenza

Data Type – scegli BF16. Qwen‑Image‑Edit‑2509 tipicamente gira in bfloat16, e salvare i pesi LoRA in BF16 li mantiene compatibili e ragionevolmente piccoli.
Save Every – 250 step è un valore pratico predefinito; otterrai un checkpoint ogni 250 step di addestramento.
Max Step Saves to Keep – 4 mantiene gli ultimi quattro checkpoint e elimina automaticamente i più vecchi così il tuo disco non si riempie.

5.3.6 Pannello TRAINING – iperparametri base

Il pannello TRAINING controlla quanto aggressivamente fine-tuniamo Qwen‑Image‑Edit‑2509.

Valori iniziali raccomandati per un LoRA a dataset singolo (10–40 immagini a 768–1024px):

Batch Size – imposta su 1 di default. Usa 2 solo su GPU molto grandi (livello A100 / H100 / H200).
Gradient Accumulation – inizia a 1. Se vuoi una dimensione batch effettiva più grande senza più VRAM, aumenta a 2–4. Dimensione batch effettiva = Batch Size × Gradient Accumulation.
Steps – usa 2500–3000. Per l'esempio del design maglietta con ~20–30 triplette, 3000 funziona bene. Se il tuo dataset è piccolissimo (<15 immagini), considera 1500–2200 per evitare overfitting.
Optimizer – scegli AdamW8Bit. Adam 8-bit riduce drasticamente la memoria comportandosi come AdamW standard.
Learning Rate – imposta 0.0001. Se l'addestramento sembra rumoroso o instabile, riduci a 0.00005.
Weight Decay – imposta 0.0001 come regolarizzatore leggero così il LoRA non deriva troppo lontano su dataset piccoli.
Timestep Type – imposta su Weighted. Questo orienta l'addestramento verso i livelli di rumore che contano di più per Qwen‑Image‑Edit.
Timestep Bias – imposta su Balanced, un valore sicuro predefinito che non enfatizza troppo timestep molto precoci o molto tardivi.
Loss Type – lascia su Mean Squared Error, la scelta standard per addestramento diffusion / rectified-flow.
EMA (Exponential Moving Average → Use EMA) – lascia OFF per LoRA. EMA è più utile quando si addestrano modelli completi.

5.3.7 Sezione Regolarizzazione e Text Encoder (lato destro del pannello TRAINING)

Sul lato destro del pannello TRAINING vedrai due aree importanti: Text Encoder Optimizations e Regularization.

Text Encoder Optimizations

Cache Text Embeddings – per Qwen‑Image‑Edit + Differential Output Preservation (DOP), questo deve rimanere OFF. DOP riscrive il testo del prompt internamente ad ogni batch, quindi gli embedding cached non corrisponderebbero più ai prompt reali. Quando DOP è OFF e le tue didascalie sono statiche, puoi attivare Cache Text Embeddings ON per codificare tutte le didascalie una volta, memorizzare gli embedding su disco, e poi liberare il text encoder dalla VRAM.
Unload Text Encoder (Unload TE) – questa è una modalità speciale solo-trigger. Quando la attivi ON, AI Toolkit fa cache degli embedding per il tuo Trigger Word e prompt Sample una volta, scarica il text encoder dalla VRAM, e ignora tutte le didascalie del dataset. Per LoRA Qwen‑Image‑Edit‑2509 che dipendono da didascalie normali (e specialmente quando Differential Output Preservation è ON), dovresti lasciare Unload TE OFF.

Poiché caption dropout è implementato eliminando casualmente didascalie durante l'addestramento, dipende da codifica di testo fresca ad ogni step. Se abiliti Cache Text Embeddings, dovresti impostare Caption Dropout Rate = 0 nel pannello DATASETS (vedi sotto) così non c'è mismatch tra embedding cached e comportamento dropout previsto.

Regularization → Differential Output Preservation

Differential Output Preservation – attiva ON per la maggior parte dei progetti reali. È cruciale per Qwen‑Image‑Edit: lascia il modello base comportarsi normalmente quando la frase trigger è assente e inietta il tuo comportamento solo quando il trigger è presente.
DOP Loss Multiplier – lascia a 1 per iniziare. Puoi aumentarlo leggermente se vedi troppo stile che trapela in prompt senza trigger.
DOP Preservation Class – usa una parola di classe neutra che descrive cosa editi più frequentemente. Per edit centrati sulle persone, person è un buon valore predefinito; per edit solo prodotti, usa qualcosa come product o object.

Come DOP si collega alle tue didascalie e Trigger Word:

Supponiamo che una didascalia sia "[trigger] a person walking down the street, wearing the design on their shirt"
Con Trigger Word = put this design on their shirt
E DOP Preservation Class = person

AI Toolkit crea internamente due prompt:

put this design on their shirt a person walking down the street, wearing the design on their shirt – il percorso LoRA.
person a person walking down the street, wearing the design on their shirt – il percorso del modello base.

Il LoRA viene addestrato solo sulla differenza tra questi due. Le generazioni senza la frase trigger rimangono molto più vicine al Qwen‑Image‑Edit‑2509 vanilla perché DOP preserva esplicitamente quel comportamento.

Blank Prompt Preservation – lascia OFF a meno che tu non abbia una ragione molto specifica per preservare il comportamento per prompt vuoti.

5.3.8 Pannello ADVANCED – Differential Guidance

Do Differential Guidance – attiva ON.
Differential Guidance Scale – inizia con 3.

Differential Guidance è un trucco specifico di AI Toolkit che scala il segnale di errore che il LoRA vede. Una scala più grande rende il segnale "stai sbagliando qui" più forte quindi il LoRA tipicamente impara il cambiamento desiderato più velocemente senza aumentare il learning rate.

Se i campioni sembrano instabili o eccessivamente "nitidi" presto nell'addestramento, abbassa a 2. Se l'apprendimento sembra molto lento, puoi sperimentare con 4 più tardi.

5.3.9 Pannello DATASETS – collegare immagini target, controllo e design

Per l'Addestramento LoRA Qwen-Edit-2509 devi fornire almeno un dataset target e un dataset di controllo.

Dentro Dataset 1:

Target Dataset – scegli il tuo dataset di output / editato, cioè immagini che rappresentano "dopo aver applicato il comportamento LoRA".
Control Dataset 1 – scegli il dataset contenente le tue immagini di input (le foto originali che vuoi editare). Ogni file dovrebbe corrispondere a un'immagine target per nome (es. scene_001.png → scene_001.png).
Control Dataset 2 / 3 – questi sono opzionali. Per il LoRA maglietta, imposta Control Dataset 2 su shirt_design così il modello vede il logo o artwork come secondo flusso di controllo. Lascia gli slot di controllo vuoti a meno che tu non abbia condizioni extra come depth map o keypoint.
LoRA Weight – lascia a 1 a meno che tu non aggiunga più dataset. Quando aggiungi più dataset puoi ribilanciare la loro influenza qui.
Default Caption – se le tue immagini hanno già didascalie .txt, puoi lasciare vuoto. Altrimenti inserisci qualcosa come:
"[trigger] put this design on their shirt, full‑body street photo"

Ricorda: [trigger] sarà sostituito dal Trigger Word del pannello JOB.
Caption Dropout Rate – 0.05 è un buon valore iniziale quando non stai facendo cache dei text embedding; circa uno step su venti ignorerà la didascalia così il modello non overfitta alla formulazione esatta. Se prevedi di attivare Cache Text Embeddings ON nel pannello TRAINING, imposta Caption Dropout Rate = 0, perché dropout richiede di ricodificare le didascalie ad ogni step e non funziona correttamente con embedding cached.
Settings → Cache Latents – attiva ON. AI Toolkit codifica ogni immagine target in VAE latent una volta e li riutilizza, il che rimuove il pesante VAE dalla GPU dopo il caching e accelera significativamente l'addestramento.
Settings → Is Regularization – lascia OFF per il tuo dataset principale. Se più tardi aggiungi un secondo dataset puramente per immagini di regolarizzazione (ad esempio foto generiche di persone), imposteresti Is Regularization di quel secondo dataset su ON.
Flipping (Flip X / Flip Y) – per la maggior parte dei LoRA persone / prodotti lascia entrambi OFF, a meno che tu non sia sicuro che i ribaltamenti specchiati siano sicuri per il tuo soggetto (Flip X specchierebbe qualsiasi testo sulle magliette).
Resolutions – abilita i bucket a cui vuoi che Qwen‑Image‑Edit si addestri, ad esempio 512, 768, e 1024. 768 è un sweet spot per molti LoRA Qwen; aggiungere 512 e 1024 rende l'addestramento robusto a leggeri cambi di risoluzione.

Puoi aggiungere dataset addizionali con Add Dataset (es. un dataset di regolarizzazione con LoRA Weight < 1), ma un singolo Dataset 1 con un target + uno o due set di controllo è sufficiente per la maggior parte dei casi d'uso "mettere questo design sulla loro maglietta".

5.3.10 Pannello SAMPLE – anteprime di addestramento

Il pannello SAMPLE controlla anteprime periodiche durante l'addestramento. Questi campioni non influenzano la loss di addestramento; sono solo per monitoraggio.

Sample Every – imposta su 250 così generi anteprime ogni 250 step, che si allinea bene con il tuo piano di checkpoint.
Width / Height – fai corrispondere alla tua risoluzione di addestramento principale, ad esempio 1024 × 1024 o 768 × 1024 a seconda del tuo dataset.
Seed – scegli un seed stabile come 42. Puoi abilitare Walk Seed se vuoi che ogni batch di anteprima usi seed consecutivi e mostri più varietà.
Sampler – scegli FlowMatch (o il sampler Qwen predefinito nella tua build). Questo dovrebbe corrispondere allo scheduler FlowMatch usato in TRAINING.
Guidance Scale – imposta 4 per anteprime. Quando farai inferenza più tardi in ComfyUI o altre UI, tipicamente sperimenterai tra 3–6.
Sample Steps – circa 25 step è un buon compromesso qualità-vs-velocità per anteprime.
Advanced Sampling – puoi lasciare Skip First Sample, Force First Sample, e Disable Sampling tutti OFF. Attiva Disable Sampling ON solo se stai debuggando o vuoi massima velocità senza nessuna anteprima.
Sample Prompts – aggiungi 4–8 prompt che rappresentano casi d'uso realistici per il tuo LoRA.

5.4 Step 3 – Avviare addestramento e monitorare

Dopo aver configurato il job, vai alla scheda Training Queue, seleziona il tuo job, e preparalo all'esecuzione.

Clicca Start / Play e osserva principalmente due cose:

GPU VRAM / CPU RAM – specialmente su schede a bassa VRAM usando Layer Offloading, tieni d'occhio l'utilizzo RAM di sistema.
Immagini campione – il design dovrebbe rimanere sulla maglietta e seguire pieghe e posa. Se inizia a sanguinare in tutta l'immagine o i colori diventano estremi, considera di fermarti prima o ridurre il totale degli step.

6. Configurazioni raccomandate per l'Addestramento LoRA Qwen-Edit-2509 per livello di VRAM

Se vuoi solo un valore predefinito sicuro per GPU locali da 24GB e tutte le esecuzioni cloud H100/H200, usa le impostazioni dalle sezioni 3–6: Low VRAM = ON, quantizzazione Transformer/Text Encoder = float8, Batch Size = 1, LoRA Rank = 32, Resolutions = 512 / 768 / 1024, Differential Output Preservation = ON, Cache Text Embeddings = OFF.

Sotto ci sono solo le impostazioni che cambiano davvero con l'hardware. Qualsiasi cosa non menzionata qui (Steps, Learning Rate, Optimizer, etc.) può rimanere alle raccomandazioni precedenti.

Livello 1 – VRAM bassa (~10–12GB locale)

MODEL → Low VRAM: attiva ON. Questo abilita checkpointing extra e shuffling così Qwen‑Image‑Edit‑2509 entra su una scheda 10–12GB.
MODEL → Layer Offloading: attiva ON se ottieni ancora CUDA OOM. Aspettati alto utilizzo CPU RAM (≈60GB+) e step più lenti, ma GPU VRAM può scendere a circa 8–9GB.
QUANTIZATION → Transformer / Text Encoder: imposta entrambi su float8. In questa architettura che usa adapter Qwen 3-bit ARA sotto il cofano, float8 è il minimo pratico per qualità stabile.
TRAINING → Batch Size: blocca a 1. Se vuoi un batch effettivo più grande, aumenta Gradient Accumulation invece di Batch Size.
DATASETS → Resolutions: abilita 512 e 768 come bucket principali. Puoi aggiungere 1024 se accetti esecuzioni più lente e fragili; considera 1024×1024 con due flussi di controllo come limite superiore pratico a questo livello.
TRAINING → Text Encoder Optimizations / Regularization: se non riesci a far entrare Differential Output Preservation nemmeno con Low VRAM e Layer Offloading, disattiva DOP e attiva Cache Text Embeddings così le didascalie vengono codificate una volta e il text encoder viene liberato dalla VRAM. Perdi un po' di preservazione del modello base ma guadagni diversi GB di margine.

Livello 2 – 24GB stretta (classe 3090 / 4090 / 5090)

Cosa puoi rilassare rispetto al Livello 1:

MODEL → Low VRAM: mantieni ON per sicurezza su 24GB; una volta che sai che la tua risoluzione e configurazione di controllo entra comodamente, puoi sperimentare disattivandolo.
MODEL → Layer Offloading: di solito OFF. Abilitalo solo se ottieni ancora OOM alla tua risoluzione scelta e numero di flussi di controllo.
QUANTIZATION → Transformer / Text Encoder: mantieni entrambi su float8. Disabilitare la quantizzazione a questo livello raramente aiuta e brucia solo VRAM che potresti spendere in risoluzione o dimensione batch.
TRAINING → Batch Size: 1 è ancora il valore predefinito. Batch Size 2 è a volte possibile a 768×768 con due controlli se Low VRAM è ON e quantizzazione rimane ON.
DATASETS → Resolutions: abilita 512, 768, e 1024. Considera 768 il tuo bucket "sempre sicuro" e 1024 il bucket high-end che potrebbe richiedere Low VRAM e possibilmente offload parziale.
TRAINING → Text Encoder Optimizations / Regularization: di solito puoi mantenere Differential Output Preservation ON e Cache Text Embeddings OFF, specialmente se addestri principalmente a 768×768. Se hai assolutamente bisogno di 1024×1024 su una scheda 24GB e ottieni ancora OOM dopo altri aggiustamenti, la prossima leva è disattivare DOP e attivare Cache Text Embeddings.

Livello 3 – 32GB+ comoda locale e cloud H100/H200

Su schede locali 32GB e GPU cloud 80–141GB (H100 / H200), smetti di lottare contro la VRAM e puoi semplificare la configurazione:

MODEL → Low VRAM: opzionale. Puoi disattivarlo su GPU locali 32GB+ e H100/H200 per step leggermente più veloci e trace più semplici.
MODEL → Layer Offloading: mantieni OFF. Tutti i componenti Qwen‑Image‑Edit‑2509 possono rimanere residenti sulla GPU.
QUANTIZATION → Transformer / Text Encoder: lascia entrambi su float8 di default. Su H100/H200 puoi sperimentare disabilitando la quantizzazione del Text Encoder se vuoi, ma non è richiesto per buona qualità e offre poco beneficio rispetto a usare quella VRAM per dimensione batch o risoluzione.
TRAINING → Batch Size: usa 1–2 su GPU locali 32GB, e 2–4 su H100/H200 a 1024×1024 con due flussi di controllo.
TARGET → LoRA Rank: 32 è un valore predefinito comodo. Puoi provare 48–64 su H100/H200 per comportamenti molto complessi (es. LoRA di editing multi-effetto) se osservi l'overfitting.
DATASETS → Resolutions: addestra principalmente a 768 e 1024. Di solito puoi eliminare 512 a meno che tu non ti preoccupi specificamente del comportamento a bassa risoluzione.
TRAINING → Text Encoder Optimizations / Regularization: esegui con Differential Output Preservation ON e Cache Text Embeddings OFF di default. La VRAM è sufficiente per mantenere il text encoder residente, e ottieni la separazione più pulita tra comportamento "con trigger" e "senza trigger".

7. Problemi comuni nell'Addestramento LoRA Qwen-Edit-2509 e come risolverli

7.1 Dataset mal accoppiati (ordine sbagliato / persone non corrispondenti)

Sintomo: I design appaiono, ma nel posto sbagliato, sulla persona sbagliata, o deformati.

Verifica che i dataset target e di controllo siano allineati: shirt_target/img_0001.jpg dovrebbe essere accoppiato con shirt_control/img_0001.jpg, e shirt_design/img_0001.png, e così via. Se mescoli le immagini manualmente, mantieni i nomi file accoppiati così l'ordine alfabetico si allinea ancora.

7.2 VRAM OOM anche con quantizzazione

Se addestri con una piccola risoluzione target (es. 512×512) ma i tuoi dataset di controllo usano ancora 1024×1024 come bucket più alto e Match Target Res è disattivato, ogni flusso di controllo sarà codificato a 1024×1024 mentre il target è solo 512×512. Con due o tre di questi flussi di controllo, la dimensione totale dei latent diventa molto più grande del previsto e puoi facilmente ottenere CUDA OOM anche con quantizzazione abilitata.

Per risolvere:

O attiva Match Target Res ON nel pannello MODEL così tutte le immagini di controllo vengono automaticamente ridimensionate allo stesso bucket di risoluzione del target, oppure
Mantieni Match Target Res OFF ma abbassa il bucket di risoluzione più alto per i tuoi dataset di controllo per corrispondere al target (elimina 1024 e resta su 512/768).

Su H100/H200 nel cloud puoi permetterti di mantenere bucket 1024×1024 sia per target che controlli e dipendere meno da questi trucchi, ma la regola più sicura è: evita di mescolare target piccoli con controlli molto grandi quando Match Target Res è disabilitato.

7.3 L'addestramento non converge mai / sembra casuale

Verifica quanto segue:

Nel pannello TRAINING il noise scheduler e le impostazioni timestep corrispondono ancora a FlowMatch. Nel YAML esportato dovresti vedere noise_scheduler: "flowmatch", e nel pannello SAMPLE il sampler dovrebbe anche essere impostato su FlowMatch; se il sampler usa uno scheduler diverso, le anteprime possono sembrare puro rumore anche se il LoRA si sta addestrando correttamente.
Il Learning Rate non è troppo alto. 0.0001 è un valore predefinito sicuro per l'Addestramento LoRA Qwen-Edit-2509; se le anteprime continuano a oscillare o sembrano molto instabili dopo qualche centinaio di step, abbassalo a 0.00005 e riprendi dall'ultimo checkpoint buono.

7.4 LoRA overfitta (il design sanguina ovunque)

Possibili soluzioni:

Riduci il totale degli Steps (es. da 5000 a 3000).
Considera un LoRA Rank leggermente più basso (16 invece di 32).
Diversifica il dataset con persone, pose e illuminazioni diverse.
Assicurati che Differential Output Preservation sia abilitato e, se necessario, aumenta il DOP Loss Multiplier un po' così il comportamento base viene preservato più fortemente.

7.5 Inferno dell'ambiente

Problemi locali tipici includono mismatch di versione CUDA, build PyTorch sbagliata, o driver che non corrispondono alla tua GPU / OS. Nel Cloud AI Toolkit su RunComfy questi problemi scompaiono: AI Toolkit e dipendenze sono preinstallati e parti direttamente dall'UI con configurazioni e dataset.

Se ti trovi a spendere più tempo a sistemare CUDA che ad addestrare, quello è di solito il punto in cui è più facile spostare questo specifico job nel cloud.

8. Usare il tuo LoRA Qwen Edit 2509 dopo l'addestramento

Una volta completato l'addestramento, puoi usare il tuo LoRA Qwen Edit 2509 in due modi semplici:

Model playground – apri il Qwen‑Image‑Edit‑2509 LoRA playground e incolla l'URL del tuo LoRA addestrato per vedere velocemente come si comporta sopra il modello base.
Workflow ComfyUI – avvia un'istanza ComfyUI e o costruisci il tuo workflow o caricane uno come Qwen Edit 2509 MultipleAngles, scambia il tuo LoRA nel nodo caricatore LoRA, e regola peso LoRA e altre impostazioni per controllo più dettagliato.

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample