AI Toolkit LoRA Training Guides

Addestramento LoRA Qwen 2511 (Qwen-Image-Edit-2511) con Ostris AI Toolkit (Guida aggiornata)

Questo tutorial spiega come addestrare LoRA Qwen 2511 (Qwen-Image-Edit-2511) con Ostris AI Toolkit per editing multi-immagine e geometry-aware. Imparerai a costruire dataset di editing (controlli + istruzione → target), pianificare la VRAM per 1–3 stream di controllo, regolare parametri specifici e risolvere gli errori di training più comuni.

Train Diffusion Models with Ostris AI Toolkit

Scorri orizzontalmente per vedere il modulo completo

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Qwen‑Image‑Edit‑2511 (spesso abbreviato in Qwen 2511) è il checkpoint "coerenza prima di tutto" di Qwen per l'editing di immagini: è progettato per ridurre la deriva dell'immagine, preservare l'identità durante modifiche creative, e rimanere strutturalmente fedele quando si modifica solo parte di un'immagine. Include anche capacità LoRA integrate nei pesi base, output migliore per design industriale/prodotto e ragionamento geometrico migliorato, tutto ciò che lo rende particolarmente interessante per LoRA di editing pratici e ripetibili.

Questa guida mostra come eseguire il Training LoRA Qwen Image Edit 2511 utilizzando Ostris AI Toolkit.

Questo articolo fa parte della serie di training LoRA di AI Toolkit. Se sei nuovo su Ostris AI Toolkit, inizia con la panoramica del training LoRA AI Toolkit prima di immergerti in questa guida.

Indice


1. Qwen 2511 vs 2509: cosa cambia

Qwen 2511 non è un checkpoint per "fare belle immagini" — è un editor di immagini che segue le istruzioni. Se vieni dal Tutorial LoRA Qwen Edit 2509, pensa al 2511 come all'iterazione "coerenza prima di tutto": è ottimizzato per ridurre la deriva, preservare identità/struttura, e mantenere le modifiche localizzate su ciò che hai richiesto (specialmente per lavori di design prodotto/industriale e posizionamento sensibile alla geometria).

Tre differenze rispetto a Qwen 2509 sono direttamente rilevanti per il Training LoRA Qwen Image Edit 2511:

Primo: maggiore resistenza alla deriva e mantenimento dell'identità. Rispetto a Qwen 2509, Qwen 2511 tende a mantenere le parti "invariate" più stabili, permettendo al tuo LoRA di imparare una regola di editing più pulita invece di incorporare accidentalmente l'effetto in volti, sfondi o composizione.

Secondo: il conditioning multi-immagine rimane centrale, ma il segnale di controllo deve essere pulito. Come Qwen 2509, Qwen 2511 funziona meglio quando fornisci 1-3 immagini di riferimento più un'istruzione. La differenza pratica è che il 2511 premia flussi di controllo ben allineati; se l'abbinamento è sbagliato o i controlli sono deboli, vedrai più over-editing e deriva.

Terzo: maggiore compatibilità LoRA integrata (e maggiore necessità di specificità). Qwen 2511 arriva con una capacità LoRA integrata più forte nei pesi base. Questo è ottimo per LoRA di editing pratici e ripetibili, ma significa anche che il tuo Training LoRA Qwen-Edit-2511 deve essere eseguito con un mapping chiaro e stretto affinché non diventi un vago "filtro universale".


2. Il modello mentale centrale: cosa impara realmente un Edit LoRA

Per Qwen 2511, il tuo LoRA sta imparando una regola di trasformazione:

"Data/e questa/e immagine/i di riferimento e questa istruzione, produci il risultato modificato preservando le parti che devono rimanere coerenti."

Ecco perché i dataset di editing devono includere tutti e tre i componenti:

  • Immagine/i di controllo/riferimento: cosa deve essere preservato (identità, geometria, illuminazione, sfondo — qualsiasi cosa richieda il tuo task)
  • Istruzione (caption/prompt): cosa deve cambiare, dichiarato esplicitamente
  • Immagine target: il risultato "dopo" che dimostra il cambiamento

Se fornisci solo immagini "dopo", il modello non ha un segnale stabile per cosa mantenere, quindi imparerà una scorciatoia rumorosa: potrebbe incorporare cambiamenti nell'identità, sfondo o composizione. Questo sembra "il LoRA è forte", ma in realtà è deriva incontrollata.

Il modo più semplice per giudicare se il tuo dataset è "corretto per l'editing" è questo: se rimuovi l'istruzione, un umano potrebbe ancora dedurre cosa è cambiato confrontando il/i controllo/i con il target? Se sì, hai un segnale di editing apprendibile. Se no (o se il cambiamento è ambiguo), il tuo LoRA sarà fragile.


3. Dove addestrare: AI Toolkit locale vs RunComfy Cloud AI Toolkit

AI Toolkit locale è meglio se hai già una GPU NVIDIA compatibile, sei a tuo agio nella gestione delle versioni CUDA/PyTorch, e vuoi massimo controllo su file e iterazione. (Installa AI Toolkit dal repo GitHub di Ostris: ostris/ai-toolkit.) Per il Training LoRA Qwen Image Edit 2511, l'addestramento locale può essere completamente fattibile — ma il modello è pesante, e il conditioning multi-immagine può far schizzare velocemente la VRAM, quindi spesso ti affiderai a quantizzazione, modalità low-VRAM, o bucket di risoluzione più piccoli.

RunComfy Cloud AI Toolkit è il percorso "salta la configurazione" e spesso la scelta pratica specificamente per il Training LoRA Qwen Image Edit 2511. Esegui la stessa UI di AI Toolkit nel browser, ma con GPU potenti disponibili (e meno sorprese di ambiente). È anche comodo per i team: dataset, configurazioni e checkpoint rimangono in un workspace persistente, così puoi iterare come un workflow di produzione invece di un esperimento locale una tantum.

👉 Aprilo qui: Cloud AI Toolkit su RunComfy


4. Pianificazione hardware e VRAM per Training LoRA Qwen-Edit-2511

Qwen 2511 ha un backbone grande ed è progettato per funzionare a 1024×1024 di default per i migliori risultati. Inoltre, ogni flusso aggiuntivo di immagine di controllo aumenta l'uso di memoria, perché il modello deve elaborare più informazioni di conditioning.

In pratica, vedrai tre livelli praticabili per il Training LoRA Qwen Image Edit 2511:

Livello A: 24-32GB VRAM (impegnativo, ma possibile).

Aspettati strategie aggressive: modalità low-VRAM, gradient checkpointing, bucket più piccoli (spesso 768 come punto di partenza), e quantizzazione (idealmente con opzione Accuracy Recovery Adapter se il tuo build la fornisce). Mantieni batch size a 1 e scala con gradient accumulation.

Livello B: 40-48GB VRAM (confortevole).

Spesso puoi addestrare a 1024 con uno o due flussi di controllo, con quantizzazione moderata o anche principalmente bf16 a seconda delle tue impostazioni esatte. Questo livello è dove il training LoRA Qwen Edit diventa "ripetibile" invece di "delicato".

Livello C: 80GB+ VRAM (veloce, basso attrito).

Puoi mantenere più componenti in bf16, eseguire dataset multi-controllo comodamente, campionare più spesso, e iterare rapidamente — questo è il setup che ottieni con RunComfy Cloud AI Toolkit su GPU potenti.

L'idea chiave: risoluzione e numero di flussi di controllo sono le tue maggiori leve VRAM. Se sei bloccato, cambia questi prima di iniziare a modificare casualmente il learning rate.


5. Design del dataset che funziona davvero per i modelli Qwen Edit

5.1 Struttura delle cartelle compatibile con il trainer Qwen Edit di AI Toolkit

Una struttura pratica che previene il 90% dei bug:

  • targets/ → le immagini modificate "dopo"
  • control_1/ → primo flusso di immagine di riferimento (spesso l'immagine "prima")
  • control_2/ → secondo flusso di riferimento (opzionale; seconda persona/prodotto/sfondo/design)
  • control_3/ → terzo flusso (raro; solo se il tuo workflow ne ha veramente bisogno)
  • captions/ → caption .txt opzionali allineati per nome file (o caption salvati accanto ai target a seconda del tuo workflow)

La parte importante è l'abbinamento. AI Toolkit può addestrare correttamente solo se può abbinare targets/0001.png con control_1/0001.png (e control_2/0001.png, ecc.). Se l'ordine dei file differisce, il tuo LoRA impara il mapping sbagliato e otterrai "addestra ma sembra casuale."


5.2 Tre pattern di dataset che coprono la maggior parte dei LoRA reali

Pattern A: Edit a riferimento singolo (1 immagine di controllo).

Usalo per: cambi di colore, scambi locali di oggetti, relighting, sostituzione sfondo, "trasforma questo in acquerello," ecc. Il tuo control_1 è l'immagine originale, il tuo target è il risultato modificato, e il caption è un'istruzione diretta ("rendi il cappello rosso"). Questo pattern è il più facile da addestrare e debuggare.

Pattern B: Fusione multi-riferimento (2-3 immagini di controllo).

Usalo per: persona + persona, persona + scena, prodotto + sfondo, "fondi queste due identità," o qualsiasi situazione in cui vuoi che il modello preservi multiple fonti. I tuoi caption dovrebbero chiarire il ruolo di ogni riferimento ("usa persona da ref1, sfondo da ref2").

Pattern C: Triplette di inserimento design (vuoto + design → applicato).

Questo è il pattern di dataset con il più alto ROI per lavoro commerciale: loghi su magliette, adesivi su prodotti, pattern su tessuto, etichette su packaging. control_1 è il prodotto/persona senza il design, control_2 è l'immagine del design, e il target è l'immagine finale "design applicato". Questa separazione insegna al LoRA esattamente cosa preservare (geometria/illuminazione/materiale) versus cosa cambiare (la regione del design).


5.3 Caption che aiutano (invece di nuocere)

Per gli Edit LoRA, i tuoi caption dovrebbero comportarsi come istruzioni, non descrizioni. "Un uomo che indossa una maglietta, all'aperto" non è utile; "Posiziona il logo fornito centrato sul petto, preserva le pieghe del tessuto e l'illuminazione" è utile.

Un buon caption di istruzione di solito include:

  • il cambiamento previsto
  • cosa deve essere preservato
  • qualsiasi vincolo di posizionamento o geometria (specialmente per inserimento design)

Mantieni i caption coerenti in tutto il dataset. La coerenza rende il mapping più facile da imparare e rende il tuo LoRA più controllabile all'inferenza.


5.4 Quanti sample servono?

Per edit stretti e ripetibili (inserimento logo, una regola di relighting specifica, una trasformazione di materiale coerente), spesso puoi iniziare con 20-60 triplette ben costruite. Per stilizzazione più ampia o fusione multi-soggetto, pianifica 60-200+ esempi, perché lo spazio di "cosa deve rimanere coerente" è più grande.

Se non sei sicuro, inizia in piccolo con un set "smoke test" di 8-12 sample. L'obiettivo dello smoke test non è la qualità — è confermare che il tuo abbinamento e cablaggio dei controlli funziona prima di investire in una lunga esecuzione.


6. Passo dopo passo: Addestrare LoRA Qwen Edit 2511 in AI Toolkit

6.1 Crea i tuoi dataset in AI Toolkit (Targets + Control Streams)

In DATASETS (vedi Sezione 5 per la logica della struttura cartelle):

  • Crea un dataset per targets/, poi aggiungi control_1 / control_2 / control_3 se li usi.
  • Verifica che i conteggi e l'abbinamento dei nomi file corrispondano tra target e controlli (controlla a campione ~10 sample).
  • Se usi caption, imposta l'estensione caption (di solito .txt) e mantieni i nomi file dei caption allineati con i target.

6.2 Crea un nuovo job

In JOB:

  • Scegli un nome di training che riconoscerai dopo.
  • Imposta un trigger word solo se vuoi che il LoRA sia "invocabile" con una singola parola chiave. Per molti Edit LoRA, l'istruzione stessa è sufficiente, e un trigger è opzionale.
  • Imposta Steps su qualcosa di conservativo per la prima esecuzione (stai validando il setup, non cercando un modello finale perfetto).

In MODEL:

  • Seleziona l'architettura Qwen Image Edit "Plus" (la variante di editing multi-immagine).
  • Name or Path – l'id modello Hugging Face (repo id) per il checkpoint base, es.: Qwen/Qwen-Image-Edit-2511.

    Nella maggior parte dei build AI Toolkit, selezionare l'architettura del modello auto-compilerà questo valore; lascialo così a meno che tu abbia motivo di cambiarlo.

  • Usa bf16 se la tua GPU lo supporta; altrimenti FP16 può funzionare, ma bf16 è solitamente più stabile quando disponibile.
  • Abilita opzioni "Low VRAM" o offloading solo se necessario; inizia semplice quando puoi.

In QUANTIZATION (solo se necessario):

  • Se sei a 24-32GB, quantizza prima il transformer/backbone. Se il tuo build offre un'opzione "with ARA" per Qwen 2511, preferiscila alla quantizzazione plain low-bit perché tende a trattenere più qualità.
  • Quantizza il text encoder/lato conditioning solo se la VRAM è ancora stretta dopo la quantizzazione del transformer.

In TARGET / NETWORK (impostazioni LoRA):

  • Inizia con rank moderato. Per edit "tipo regola" (inserimento logo, relighting), spesso non hai bisogno di rank estremo.
  • Se il tuo build espone rank linear/conv separati, mantieni conv conservativo a meno che tu abbia prove che aiuta il tuo task specifico. Sovra-parametrizzare è una via rapida verso overfitting e deriva.

In TRAINING:

  • Mantieni Batch Size = 1 e usa Gradient Accumulation per aumentare il batch effettivo se necessario.
  • Inizia con AdamW 8-bit se sei limitato in VRAM.
  • Usa le impostazioni scheduler raccomandate/default di Qwen che il tuo build fornisce (per job Qwen Edit questo è comunemente uno scheduler flow-matching).
  • Mantieni "train text encoder" disattivato per la tua prima esecuzione di successo a meno che tu abbia una ragione specifica per adattare il comportamento del linguaggio. La maggior parte degli Edit LoRA pratici ha bisogno solo dell'adattamento backbone/transformer.
  • Attiva Gradient Checkpointing se la VRAM è stretta.

In DATASETS / RESOLUTIONS (Buckets):

  • Se puoi permettertelo, 1024 è un default forte per la qualità Qwen Edit.
  • Se sei limitato in VRAM, usa 768 per la prima esecuzione, poi scala dopo aver confermato che la pipeline è cablata correttamente.
  • Preferisci un piccolo set di bucket (es., 768 e 1024) invece di una distribuzione caotica che rende il mapping incoerente.

In SAMPLE / PREVIEWS:

Il sampling è il tuo sistema di allerta precoce. Configura 1-3 prompt di preview che rappresentano il tuo caso d'uso reale, e usa sempre le stesse immagini di controllo fisse e seed così puoi confrontare i checkpoint visivamente.

Una buona cadenza di sampling per esecuzioni iniziali:

  • campiona ogni 100-250 step all'inizio
  • salva checkpoint ogni 250-500 step
  • mantieni solo una manciata di checkpoint recenti per evitare bloat del disco

6.3 Come capire se il training sta funzionando

Verso ~200-500 step, dovresti vedere almeno uno di questi:

  • l'edit inizia ad accadere coerentemente
  • le parti preservate (identità/sfondo/geometria) rimangono più stabili di "generazione casuale"
  • il cambiamento corrisponde direzionalmente all'istruzione del caption

Se vedi solo rumore, o il modello ignora i controlli, non "aggiustarlo" prima con il learning rate. Aggiusta abbinamento, cablaggio dei controlli, e zero_cond_t prima.


7. Lo switch specifico per 2511: zero_cond_t

Questo è un dettaglio importante specifico del 2511. zero_cond_t cambia come i timestep vengono applicati attraverso i flussi quando il modello ha un flusso denoised (l'immagine in generazione) e flussi di conditioning (le tue immagini di riferimento/controllo). Con zero_cond_t abilitato, le immagini di conditioning sono trattate come riferimenti puliti (effettivamente timestep 0) mentre l'immagine principale segue il normale schedule di timestep della diffusione.

Se le tue immagini di conditioning sono "rumorose" insieme al flusso principale, il modello ha un riferimento più debole e sfocato per identità/struttura. Questo aumenta direttamente la deriva e diminuisce la fedeltà dell'editing. Mantenere i controlli a timestep 0 è una scelta ingegneristica pulita che si allinea con l'obiettivo di "preservare il riferimento".

Per Qwen 2511, tratta zero_cond_t come un requisito di compatibilità, non come un iperparametro:

  • Abilitalo per il training.
  • Mantienilo abilitato per l'inferenza.
  • Se i tuoi risultati sembrano inaspettatamente più derivanti di quanto il 2511 è noto, questa è la prima cosa da verificare.

8. Errori di training comuni e soluzioni

8.1 "Missing control images for QwenImageEditPlusModel"

Se vedi questo, AI Toolkit ti sta dicendo che non ha ricevuto immagini di controllo al momento del training. Le cause più comuni sono:

  • hai allegato il dataset target ma non hai assegnato control_1 / control_2 nel cablaggio dataset/job
  • il percorso della cartella controllo è sbagliato o vuoto
  • i conteggi target/controllo non corrispondono, quindi i controlli falliscono nel caricamento per alcuni sample

Risolvilo rendendo i controlli espliciti: ricontrolla le assegnazioni del dataset, conferma i percorsi delle cartelle, e assicurati che i nomi file/conteggi corrispondano tra i flussi.


8.2 "tuple index out of range" / errori di shape tensor presto nel training

Questo quasi sempre significa che il loader si aspettava un tensor immagine ma ha ottenuto None o una shape inaspettata. Le ragioni sottostanti sono solitamente noiose ma risolvibili:

  • un file immagine corrotto
  • modalità immagine non supportata (CMYK, scala di grigi)
  • un'immagine di controllo mancante per un indice specifico (mismatch di abbinamento)

Il tuo ciclo di fix dovrebbe essere: valida integrità dati → valida abbinamento → esegui un piccolo smoke test (3-5 sample) prima di riavviare un job grande.


8.3 KeyError: 'pixel_values' (spesso causato da immagini in scala di grigi)

Le pipeline Qwen Edit tipicamente si aspettano immagini RGB. Immagini in scala di grigi (canale singolo) possono rompere l'estrazione delle feature e risultare in errori pixel_values. Converti le immagini del tuo dataset in PNG/JPG RGB standard a 3 canali e riprova.


8.4 Out of memory (OOM), specialmente durante il sampling

Il training di editing multi-immagine può far schizzare la VRAM durante il sampling di preview perché esegue forward pass aggiuntivi e può usare buffer intermedi più grandi.

Risolvi OOM in quest'ordine:

  1. riduci la frequenza di preview o la risoluzione di preview
  2. mantieni batch size a 1, aumenta gradient accumulation
  3. riduci i bucket (o scendi a 768)
  4. abilita quantizzazione/offloading
  5. addestra temporaneamente con meno flussi di controllo mentre debugghi
  6. se hai ancora OOM localmente, esegui lo stesso job in RunComfy Cloud AI Toolkit su una GPU più grande

8.5 LoRA carica ma "non fa niente" (o carica con key mancanti) in ComfyUI

Quando un LoRA non fa niente, solitamente è uno di questi:

  • lo stai caricando in un'architettura diversa da quella per cui è stato addestrato
  • la scala del LoRA è troppo bassa per essere notata
  • c'è un mismatch di prefisso key tra ciò che lo stack di inferenza si aspetta e ciò che il trainer ha salvato

Se vedi warning di key mancanti specificamente per Qwen LoRA, un workaround noto è riscrivere il prefisso key dello state dict del LoRA (es., mappare le key diffusion_model. a key transformer.). Se il tuo build AI Toolkit e i tuoi nodi ComfyUI sono entrambi aggiornati, questo potrebbe già essere risolto — ma è la prima cosa da provare quando vedi problemi sistematici di "keys not loaded".


9. Usare il tuo LoRA addestrato (Playground + ComfyUI)

Una volta completato il training, il modo più veloce per verificare il tuo Qwen 2511 LoRA è caricarlo nel Qwen‑Image‑Edit‑2511 LoRA Playground; quando vuoi un graph di nodi ripetibile per lavoro reale, parti dal workflow ComfyUI Qwen‑Image‑Edit‑2511 e sostituisci il tuo LoRA.


Altre guide di training LoRA AI Toolkit

Ready to start training?