Z‑Image è un modello di generazione di immagini da 6B parametri di Tongyi‑MAI costruito su uno Scalable Single‑Stream Diffusion Transformer (S3‑DiT). È insolitamente efficiente per le sue dimensioni ed è progettato per funzionare a 1024×1024 su GPU consumer.
Questa guida all'Addestramento LoRA Z-Image Turbo copre i due approcci più comuni e pratici per addestrare una LoRA per Z-Image Turbo:
1) Z‑Image Turbo (con Training Adapter) — ideale quando vuoi che la tua LoRA funzioni con la vera velocità Turbo a 8 step dopo l'addestramento.
2) Z‑Image De‑Turbo (De‑Distilled) — ideale quando vuoi una base de‑distillata che puoi addestrare senza adapter, o per fine-tune più lunghi.
Alla fine di questa guida, sarai in grado di:
- Scegliere la giusta base Z‑Image (Turbo+adapter vs De‑Turbo) per il tuo obiettivo.
- Preparare un dataset che funzioni con l'addestramento distillato stile Turbo.
- Configurare Ostris AI Toolkit (localmente o su RunComfy Cloud AI Toolkit) pannello per pannello.
- Capire perché ogni parametro conta, così puoi regolare invece di copiare e incollare.
Questo articolo fa parte della serie sull'addestramento LoRA con AI Toolkit. Se sei nuovo su Ostris AI Toolkit, inizia con la panoramica sull'addestramento LoRA con AI Toolkit prima di immergerti in questa guida.
Avvio rapido (configurazione base raccomandata)
Opzione A — Turbo + training adapter (raccomandato per la maggior parte delle LoRA)
Usa questa opzione per l'Addestramento LoRA Z-Image Turbo se vuoi che la tua LoRA mantenga il comportamento veloce a 8 step di Turbo dopo l'addestramento.
Perché è importante:
- Turbo è un modello "studente" distillato: comprime un processo di diffusione multi-step più lento in ~8 step.
- Se addestri su Turbo come un modello normale, i tuoi aggiornamenti possono annullare la distillazione ("deriva Turbo"), e inizierai ad aver bisogno di più step / più CFG per ottenere la stessa qualità.
- Il training adapter "de‑distilla" temporaneamente Turbo durante l'addestramento così la tua LoRA impara il tuo concetto senza rompere il comportamento a 8 step di Turbo. All'inferenza, rimuovi l'adapter e mantieni solo la tua LoRA.
Impostazioni base:
- MODEL → Model Architecture:
Z‑Image Turbo (w/ Training Adapter) - MODEL → Name or Path:
Tongyi-MAI/Z-Image-Turbo - MODEL → Training Adapter Path:
- Mantieni il default se la tua UI lo compila automaticamente (RunComfy spesso usa v2 di default), o imposta esplicitamente:
- v1:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors - TARGET → Linear Rank:
16 - TRAINING → Learning Rate:
0.0001 - TRAINING → Steps:
2500–3000(per 10–30 immagini) - DATASETS → Resolutions:
512 / 768 / 1024e Cache Latents = ON - SAMPLE (per anteprime):
1024×1024, 8 step (o9se la tua pipeline tratta 9 come "8 DiT forwards")- Guidance scale = 0 (Turbo è guidance‑distillato)
- Campionare ogni
250step
Opzione B — De‑Turbo (base de‑distillata)
Usa questa opzione se vuoi addestrare senza training adapter o se pianifichi addestramenti più lunghi.
Cosa cambia rispetto a Turbo:
- De‑Turbo si comporta più come un modello di diffusione "normale" per addestramento e campionamento.
- Tipicamente campioni con più step e CFG basso (ma non zero).
- MODEL → Model Architecture:
Z‑Image De‑Turbo (De‑Distilled) - MODEL → Name or Path:
ostris/Z-Image-De-Turbo(o quello che la tua build di AI Toolkit preseleziona) - Training Adapter Path: nessuno (non necessario)
- Mantieni le stesse impostazioni LoRA (rank/LR/steps) come baseline.
- SAMPLE (per anteprime):
- 20–30 step
- CFG (guidance scale) ≈ 2–3
- Campionare ogni
250step
Vuoi zero configurazione? Usa il RunComfy Cloud AI Toolkit e segui esattamente gli stessi pannelli.
Indice
- 1. Quale base Z‑Image dovresti addestrare? (Turbo+adapter vs De‑Turbo)
- 2. Z‑Image training adapter v1 vs v2 (cosa cambia, quando usare)
- 3. Z‑Image / Z‑Image‑Turbo in breve (per addestramento LoRA)
- 4. Dove addestrare Z‑Image: locale vs cloud AI Toolkit
- 5. Progettare dataset per addestramento LoRA Z‑Image
- 6. Configurazione LoRA Z‑Image in AI Toolkit – parametro per parametro
- 7. Ricette pratiche per addestramento LoRA Z‑Image
- 8. Risoluzione problemi (deriva Turbo, overfitting, VRAM, campionamento)
- 9. Esportare e usare la tua LoRA Z‑Image
- FAQ
1. Quale base Z‑Image dovresti addestrare? (Turbo+adapter vs De‑Turbo)
AI Toolkit espone due scelte di "model architecture" per l'AI Toolkit Z-Image Turbo LoRA:
1.1 Z‑Image Turbo (con Training Adapter)
Ideale per: LoRA tipiche (personaggio, stile, prodotto), dove il tuo obiettivo finale è eseguire l'inferenza su Turbo a 8 step.
Perché esiste:
- Z‑Image Turbo è un modello distillato per step. Se addestri LoRA su un modello distillato per step "normalmente", la distillazione può rompersi velocemente, e Turbo inizia a comportarsi come un modello più lento non distillato (cambiamenti di qualità, necessita più step, ecc.).
- Il training adapter agisce come una "LoRA di de‑distillazione" temporanea durante l'addestramento. La tua LoRA impara il tuo concetto mentre il comportamento veloce a 8 step di Turbo rimane stabile.
- Al momento dell'inferenza, rimuovi il training adapter e mantieni la tua LoRA sulla vera base Turbo.
Segnali pratici che hai scelto il percorso giusto:
- I tuoi campioni di anteprima appaiono bene a 8 step con guidance ≈ 0.
- La tua LoRA non inizia improvvisamente a richiedere 20–30 step per apparire pulita (un segno comune di deriva Turbo).
1.2 Z‑Image De‑Turbo (De‑Distilled)
Ideale per: addestrare senza adapter, o fine‑tune più lunghi dove Turbo+adapter eventualmente deriverebbe.
Cos'è:
- De‑Turbo è una versione de‑distillata di Turbo, progettata per comportarsi più come un modello di diffusione normale per l'addestramento.
- Può essere addestrato direttamente senza adapter e anche usato per l'inferenza (tipicamente 20–30 step con CFG basso).
1.3 Guida decisionale rapida
Scegli Turbo + training adapter se:
- Vuoi che la LoRA funzioni a velocità Turbo (8 step) dopo l'addestramento.
- Stai facendo un addestramento LoRA normale (da poche migliaia a decine di migliaia di step).
Scegli De‑Turbo se:
- Vuoi un comportamento da "modello normale" per addestramento e campionamento.
- Vuoi addestrare più a lungo, o stai sperimentando con workflow che non supportano bene il training adapter.
2. Z‑Image training adapter v1 vs v2 (cosa cambia, quando usare)
Nel repository del training adapter vedrai spesso due file:
..._v1.safetensors..._v2.safetensors
Cosa devi sapere (praticamente):
- v1 è la baseline sicura.
- v2 è una variante più recente che può cambiare la dinamica dell'addestramento e i risultati.
Raccomandazione: trattalo come un test A/B:
- Mantieni dataset, LR, step, rank identici
- Addestra una volta con v1, una volta con v2
- Confronta le griglie di campioni agli stessi checkpoint
Se la tua UI RunComfy usa v2 di default e il tuo addestramento sembra stabile, mantienilo. Se vedi instabilità (rumore, deriva Turbo, artefatti strani), passa a v1.
3. Z‑Image / Z‑Image‑Turbo in breve (per addestramento LoRA)
Dalle fonti ufficiali Z‑Image:
- 6B parametri, architettura S3‑DiT — token di testo, token semantici visuali e latent VAE sono concatenati in un singolo stream transformer.
- Famiglia di modelli — esistono varianti Turbo, Base e Edit nella serie Z‑Image.
- Specifiche Turbo — ottimizzato per inferenza veloce; la guidance è tipicamente 0 per l'inferenza Turbo.
Un modello mentale utile per l'addestramento LoRA:
- I timestep ad alto rumore controllano principalmente la composizione (layout, posa, tonalità di colore globale).
- I timestep a basso rumore controllano principalmente i dettagli (volti, mani, texture).
Ecco perché le impostazioni di timestep e bias possono cambiare notevolmente se una LoRA sembra più come "stile globale" vs "identità/dettaglio".
4. Dove addestrare Z‑Image: locale vs cloud AI Toolkit
4.1 AI Toolkit Locale
L'AI Toolkit di Ostris è open source su GitHub. Supporta il Tutorial addestramento LoRA Z-Image Turbo, FLUX, Wan, Qwen e altro attraverso un sistema unificato di UI e configurazione.
Locale ha senso se:
- Hai già una GPU NVIDIA e non ti dispiace la configurazione Python / Git.
- Vuoi controllo totale su file, log e modifiche personalizzate.
Repo: ostris/ai-toolkit
4.2 RunComfy Cloud AI Toolkit
Se preferisci saltare le installazioni CUDA e i problemi di driver, usa RunComfy Cloud AI Toolkit:
- Zero configurazione — apri un browser e addestra.
- VRAM costante — più facile seguire le guide senza frizioni hardware.
- Storage persistente — iterazione più facile e gestione dei checkpoint.
👉 Aprilo qui: Cloud AI Toolkit su RunComfy
5. Progettare dataset per addestramento LoRA Z‑Image
5.1 Quante immagini ti servono davvero?
- 10–30 immagini è un buon range per la maggior parte delle LoRA di personaggio o stile.
- Oltre ~50 immagini spesso trovi rendimenti decrescenti a meno che il tuo range di stili sia molto ampio.
Z‑Image impara fortemente dai gradienti ("impara caldo"), quindi qualità e varietà del dataset contano più del numero grezzo di immagini:
- Troppe poche immagini + troppo addestramento spesso si manifesta come volti overfittati, pose ripetute, o sfondi disordinati.
- Un dataset piccolo ma diversificato (angoli, illuminazione, sfondi) tende a generalizzare meglio di uno grande e ripetitivo.
5.2 LoRA di personaggio vs stile
LoRA di Personaggio
- Punta a 12–30 immagini dello stesso soggetto.
- Mescola primi piani e figura intera, angoli, illuminazione, outfit.
- Le didascalie possono essere letterali e coerenti; token trigger opzionale.
LoRA di Stile
- Punta a 15–40 immagini attraverso soggetti vari (persone, interni, paesaggi, oggetti).
- Didascalia la scena normalmente; non sovra-descrivere lo stile a meno che tu voglia che sia solo trigger.
- Questo insegna: "renderizza qualsiasi cosa in questo stile", invece di "fai lo stile solo quando dico una parola chiave speciale."
5.3 Didascalie, parola trigger e file di testo
image_01.png→image_01.txt- Se non c'è
.txt, AI Toolkit usa la Default Caption. - Puoi usare
[trigger]nelle didascalie e impostare Trigger Word nel pannello JOB. - Questo è particolarmente utile se abiliti poi DOP (Differential Output Preservation) per rendere la LoRA più "opt-in".
6. Configurazione LoRA Z‑Image in AI Toolkit – parametro per parametro
In questa sezione esaminiamo i pannelli UI e spieghiamo cosa fa ogni campo importante per capire come addestrare una LoRA per Z-Image Turbo.
6.1 Pannello JOB
- Training Name — etichetta descrittiva come
zimage_char_rosso_v1 - GPU ID — selettore GPU locale; su cloud mantieni il default
- Trigger Word (opzionale) —
zchar_rosso/zstyle_matita
6.2 Pannello MODEL (il più importante)
Qui contano le due scelte di base:
Se scegli Turbo + adapter
- Model Architecture —
Z‑Image Turbo (w/ Training Adapter) - Name or Path —
Tongyi-MAI/Z-Image-Turbo - Questo è l'id del modello Hugging Face (repo id). Nella maggior parte delle build AI Toolkit, selezionare l'architettura del modello lo compilerà automaticamente; lascialo così a meno che tu abbia un motivo per cambiarlo.
- Se lo sovrascrivi, usa il formato repo id di Hugging Face:
org-o-utente/nome-modello(opzionalmenteorg-o-utente/nome-modello@revision). - Training Adapter Path — mantieni il default o scegli:
- v1:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
Consiglio: se accidentalmente addestri Turbo senza l'adapter, il sintomo più comune è che la tua LoRA "funziona" solo quando aumenti step/CFG, il che vanifica lo scopo di Turbo.
Se scegli De‑Turbo
- Model Architecture —
Z‑Image De‑Turbo (De‑Distilled) - Name or Path —
ostris/Z-Image-De-Turbo - Questo è l'id del modello Hugging Face (repo id). Nella maggior parte delle build AI Toolkit, selezionare l'architettura del modello lo compilerà automaticamente; lascialo così a meno che tu abbia un motivo per cambiarlo.
- Se lo sovrascrivi, usa il formato repo id di Hugging Face:
org-o-utente/nome-modello(opzionalmenteorg-o-utente/nome-modello@revision). - Training Adapter Path — nessuno
Opzioni:
- Low VRAM / Layer Offloading — abilitare se sei limitato in VRAM
6.3 Pannello QUANTIZATION
- Con 24+ GB, preferisci
BF16/noneper fedeltà - Con 16 GB,
float8è solitamente il miglior compromesso
6.4 Pannello TARGET – configurazione LoRA
- Target Type —
LoRA - Linear Rank — inizia con
8–16 16per stili/texture più forti8per LoRA più piccole e sottili
6.5 Pannello SAVE
- Data Type —
BF16 - Save Every —
250 - Max Step Saves to Keep —
4–12
6.6 Pannello TRAINING – iperparametri principali
- Batch Size —
1 - Optimizer —
AdamW8Bit - Learning Rate — inizia a
0.0001Se instabile/rumoroso, scendi a
0.00005–0.00008.Evita di salire troppo (es.
0.0002+) — i modelli stile Turbo possono diventare instabili velocemente. - Weight Decay —
0.0001 - Steps —
2500–3000per 10–30 immaginiSe il tuo dataset è molto piccolo (<10 immagini), considera
1500–2200per ridurre l'overfitting. - Loss Type —
Mean Squared Error - Timestep Type —
Weighted - Timestep Bias —
Balanced - Favorisci High Noise se vuoi uno stile/atmosfera globale più forte.
- Favorisci Low Noise se cerchi identità/dettaglio (avanzato; inizia con Balanced).
- EMA — OFF
Text Encoder:
- Cache Text Embeddings — ON se le didascalie sono statiche e la VRAM è limitata
(poi imposta Caption Dropout a 0)
- Unload TE — mantieni OFF per addestramento basato su didascalie
Regolarizzazione:
- DOP — mantieni OFF per la prima esecuzione; aggiungi dopo per LoRA di produzione solo-trigger
(DOP è potente ma aggiunge complessità; è più facile una volta che hai una baseline stabile.)
6.7 Pannello DATASETS
- Caption Dropout Rate
0.05se non fai cache degli embedding di testo0se fai cache degli embedding- Cache Latents — ON
- Resolutions —
512 / 768 / 1024è una baseline solida
6.8 Pannello SAMPLE (adatta alla tua base!)
Se addestri Turbo:
1024×1024, 8 step, guidance = 0, campionare ogni250
Se addestri De‑Turbo:
1024×1024, 20–30 step, CFG 2–3, campionare ogni250
Usa 5–10 prompt che riflettono l'uso reale; includi un paio di prompt senza il trigger per rilevare perdite.
6.9 Pannello ADVANCED – Differential Guidance (opzionale)
- Do Differential Guidance — ON se vuoi convergenza più veloce
- Scale — inizia a
3Se i campioni appaiono troppo nitidi/rumorosi presto, riduci a
2. Se l'apprendimento è lento, puoi testare4dopo.
7. Ricette pratiche per addestramento LoRA Z‑Image
Una baseline solida per LoRA Turbo:
- Turbo + training adapter (v1 o v2)
rank=16,lr=1e-4,steps=2500–3000- bucket
512/768/1024, cache latents ON - campioni ogni 250 step, 8 step, guidance 0
Se la tua LoRA sembra "troppo forte":
- Mantieni l'addestramento uguale, ma pianifica di eseguire l'inferenza con un peso LoRA più basso (es.
0.6–0.8).
8. Risoluzione problemi
"La mia LoRA ha distrutto Turbo — ora ho bisogno di più step / CFG."
- Cause più comuni:
- addestrato su Turbo senza il training adapter, o
- LR troppo alto per troppo tempo.
- Soluzione:
- usa l'architettura Turbo + training adapter
- mantieni LR ≤ 1e‑4
- riduci gli step se vedi deriva presto
"Lo stile è troppo forte."
- Abbassa il peso della LoRA all'inferenza (0.6–0.8)
- Usa trigger + DOP per LoRA di produzione (comportamento opt‑in)
"Le mani/sfondi sono disordinati."
- Aggiungi alcune immagini che includono quei casi
- Considera di favorire leggermente i timestep a basso rumore (avanzato)
"Niente VRAM / troppo lento."
- Disabilita i bucket alti (mantieni 512–1024)
- Abilita Low VRAM + offloading
- Quantizza a float8
- Fai cache dei latent (e opzionalmente fai cache degli embedding di testo)
9. Usa la tua LoRA Z‑Image
- Model playground — prova la tua LoRA sul modello base tramite il Z‑Image Turbo LoRA playground
- Workflow ComfyUI — carica la tua LoRA in un workflow come Z‑Image workflow in ComfyUI
FAQ
Dovrei usare l'adapter v1 o v2 per l'Addestramento LoRA Z-Image Turbo?
Inizia con il default della tua UI. Se i risultati sono instabili o vedi deriva Z‑Image Turbo, testa l'altra versione mantenendo tutte le altre impostazioni uguali.
Dovrei addestrare Z‑Image su Turbo+adapter o De‑Turbo?
Turbo+adapter per la maggior parte delle LoRA Z‑Image che devono mantenere il comportamento Turbo a 8 step. De‑Turbo se vuoi addestramento senza adapter o fine‑tune più lunghi.
Quali impostazioni di inferenza Z‑Image dovrei usare dopo l'addestramento?
Z‑Image Turbo tipicamente usa CFG basso/nullo e ~8 step. De‑Turbo si comporta più come un modello normale (20–30 step, CFG basso). Fai sempre corrispondere le tue impostazioni di campionamento alla base che stai effettivamente usando.
Altre guide di addestramento LoRA con AI Toolkit
- Addestramento LoRA FLUX.2 Dev con AI Toolkit
- Addestramento LoRA Qwen-Image-Edit-2511 con AI Toolkit
- Addestramento LoRA Qwen-Image-Edit-2509 con AI Toolkit
- Addestramento LoRA Wan 2.2 I2V 14B image-to-video
- Addestramento LoRA Wan 2.2 T2V 14B text-to-video
- Addestramento LoRA LTX-2 con AI Toolkit
- Addestramento LoRA Qwen Image 2512 con AI Toolkit
Ready to start training?

