Addestramento LoRA Z-Image (Z-Image Turbo + De-Turbo) con Ostris AI Toolkit

Z‑Image è un modello di generazione di immagini da 6B parametri di Tongyi‑MAI costruito su uno Scalable Single‑Stream Diffusion Transformer (S3‑DiT). È insolitamente efficiente per le sue dimensioni ed è progettato per funzionare a 1024×1024 su GPU consumer.

Questa guida all'Addestramento LoRA Z-Image Turbo copre i due approcci più comuni e pratici per addestrare una LoRA per Z-Image Turbo:

1) Z‑Image Turbo (con Training Adapter) — ideale quando vuoi che la tua LoRA funzioni con la vera velocità Turbo a 8 step dopo l'addestramento.

2) Z‑Image De‑Turbo (De‑Distilled) — ideale quando vuoi una base de‑distillata che puoi addestrare senza adapter, o per fine-tune più lunghi.

Alla fine di questa guida, sarai in grado di:

Scegliere la giusta base Z‑Image (Turbo+adapter vs De‑Turbo) per il tuo obiettivo.
Preparare un dataset che funzioni con l'addestramento distillato stile Turbo.
Configurare Ostris AI Toolkit (localmente o su RunComfy Cloud AI Toolkit) pannello per pannello.
Capire perché ogni parametro conta, così puoi regolare invece di copiare e incollare.

Questo articolo fa parte della serie sull'addestramento LoRA con AI Toolkit. Se sei nuovo su Ostris AI Toolkit, inizia con la panoramica sull'addestramento LoRA con AI Toolkit prima di immergerti in questa guida.

Avvio rapido (configurazione base raccomandata)

Opzione A — Turbo + training adapter (raccomandato per la maggior parte delle LoRA)

Usa questa opzione per l'Addestramento LoRA Z-Image Turbo se vuoi che la tua LoRA mantenga il comportamento veloce a 8 step di Turbo dopo l'addestramento.

Perché è importante:

Turbo è un modello "studente" distillato: comprime un processo di diffusione multi-step più lento in ~8 step.
Se addestri su Turbo come un modello normale, i tuoi aggiornamenti possono annullare la distillazione ("deriva Turbo"), e inizierai ad aver bisogno di più step / più CFG per ottenere la stessa qualità.
Il training adapter "de‑distilla" temporaneamente Turbo durante l'addestramento così la tua LoRA impara il tuo concetto senza rompere il comportamento a 8 step di Turbo. All'inferenza, rimuovi l'adapter e mantieni solo la tua LoRA.

Impostazioni base:

MODEL → Model Architecture: Z‑Image Turbo (w/ Training Adapter)
MODEL → Name or Path: Tongyi-MAI/Z-Image-Turbo
MODEL → Training Adapter Path:

Mantieni il default se la tua UI lo compila automaticamente (RunComfy spesso usa v2 di default), o imposta esplicitamente:

v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors

TARGET → Linear Rank: 16
TRAINING → Learning Rate: 0.0001
TRAINING → Steps: 2500–3000 (per 10–30 immagini)
DATASETS → Resolutions: 512 / 768 / 1024 e Cache Latents = ON
SAMPLE (per anteprime):

1024×1024, 8 step (o 9 se la tua pipeline tratta 9 come "8 DiT forwards")
Guidance scale = 0 (Turbo è guidance‑distillato)
Campionare ogni 250 step

Opzione B — De‑Turbo (base de‑distillata)

Usa questa opzione se vuoi addestrare senza training adapter o se pianifichi addestramenti più lunghi.

Cosa cambia rispetto a Turbo:

De‑Turbo si comporta più come un modello di diffusione "normale" per addestramento e campionamento.
Tipicamente campioni con più step e CFG basso (ma non zero).

MODEL → Model Architecture: Z‑Image De‑Turbo (De‑Distilled)
MODEL → Name or Path: ostris/Z-Image-De-Turbo (o quello che la tua build di AI Toolkit preseleziona)
Training Adapter Path: nessuno (non necessario)
Mantieni le stesse impostazioni LoRA (rank/LR/steps) come baseline.
SAMPLE (per anteprime):

20–30 step
CFG (guidance scale) ≈ 2–3
Campionare ogni 250 step

Vuoi zero configurazione? Usa il RunComfy Cloud AI Toolkit e segui esattamente gli stessi pannelli.

Indice

1. Quale base Z‑Image dovresti addestrare? (Turbo+adapter vs De‑Turbo)
2. Z‑Image training adapter v1 vs v2 (cosa cambia, quando usare)
3. Z‑Image / Z‑Image‑Turbo in breve (per addestramento LoRA)
4. Dove addestrare Z‑Image: locale vs cloud AI Toolkit
5. Progettare dataset per addestramento LoRA Z‑Image
6. Configurazione LoRA Z‑Image in AI Toolkit – parametro per parametro
7. Ricette pratiche per addestramento LoRA Z‑Image
8. Risoluzione problemi (deriva Turbo, overfitting, VRAM, campionamento)
9. Esportare e usare la tua LoRA Z‑Image
FAQ

1. Quale base Z‑Image dovresti addestrare? (Turbo+adapter vs De‑Turbo)

AI Toolkit espone due scelte di "model architecture" per l'AI Toolkit Z-Image Turbo LoRA:

1.1 Z‑Image Turbo (con Training Adapter)

Ideale per: LoRA tipiche (personaggio, stile, prodotto), dove il tuo obiettivo finale è eseguire l'inferenza su Turbo a 8 step.

Perché esiste:

Z‑Image Turbo è un modello distillato per step. Se addestri LoRA su un modello distillato per step "normalmente", la distillazione può rompersi velocemente, e Turbo inizia a comportarsi come un modello più lento non distillato (cambiamenti di qualità, necessita più step, ecc.).
Il training adapter agisce come una "LoRA di de‑distillazione" temporanea durante l'addestramento. La tua LoRA impara il tuo concetto mentre il comportamento veloce a 8 step di Turbo rimane stabile.
Al momento dell'inferenza, rimuovi il training adapter e mantieni la tua LoRA sulla vera base Turbo.

Segnali pratici che hai scelto il percorso giusto:

I tuoi campioni di anteprima appaiono bene a 8 step con guidance ≈ 0.
La tua LoRA non inizia improvvisamente a richiedere 20–30 step per apparire pulita (un segno comune di deriva Turbo).

1.2 Z‑Image De‑Turbo (De‑Distilled)

Ideale per: addestrare senza adapter, o fine‑tune più lunghi dove Turbo+adapter eventualmente deriverebbe.

Cos'è:

De‑Turbo è una versione de‑distillata di Turbo, progettata per comportarsi più come un modello di diffusione normale per l'addestramento.
Può essere addestrato direttamente senza adapter e anche usato per l'inferenza (tipicamente 20–30 step con CFG basso).

1.3 Guida decisionale rapida

Scegli Turbo + training adapter se:

Vuoi che la LoRA funzioni a velocità Turbo (8 step) dopo l'addestramento.
Stai facendo un addestramento LoRA normale (da poche migliaia a decine di migliaia di step).

Scegli De‑Turbo se:

Vuoi un comportamento da "modello normale" per addestramento e campionamento.
Vuoi addestrare più a lungo, o stai sperimentando con workflow che non supportano bene il training adapter.

2. Z‑Image training adapter v1 vs v2 (cosa cambia, quando usare)

Nel repository del training adapter vedrai spesso due file:

..._v1.safetensors
..._v2.safetensors

Cosa devi sapere (praticamente):

v1 è la baseline sicura.
v2 è una variante più recente che può cambiare la dinamica dell'addestramento e i risultati.

Raccomandazione: trattalo come un test A/B:

Mantieni dataset, LR, step, rank identici
Addestra una volta con v1, una volta con v2
Confronta le griglie di campioni agli stessi checkpoint

Se la tua UI RunComfy usa v2 di default e il tuo addestramento sembra stabile, mantienilo. Se vedi instabilità (rumore, deriva Turbo, artefatti strani), passa a v1.

3. Z‑Image / Z‑Image‑Turbo in breve (per addestramento LoRA)

Dalle fonti ufficiali Z‑Image:

6B parametri, architettura S3‑DiT — token di testo, token semantici visuali e latent VAE sono concatenati in un singolo stream transformer.
Famiglia di modelli — esistono varianti Turbo, Base e Edit nella serie Z‑Image.
Specifiche Turbo — ottimizzato per inferenza veloce; la guidance è tipicamente 0 per l'inferenza Turbo.

Un modello mentale utile per l'addestramento LoRA:

I timestep ad alto rumore controllano principalmente la composizione (layout, posa, tonalità di colore globale).
I timestep a basso rumore controllano principalmente i dettagli (volti, mani, texture).

Ecco perché le impostazioni di timestep e bias possono cambiare notevolmente se una LoRA sembra più come "stile globale" vs "identità/dettaglio".

4. Dove addestrare Z‑Image: locale vs cloud AI Toolkit

4.1 AI Toolkit Locale

L'AI Toolkit di Ostris è open source su GitHub. Supporta il Tutorial addestramento LoRA Z-Image Turbo, FLUX, Wan, Qwen e altro attraverso un sistema unificato di UI e configurazione.

Locale ha senso se:

Hai già una GPU NVIDIA e non ti dispiace la configurazione Python / Git.
Vuoi controllo totale su file, log e modifiche personalizzate.

Repo: ostris/ai-toolkit

4.2 RunComfy Cloud AI Toolkit

Se preferisci saltare le installazioni CUDA e i problemi di driver, usa RunComfy Cloud AI Toolkit:

Zero configurazione — apri un browser e addestra.
VRAM costante — più facile seguire le guide senza frizioni hardware.
Storage persistente — iterazione più facile e gestione dei checkpoint.

👉 Aprilo qui: Cloud AI Toolkit su RunComfy

5. Progettare dataset per addestramento LoRA Z‑Image

5.1 Quante immagini ti servono davvero?

10–30 immagini è un buon range per la maggior parte delle LoRA di personaggio o stile.
Oltre ~50 immagini spesso trovi rendimenti decrescenti a meno che il tuo range di stili sia molto ampio.

Z‑Image impara fortemente dai gradienti ("impara caldo"), quindi qualità e varietà del dataset contano più del numero grezzo di immagini:

Troppe poche immagini + troppo addestramento spesso si manifesta come volti overfittati, pose ripetute, o sfondi disordinati.
Un dataset piccolo ma diversificato (angoli, illuminazione, sfondi) tende a generalizzare meglio di uno grande e ripetitivo.

5.2 LoRA di personaggio vs stile

LoRA di Personaggio

Punta a 12–30 immagini dello stesso soggetto.
Mescola primi piani e figura intera, angoli, illuminazione, outfit.
Le didascalie possono essere letterali e coerenti; token trigger opzionale.

LoRA di Stile

Punta a 15–40 immagini attraverso soggetti vari (persone, interni, paesaggi, oggetti).
Didascalia la scena normalmente; non sovra-descrivere lo stile a meno che tu voglia che sia solo trigger.

Questo insegna: "renderizza qualsiasi cosa in questo stile", invece di "fai lo stile solo quando dico una parola chiave speciale."

5.3 Didascalie, parola trigger e file di testo

image_01.png → image_01.txt
Se non c'è .txt, AI Toolkit usa la Default Caption.
Puoi usare [trigger] nelle didascalie e impostare Trigger Word nel pannello JOB.

Questo è particolarmente utile se abiliti poi DOP (Differential Output Preservation) per rendere la LoRA più "opt-in".

6. Configurazione LoRA Z‑Image in AI Toolkit – parametro per parametro

In questa sezione esaminiamo i pannelli UI e spieghiamo cosa fa ogni campo importante per capire come addestrare una LoRA per Z-Image Turbo.

6.1 Pannello JOB

Training Name — etichetta descrittiva come zimage_char_rosso_v1
GPU ID — selettore GPU locale; su cloud mantieni il default
Trigger Word (opzionale) — zchar_rosso / zstyle_matita

6.2 Pannello MODEL (il più importante)

Qui contano le due scelte di base:

Se scegli Turbo + adapter

Model Architecture — Z‑Image Turbo (w/ Training Adapter)
Name or Path — Tongyi-MAI/Z-Image-Turbo

Questo è l'id del modello Hugging Face (repo id). Nella maggior parte delle build AI Toolkit, selezionare l'architettura del modello lo compilerà automaticamente; lascialo così a meno che tu abbia un motivo per cambiarlo.
Se lo sovrascrivi, usa il formato repo id di Hugging Face: org-o-utente/nome-modello (opzionalmente org-o-utente/nome-modello@revision).

Training Adapter Path — mantieni il default o scegli:

v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors

Consiglio: se accidentalmente addestri Turbo senza l'adapter, il sintomo più comune è che la tua LoRA "funziona" solo quando aumenti step/CFG, il che vanifica lo scopo di Turbo.

Se scegli De‑Turbo

Model Architecture — Z‑Image De‑Turbo (De‑Distilled)
Name or Path — ostris/Z-Image-De-Turbo

Questo è l'id del modello Hugging Face (repo id). Nella maggior parte delle build AI Toolkit, selezionare l'architettura del modello lo compilerà automaticamente; lascialo così a meno che tu abbia un motivo per cambiarlo.
Se lo sovrascrivi, usa il formato repo id di Hugging Face: org-o-utente/nome-modello (opzionalmente org-o-utente/nome-modello@revision).

Training Adapter Path — nessuno

Opzioni:

Low VRAM / Layer Offloading — abilitare se sei limitato in VRAM

6.3 Pannello QUANTIZATION

Con 24+ GB, preferisci BF16/none per fedeltà
Con 16 GB, float8 è solitamente il miglior compromesso

6.4 Pannello TARGET – configurazione LoRA

Target Type — LoRA
Linear Rank — inizia con 8–16

16 per stili/texture più forti
8 per LoRA più piccole e sottili

6.5 Pannello SAVE

Data Type — BF16
Save Every — 250
Max Step Saves to Keep — 4–12

6.6 Pannello TRAINING – iperparametri principali

Batch Size — 1
Optimizer — AdamW8Bit
Learning Rate — inizia a 0.0001
Se instabile/rumoroso, scendi a 0.00005–0.00008.

Evita di salire troppo (es. 0.0002+) — i modelli stile Turbo possono diventare instabili velocemente.
Weight Decay — 0.0001
Steps — 2500–3000 per 10–30 immagini
Se il tuo dataset è molto piccolo (<10 immagini), considera 1500–2200 per ridurre l'overfitting.
Loss Type — Mean Squared Error
Timestep Type — Weighted
Timestep Bias — Balanced

Favorisci High Noise se vuoi uno stile/atmosfera globale più forte.
Favorisci Low Noise se cerchi identità/dettaglio (avanzato; inizia con Balanced).

EMA — OFF

Text Encoder:

Cache Text Embeddings — ON se le didascalie sono statiche e la VRAM è limitata
(poi imposta Caption Dropout a 0)
Unload TE — mantieni OFF per addestramento basato su didascalie

Regolarizzazione:

DOP — mantieni OFF per la prima esecuzione; aggiungi dopo per LoRA di produzione solo-trigger
(DOP è potente ma aggiunge complessità; è più facile una volta che hai una baseline stabile.)

6.7 Pannello DATASETS

Caption Dropout Rate

0.05 se non fai cache degli embedding di testo
0 se fai cache degli embedding

Cache Latents — ON
Resolutions — 512 / 768 / 1024 è una baseline solida

6.8 Pannello SAMPLE (adatta alla tua base!)

Se addestri Turbo:

1024×1024, 8 step, guidance = 0, campionare ogni 250

Se addestri De‑Turbo:

1024×1024, 20–30 step, CFG 2–3, campionare ogni 250

Usa 5–10 prompt che riflettono l'uso reale; includi un paio di prompt senza il trigger per rilevare perdite.

6.9 Pannello ADVANCED – Differential Guidance (opzionale)

Do Differential Guidance — ON se vuoi convergenza più veloce
Scale — inizia a 3
Se i campioni appaiono troppo nitidi/rumorosi presto, riduci a 2. Se l'apprendimento è lento, puoi testare 4 dopo.

7. Ricette pratiche per addestramento LoRA Z‑Image

Una baseline solida per LoRA Turbo:

Turbo + training adapter (v1 o v2)
rank=16, lr=1e-4, steps=2500–3000
bucket 512/768/1024, cache latents ON
campioni ogni 250 step, 8 step, guidance 0

Se la tua LoRA sembra "troppo forte":

Mantieni l'addestramento uguale, ma pianifica di eseguire l'inferenza con un peso LoRA più basso (es. 0.6–0.8).

8. Risoluzione problemi

"La mia LoRA ha distrutto Turbo — ora ho bisogno di più step / CFG."

Cause più comuni:

addestrato su Turbo senza il training adapter, o
LR troppo alto per troppo tempo.

Soluzione:

usa l'architettura Turbo + training adapter
mantieni LR ≤ 1e‑4
riduci gli step se vedi deriva presto

"Lo stile è troppo forte."

Abbassa il peso della LoRA all'inferenza (0.6–0.8)
Usa trigger + DOP per LoRA di produzione (comportamento opt‑in)

"Le mani/sfondi sono disordinati."

Aggiungi alcune immagini che includono quei casi
Considera di favorire leggermente i timestep a basso rumore (avanzato)

"Niente VRAM / troppo lento."

Disabilita i bucket alti (mantieni 512–1024)
Abilita Low VRAM + offloading
Quantizza a float8
Fai cache dei latent (e opzionalmente fai cache degli embedding di testo)

FAQ

Dovrei usare l'adapter v1 o v2 per l'Addestramento LoRA Z-Image Turbo?

Inizia con il default della tua UI. Se i risultati sono instabili o vedi deriva Z‑Image Turbo, testa l'altra versione mantenendo tutte le altre impostazioni uguali.

Dovrei addestrare Z‑Image su Turbo+adapter o De‑Turbo?

Turbo+adapter per la maggior parte delle LoRA Z‑Image che devono mantenere il comportamento Turbo a 8 step. De‑Turbo se vuoi addestramento senza adapter o fine‑tune più lunghi.

Quali impostazioni di inferenza Z‑Image dovrei usare dopo l'addestramento?

Z‑Image Turbo tipicamente usa CFG basso/nullo e ~8 step. De‑Turbo si comporta più come un modello normale (20–30 step, CFG basso). Fai sempre corrispondere le tue impostazioni di campionamento alla base che stai effettivamente usando.

9. Usa la tua LoRA Z‑Image

Run LoRA — apri la pagina Run LoRA di Z‑Image Turbo. In questa pagina di inferenza del modello base puoi selezionare un asset LoRA che hai addestrato su RunComfy oppure importare un file LoRA addestrato con AI Toolkit, quindi eseguire l’inferenza tramite il playground o l’API. RunComfy usa lo stesso modello base e la definizione completa della pipeline AI Toolkit dalla tua configurazione di training, quindi ciò che hai visto durante il training è ciò che ottieni in inferenza — questo allineamento stretto training/inference aiuta a mantenere risultati coerenti con i tuoi sample di training.
Workflow ComfyUI — carica la tua LoRA in un workflow come Z‑Image workflow in ComfyUI

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample