Addestramento LoRA Z‑Image (Base) con Ostris AI Toolkit

Z‑Image (Base) è il checkpoint Z‑Image completo (non il Turbo a 8 step). È pensato per text‑to‑image di alta qualità con CFG + prompt negativi e più step di sampling, ed è anche la scelta migliore se il tuo obiettivo è un LoRA pulito e completamente controllabile (personaggio, stile, prodotto, concetti ricchi di tipografia).

Alla fine di questa guida di Addestramento LoRA Z‑Image, sarai in grado di:

Eseguire un Addestramento LoRA Z‑Image in AI Toolkit di Ostris (locale o cloud).
Scegliere impostazioni predefinite che corrispondano davvero al comportamento di inferenza di Z‑Image Base (step + CFG + risoluzione).
Evitare i problemi più comuni dell’Addestramento LoRA Z‑Image Base (settaggi Turbo, “il LoRA non fa nulla”, mismatch Base↔Turbo).
Esportare checkpoint pronti da usare nella tua UI di inferenza.

Questo articolo fa parte della serie di addestramento LoRA con AI Toolkit. Se sei nuovo su Ostris AI Toolkit, inizia con la panoramica AI Toolkit LoRA training prima di seguire questo Addestramento LoRA Z‑Image:

https://www.runcomfy.com/it/trainer/ai-toolkit/getting-started

Indice

1. Panoramica Z‑Image: cosa può fare (e in cosa differisce da Turbo)
2. Opzioni di ambiente: AI Toolkit locale vs AI Toolkit cloud su RunComfy
3. Requisiti hardware e VRAM per Addestramento LoRA Z‑Image Base
4. Costruire un dataset per Addestramento LoRA Z‑Image Base
5. Passo dopo passo: Addestramento LoRA Z‑Image in AI Toolkit
6. Config consigliate per Addestramento LoRA Z‑Image per fascia di VRAM
7. Problemi comuni nell’addestramento Z‑Image Base e come risolverli
8. Usare la tua LoRA Z‑Image Base dopo l’Addestramento LoRA Z‑Image

1. Panoramica Z‑Image: cosa può fare (e in cosa differisce da Turbo)

1.1 Cosa significa “Z‑Image Base”

“Z‑Image Base” si riferisce al checkpoint Z‑Image non distillato. In pratica:

Si aspetta più step di sampling (pensa a ~30–50, non 8).
Usa in modo efficace CFG e prompt negativi.
È il target migliore per fine‑tuning LoRA (variante keyword una volta) quando vuoi massimo controllo e qualità nell’Addestramento LoRA Z‑Image.

1.2 Base vs Turbo (l’implicazione più importante per l’addestramento)

Un errore frequente nell’Addestramento LoRA Z‑Image è addestrare (o valutare) Base come Turbo.

I settaggi Turbo (8 step, poco/niente CFG) faranno sembrare l’output Base poco sviluppato e possono farti credere che il tuo LoRA “non funzioni”.
I settaggi Base (30–50 step + CFG normale) sono il modo corretto per giudicare i checkpoint.

Regola pratica:

Se hai addestrato una LoRA Base, valutala su Base con sampling in stile Base.

2. Opzioni di ambiente: AI Toolkit locale vs AI Toolkit cloud su RunComfy

Puoi fare questo Addestramento LoRA Z‑Image in due modi:

AI Toolkit locale (la tua GPU)
Installa AI Toolkit dal repo GitHub e avvia la Web UI. L’Addestramento LoRA Z‑Image in locale è ideale se hai una GPU NVIDIA, sei a tuo agio con CUDA/driver e vuoi un setup persistente per iterare più LoRA.

https://github.com/ostris/ai-toolkit
AI Toolkit cloud su RunComfy (H100 / H200)
AI Toolkit gira nel browser su GPU grandi:

Nessuna installazione (apri l’UI)
Tanta VRAM per bucket ad alta risoluzione (1280 / 1536)
Workspace persistente per dataset, config e run passati

Il workflow dell’Addestramento LoRA Z‑Image è lo stesso in entrambi gli ambienti; cambia solo dove si trova la GPU.

3. Requisiti hardware e VRAM per Addestramento LoRA Z‑Image Base

Z‑Image può girare su GPU relativamente modeste per inferenza, ma l’Addestramento LoRA Z‑Image scala molto con:

Bucket di risoluzione (768 vs 1024 vs 1536)
Quantizzazione (float8)
Rank LoRA
Impostazioni di sampling durante l’addestramento (risoluzione preview + step preview)

Un modo pratico per pensarla nell’Addestramento LoRA Z‑Image:

12–16GB VRAM: fattibile a 512/768 con impostazioni attente
24GB VRAM: comodo per addestrare LoRA a 1024
48GB+ VRAM: percorso più semplice per bucket 1280/1536 e iterazioni più rapide

Se il tuo obiettivo è tipografia pesante o fedeltà prodotto, pianifica risoluzioni più alte e accetta che la VRAM necessaria salga rapidamente.

4. Costruire un dataset per Addestramento LoRA Z‑Image Base

Z‑Image Base non è “speciale” sui formati di dataset — ma è sensibile a come valuti la qualità. Quindi il tuo dataset per Addestramento LoRA Z‑Image dovrebbe essere progettato per rispecchiare il comportamento che vuoi in inferenza (CFG + più step).

4.1 Scegli il tuo obiettivo (e la forma del dataset)

Personaggio / somiglianza: 15–50 immagini
Mix di close‑up + mezzi busti + varietà di illuminazione.
Stile: 30–200 immagini
Massimizza la varietà dei soggetti così il modello impara “cues di stile”, non una sola scena.
Prodotto / concetto: 20–80 immagini
Inquadratura coerente e caption chiare per le caratteristiche chiave (materiali, testo etichetta, forma).

4.2 Caption + trigger (tienilo semplice)

Usa un trigger se vuoi un interruttore “on/off” pulito (consigliato per personaggio/prodotto nell’Addestramento LoRA Z‑Image).
Mantieni caption brevi e coerenti. Caption lunghe aumentano il binding accidentale (capelli/sfondo diventano “parte del trigger”).

Template rapidi

Personaggio:
[trigger]

o photo of [trigger], portrait, natural lighting
Stile:
in a [style] illustration style, soft shading, muted palette
Prodotto:
product photo of [trigger], studio lighting, clean background

5. Passo dopo passo: Addestramento LoRA Z‑Image in AI Toolkit

Questa sezione è scritta per corrispondere ai pannelli UI di AI Toolkit che vedi quando crei un nuovo job di Addestramento LoRA Z‑Image.

5.1 Pannello JOB (Training Name, GPU ID, Trigger Word)

Training Name: un nome run descrittivo (es. zimage_base_character_v1)
GPU ID: scegli la GPU (locale) o lascia il default (cloud)
Trigger Word (opzionale ma consigliato per personaggio/prodotto in Addestramento LoRA Z‑Image):
Esempio: zimgAlice

5.2 Pannello MODEL (Model Architecture, Name or Path, Options)

Model Architecture: scegli Z‑Image
Name or Path: imposta il repo del modello base, tipicamente:
Tongyi-MAI/Z-Image
Options

Low VRAM: ON se hai ≤ 24GB
Layer Offloading: OFF di default; ON solo se sei ancora OOM dopo aver abbassato risoluzione/rank

5.3 Pannello QUANTIZATION (Transformer, Text Encoder)

Transformer: float8 (default) è un ottimo default per far entrare bucket più grandi.
Text Encoder: float8 (default) se ti serve margine VRAM.

Se hai tanta VRAM, puoi ridurre la quantizzazione per semplicità — ma float8 è di solito una baseline sicura per Addestramento LoRA Z‑Image.

5.4 Pannello TARGET (Target Type, Linear Rank)

Target Type: LoRA
Linear Rank (default pratici per Addestramento LoRA Z‑Image)

16: LoRA di stile, run low‑VRAM
32: LoRA personaggio/prodotto, maggiore fedeltà
48+: solo se hai molta VRAM e sai di essere in underfitting

5.5 Pannello SAVE (Data Type, Save Every, Max Step Saves to Keep)

Data Type: BF16
Save Every: 250 (abbastanza checkpoint per scegliere il migliore)
Max Step Saves to Keep: 4 (evita di gonfiare il disco)

5.6 Pannello TRAINING (Batch Size, Steps, Optimizer, LR, Timesteps)

Baseline stabile per Addestramento LoRA Z‑Image

Batch Size: 1
Gradient Accumulation: 1 (aumenta se vuoi batch effettivo maggiore senza VRAM)
Steps: vedi sotto (range per obiettivo)
Optimizer: AdamW8Bit
Learning Rate: 0.0001 (scendi a 0.00005 se instabile)
Weight Decay: 0.0001
Timestep Type: Weighted
Timestep Bias: Balanced
Loss Type: Mean Squared Error
EMA: OFF per la maggior parte dei run LoRA

Steps: una guida “Base‑friendly”

Z‑Image Base spesso tollera addestramenti più lunghi rispetto a modelli distillati stile Turbo, ma vuoi comunque fermarti prima che la fedeltà al prompt crolli.

Personaggio / somiglianza: 3000–7000 step (lo sweet spot dipende dalla dimensione del dataset)
Stile: 2000–6000 step
Prodotto / concetto: 2500–6500 step

Per uno “smoke test” rapido del tuo Addestramento LoRA Z‑Image: fai 1000–1500 step, controlla i sample, poi fai un run completo.

5.7 Ottimizzazioni Text Encoder + Regolarizzazione (lato destro)

Unload TE: lascia OFF a meno che tu non voglia comportamento solo‑trigger e niente caption
Cache Text Embeddings: abilita solo se usi caption statiche e nessun caption dropout

Differential Output Preservation (DOP)

Se la tua build UI lo include:

Abilita Differential Output Preservation quando ti interessa “il LoRA si attiva solo quando lo chiedi”
Se DOP è ON, non cacheare i text embeddings (in conflitto concettuale)

5.8 Pannello ADVANCED

Do Differential Guidance: lascia OFF a meno che tu non lo usi già nel tuo workflow e sappia cosa stai regolando.

5.9 Pannello DATASETS (Target Dataset, Caption Dropout, Cache Latents, Resolutions)

Usa le impostazioni dataset così come le vedi per Addestramento LoRA Z‑Image:

Target Dataset: seleziona il dataset
Default Caption: template corto opzionale (o vuoto se usi .txt per immagine)
Caption Dropout Rate: 0.05 (metti 0 se cachei text embeddings)
Cache Latents: ON per velocità
Is Regularization: OFF per il dataset principale
Flip X / Flip Y: OFF di default (soprattutto per loghi/testo)
Resolutions (la leva più importante in Addestramento LoRA Z‑Image Base)

Low VRAM: 512 + 768
24GB: 768 + 1024 (o solo 1024 se il dataset è coerente)
High VRAM: aggiungi 1280 / 1536 per la migliore fedeltà prodotto/testo

5.10 Pannello SAMPLE (qui Base vs Turbo conta di più)

Questo è il punto #1 in cui la gente configura male Z‑Image Base nell’Addestramento LoRA Z‑Image.

Default di sampling consigliati per Base

Sample Every: 250
Sampler: FlowMatch (per matchare la famiglia scheduler)
Guidance Scale: 4 (range tipico Base ~3–5; regola a gusto)
Sample Steps: 30–50 (parti da 30)
Width / Height: matcha il bucket principale (1024×1024 è una buona baseline)
Aggiungi un set piccolo di prompt che copra:

il trigger (se lo usi)
composizioni diverse
almeno un prompt “hard” che stressa identità/stile/geometria prodotto

Prompt negativo opzionale (Base lo supporta bene)

Usa un prompt negativo corto nei preview per ridurre artefatti, per esempio:

low quality, blurry, deformed, bad anatomy, watermark, text artifacts

5.11 Avvia l’addestramento e monitora

Avvia il job e osserva durante il tuo Addestramento LoRA Z‑Image:

Sample a ogni intervallo checkpoint (250 step)
Fedeltà al prompt (i prompt sono ancora rispettati?)
Segnali di overfit (stessa faccia/texture ovunque, sfondi che collassano)

Scegli il checkpoint in cui il LoRA è forte senza diventare un filtro always‑on.

6. Config consigliate per Addestramento LoRA Z‑Image per fascia di VRAM

Tier 1 — 12–16GB (VRAM stretta)

Low VRAM: ON
Quantization: float8 per Transformer + Text Encoder
Linear Rank: 16
Resolutions: 512 + 768
Sample Steps: 30 (tieni il preview a 768 se necessario)
Steps: 2000–5000 in base alla dimensione del dataset

Tier 2 — 24GB (tier locale più pratico)

Low VRAM: ON (puoi provare OFF una volta stabile)
Quantization: float8
Linear Rank: 32 (personaggio/prodotto), 16–32 (stile)
Resolutions: 768 + 1024 (o solo 1024 se coerente)
Sample Steps: 30–40
Steps: 3000–7000 in base all’obiettivo

Tier 3 — 48GB+ (o cloud H100/H200)

Low VRAM: OFF (opzionale)
Quantization: opzionale (float8 va comunque bene)
Linear Rank: 32–48
Resolutions: 1024 + 1280 + 1536 (se il dataset lo supporta)
Sample Steps: 40–50 per la migliore qualità preview
Steps: stessi range per obiettivo; iteri solo più velocemente

7. Problemi comuni nell’addestramento Z‑Image Base e come risolverli

Questi sono problemi specifici di Z‑Image Base (non errori generici di AI Toolkit).

“Base sembra poco cotta / poco dettagliata”

Causa probabile: troppo pochi step e/o risoluzione troppo bassa.

Fix

Aumenta i sample steps a 40–50
Prova un bucket più alto (1280/1536) se la VRAM lo consente
Se il tuo workflow di inferenza ha un parametro “shift”, alcuni utenti riportano una coerenza migliore con shift a metà range (es. ~4–6). Usalo solo come knob di fine‑tuning dopo aver messo a posto step/CFG.

“La mia LoRA Base funziona su Base ma non su Turbo”

È normale in molti casi:

Turbo è distillato e si comporta diversamente (soprattutto per CFG/negativi e “quanto mordono le LoRA”).

Fix

Se devi deployare su Turbo, considera un workflow focalizzato su Turbo invece di assumere che Base↔Turbo sia 1:1.
Per i migliori risultati, addestra e deploya sulla stessa famiglia (Base→Base).

“Testo/loghi incoerenti”

Z‑Image Base può fare ottima tipografia, ma è sensibile a risoluzione e sampling in Addestramento LoRA Z‑Image.

Fix

Addestra a 1024+ (e considera 1280/1536 se possibile)
Valuta con 40–50 step
Evita Flip X se il testo conta
Captiona in modo coerente la feature testuale chiave (non affidarti al trigger per “implicarla”)

8. Usare la tua LoRA Z‑Image Base dopo l’Addestramento LoRA Z‑Image

Run LoRA — apri la pagina Z‑Image Run LoRA. In questa pagina di inferenza del modello base, puoi selezionare un asset LoRA che hai addestrato su RunComfy o importare un file LoRA addestrato con AI Toolkit, quindi eseguire inferenza dal playground o via API. RunComfy usa lo stesso modello base e la definizione completa della pipeline AI Toolkit dalla tua training config, quindi ciò che hai visto durante l’addestramento è ciò che ottieni in inferenza — questo allineamento training/inference aiuta a mantenere risultati coerenti con i sample di Addestramento LoRA Z‑Image. Puoi anche deployare il tuo LoRA come endpoint dedicato usando la pagina Deployments

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Addestramento LoRA Z‑Image (Base) con Ostris AI Toolkit

Indice

1. Panoramica Z‑Image: cosa può fare (e in cosa differisce da Turbo)

1.1 Cosa significa “Z‑Image Base”

1.2 Base vs Turbo (l’implicazione più importante per l’addestramento)

2. Opzioni di ambiente: AI Toolkit locale vs AI Toolkit cloud su RunComfy

3. Requisiti hardware e VRAM per Addestramento LoRA Z‑Image Base

4. Costruire un dataset per Addestramento LoRA Z‑Image Base

4.1 Scegli il tuo obiettivo (e la forma del dataset)

4.2 Caption + trigger (tienilo semplice)

5. Passo dopo passo: Addestramento LoRA Z‑Image in AI Toolkit

5.1 Pannello JOB (Training Name, GPU ID, Trigger Word)

5.2 Pannello MODEL (Model Architecture, Name or Path, Options)

5.3 Pannello QUANTIZATION (Transformer, Text Encoder)

5.4 Pannello TARGET (Target Type, Linear Rank)

5.5 Pannello SAVE (Data Type, Save Every, Max Step Saves to Keep)

5.6 Pannello TRAINING (Batch Size, Steps, Optimizer, LR, Timesteps)

5.7 Ottimizzazioni Text Encoder + Regolarizzazione (lato destro)

5.8 Pannello ADVANCED

5.9 Pannello DATASETS (Target Dataset, Caption Dropout, Cache Latents, Resolutions)

5.10 Pannello SAMPLE (qui Base vs Turbo conta di più)

5.11 Avvia l’addestramento e monitora

6. Config consigliate per Addestramento LoRA Z‑Image per fascia di VRAM

Tier 1 — 12–16GB (VRAM stretta)

Tier 2 — 24GB (tier locale più pratico)

Tier 3 — 48GB+ (o cloud H100/H200)

7. Problemi comuni nell’addestramento Z‑Image Base e come risolverli

“Base sembra poco cotta / poco dettagliata”

“La mia LoRA Base funziona su Base ma non su Turbo”

“Testo/loghi incoerenti”

8. Usare la tua LoRA Z‑Image Base dopo l’Addestramento LoRA Z‑Image

Altre guide di addestramento LoRA AI Toolkit