AI Toolkit LoRA Training Guides

Addestramento LoRA Z‑Image Base con Ostris AI Toolkit

Guida pratica per addestrare una LoRA di alta qualità su Z‑Image Base in Ostris AI Toolkit, ottimizzando dataset, rank/LR/step e sampling in stile Base (30–50 step + CFG) per risultati stabili.

Train Diffusion Models with Ostris AI Toolkit

Scorri orizzontalmente per vedere il modulo completo

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Use a Hugging Face repo ID (e.g. owner/model-name).
⚠️ full URLs, .safetensors files, and local files are not supported.

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Addestramento LoRA Z‑Image (Base) con Ostris AI Toolkit

Z‑Image (Base) è il checkpoint Z‑Image completo (non il Turbo a 8 step). È pensato per text‑to‑image di alta qualità con CFG + prompt negativi e più step di sampling, ed è anche la scelta migliore se il tuo obiettivo è un LoRA pulito e completamente controllabile (personaggio, stile, prodotto, concetti ricchi di tipografia).

Alla fine di questa guida di Addestramento LoRA Z‑Image, sarai in grado di:

  • Eseguire un Addestramento LoRA Z‑Image in AI Toolkit di Ostris (locale o cloud).
  • Scegliere impostazioni predefinite che corrispondano davvero al comportamento di inferenza di Z‑Image Base (step + CFG + risoluzione).
  • Evitare i problemi più comuni dell’Addestramento LoRA Z‑Image Base (settaggi Turbo, “il LoRA non fa nulla”, mismatch Base↔Turbo).
  • Esportare checkpoint pronti da usare nella tua UI di inferenza.
Questo articolo fa parte della serie di addestramento LoRA con AI Toolkit. Se sei nuovo su Ostris AI Toolkit, inizia con la panoramica AI Toolkit LoRA training prima di seguire questo Addestramento LoRA Z‑Image:
https://www.runcomfy.com/it/trainer/ai-toolkit/getting-started

Indice


1. Panoramica Z‑Image: cosa può fare (e in cosa differisce da Turbo)

1.1 Cosa significa “Z‑Image Base”

“Z‑Image Base” si riferisce al checkpoint Z‑Image non distillato. In pratica:

  • Si aspetta più step di sampling (pensa a ~30–50, non 8).
  • Usa in modo efficace CFG e prompt negativi.
  • È il target migliore per fine‑tuning LoRA (variante keyword una volta) quando vuoi massimo controllo e qualità nell’Addestramento LoRA Z‑Image.

1.2 Base vs Turbo (l’implicazione più importante per l’addestramento)

Un errore frequente nell’Addestramento LoRA Z‑Image è addestrare (o valutare) Base come Turbo.

  • I settaggi Turbo (8 step, poco/niente CFG) faranno sembrare l’output Base poco sviluppato e possono farti credere che il tuo LoRA “non funzioni”.
  • I settaggi Base (30–50 step + CFG normale) sono il modo corretto per giudicare i checkpoint.

Regola pratica:

Se hai addestrato una LoRA Base, valutala su Base con sampling in stile Base.


2. Opzioni di ambiente: AI Toolkit locale vs AI Toolkit cloud su RunComfy

Puoi fare questo Addestramento LoRA Z‑Image in due modi:

  • AI Toolkit locale (la tua GPU)

    Installa AI Toolkit dal repo GitHub e avvia la Web UI. L’Addestramento LoRA Z‑Image in locale è ideale se hai una GPU NVIDIA, sei a tuo agio con CUDA/driver e vuoi un setup persistente per iterare più LoRA.

    https://github.com/ostris/ai-toolkit

  • AI Toolkit cloud su RunComfy (H100 / H200)

    AI Toolkit gira nel browser su GPU grandi:

    • Nessuna installazione (apri l’UI)
    • Tanta VRAM per bucket ad alta risoluzione (1280 / 1536)
    • Workspace persistente per dataset, config e run passati

Il workflow dell’Addestramento LoRA Z‑Image è lo stesso in entrambi gli ambienti; cambia solo dove si trova la GPU.


3. Requisiti hardware e VRAM per Addestramento LoRA Z‑Image Base

Z‑Image può girare su GPU relativamente modeste per inferenza, ma l’Addestramento LoRA Z‑Image scala molto con:

  • Bucket di risoluzione (768 vs 1024 vs 1536)
  • Quantizzazione (float8)
  • Rank LoRA
  • Impostazioni di sampling durante l’addestramento (risoluzione preview + step preview)

Un modo pratico per pensarla nell’Addestramento LoRA Z‑Image:

  • 12–16GB VRAM: fattibile a 512/768 con impostazioni attente
  • 24GB VRAM: comodo per addestrare LoRA a 1024
  • 48GB+ VRAM: percorso più semplice per bucket 1280/1536 e iterazioni più rapide
Se il tuo obiettivo è tipografia pesante o fedeltà prodotto, pianifica risoluzioni più alte e accetta che la VRAM necessaria salga rapidamente.

4. Costruire un dataset per Addestramento LoRA Z‑Image Base

Z‑Image Base non è “speciale” sui formati di dataset — ma è sensibile a come valuti la qualità. Quindi il tuo dataset per Addestramento LoRA Z‑Image dovrebbe essere progettato per rispecchiare il comportamento che vuoi in inferenza (CFG + più step).

4.1 Scegli il tuo obiettivo (e la forma del dataset)

  • Personaggio / somiglianza: 15–50 immagini

    Mix di close‑up + mezzi busti + varietà di illuminazione.

  • Stile: 30–200 immagini

    Massimizza la varietà dei soggetti così il modello impara “cues di stile”, non una sola scena.

  • Prodotto / concetto: 20–80 immagini

    Inquadratura coerente e caption chiare per le caratteristiche chiave (materiali, testo etichetta, forma).

4.2 Caption + trigger (tienilo semplice)

  • Usa un trigger se vuoi un interruttore “on/off” pulito (consigliato per personaggio/prodotto nell’Addestramento LoRA Z‑Image).
  • Mantieni caption brevi e coerenti. Caption lunghe aumentano il binding accidentale (capelli/sfondo diventano “parte del trigger”).

Template rapidi

  • Personaggio:

    [trigger]

    o photo of [trigger], portrait, natural lighting

  • Stile:

    in a [style] illustration style, soft shading, muted palette

  • Prodotto:

    product photo of [trigger], studio lighting, clean background


5. Passo dopo passo: Addestramento LoRA Z‑Image in AI Toolkit

Questa sezione è scritta per corrispondere ai pannelli UI di AI Toolkit che vedi quando crei un nuovo job di Addestramento LoRA Z‑Image.

5.1 Pannello JOB (Training Name, GPU ID, Trigger Word)

  • Training Name: un nome run descrittivo (es. zimage_base_character_v1)
  • GPU ID: scegli la GPU (locale) o lascia il default (cloud)
  • Trigger Word (opzionale ma consigliato per personaggio/prodotto in Addestramento LoRA Z‑Image):

    Esempio: zimgAlice

5.2 Pannello MODEL (Model Architecture, Name or Path, Options)

  • Model Architecture: scegli Z‑Image
  • Name or Path: imposta il repo del modello base, tipicamente:

    Tongyi-MAI/Z-Image

  • Options
    • Low VRAM: ON se hai ≤ 24GB
    • Layer Offloading: OFF di default; ON solo se sei ancora OOM dopo aver abbassato risoluzione/rank

5.3 Pannello QUANTIZATION (Transformer, Text Encoder)

  • Transformer: float8 (default) è un ottimo default per far entrare bucket più grandi.
  • Text Encoder: float8 (default) se ti serve margine VRAM.

Se hai tanta VRAM, puoi ridurre la quantizzazione per semplicità — ma float8 è di solito una baseline sicura per Addestramento LoRA Z‑Image.

5.4 Pannello TARGET (Target Type, Linear Rank)

  • Target Type: LoRA
  • Linear Rank (default pratici per Addestramento LoRA Z‑Image)
    • 16: LoRA di stile, run low‑VRAM
    • 32: LoRA personaggio/prodotto, maggiore fedeltà
    • 48+: solo se hai molta VRAM e sai di essere in underfitting

5.5 Pannello SAVE (Data Type, Save Every, Max Step Saves to Keep)

  • Data Type: BF16
  • Save Every: 250 (abbastanza checkpoint per scegliere il migliore)
  • Max Step Saves to Keep: 4 (evita di gonfiare il disco)

5.6 Pannello TRAINING (Batch Size, Steps, Optimizer, LR, Timesteps)

Baseline stabile per Addestramento LoRA Z‑Image

  • Batch Size: 1
  • Gradient Accumulation: 1 (aumenta se vuoi batch effettivo maggiore senza VRAM)
  • Steps: vedi sotto (range per obiettivo)
  • Optimizer: AdamW8Bit
  • Learning Rate: 0.0001 (scendi a 0.00005 se instabile)
  • Weight Decay: 0.0001
  • Timestep Type: Weighted
  • Timestep Bias: Balanced
  • Loss Type: Mean Squared Error
  • EMA: OFF per la maggior parte dei run LoRA

Steps: una guida “Base‑friendly”

Z‑Image Base spesso tollera addestramenti più lunghi rispetto a modelli distillati stile Turbo, ma vuoi comunque fermarti prima che la fedeltà al prompt crolli.

  • Personaggio / somiglianza: 3000–7000 step (lo sweet spot dipende dalla dimensione del dataset)
  • Stile: 2000–6000 step
  • Prodotto / concetto: 2500–6500 step

Per uno “smoke test” rapido del tuo Addestramento LoRA Z‑Image: fai 1000–1500 step, controlla i sample, poi fai un run completo.

5.7 Ottimizzazioni Text Encoder + Regolarizzazione (lato destro)

  • Unload TE: lascia OFF a meno che tu non voglia comportamento solo‑trigger e niente caption
  • Cache Text Embeddings: abilita solo se usi caption statiche e nessun caption dropout

Differential Output Preservation (DOP)

Se la tua build UI lo include:

  • Abilita Differential Output Preservation quando ti interessa “il LoRA si attiva solo quando lo chiedi”
  • Se DOP è ON, non cacheare i text embeddings (in conflitto concettuale)

5.8 Pannello ADVANCED

  • Do Differential Guidance: lascia OFF a meno che tu non lo usi già nel tuo workflow e sappia cosa stai regolando.

5.9 Pannello DATASETS (Target Dataset, Caption Dropout, Cache Latents, Resolutions)

Usa le impostazioni dataset così come le vedi per Addestramento LoRA Z‑Image:

  • Target Dataset: seleziona il dataset
  • Default Caption: template corto opzionale (o vuoto se usi .txt per immagine)
  • Caption Dropout Rate: 0.05 (metti 0 se cachei text embeddings)
  • Cache Latents: ON per velocità
  • Is Regularization: OFF per il dataset principale
  • Flip X / Flip Y: OFF di default (soprattutto per loghi/testo)
  • Resolutions (la leva più importante in Addestramento LoRA Z‑Image Base)
    • Low VRAM: 512 + 768
    • 24GB: 768 + 1024 (o solo 1024 se il dataset è coerente)
    • High VRAM: aggiungi 1280 / 1536 per la migliore fedeltà prodotto/testo

5.10 Pannello SAMPLE (qui Base vs Turbo conta di più)

Questo è il punto #1 in cui la gente configura male Z‑Image Base nell’Addestramento LoRA Z‑Image.

Default di sampling consigliati per Base

  • Sample Every: 250
  • Sampler: FlowMatch (per matchare la famiglia scheduler)
  • Guidance Scale: 4 (range tipico Base ~3–5; regola a gusto)
  • Sample Steps: 30–50 (parti da 30)
  • Width / Height: matcha il bucket principale (1024×1024 è una buona baseline)
  • Aggiungi un set piccolo di prompt che copra:
    • il trigger (se lo usi)
    • composizioni diverse
    • almeno un prompt “hard” che stressa identità/stile/geometria prodotto

Prompt negativo opzionale (Base lo supporta bene)

Usa un prompt negativo corto nei preview per ridurre artefatti, per esempio:

low quality, blurry, deformed, bad anatomy, watermark, text artifacts

5.11 Avvia l’addestramento e monitora

Avvia il job e osserva durante il tuo Addestramento LoRA Z‑Image:

  • Sample a ogni intervallo checkpoint (250 step)
  • Fedeltà al prompt (i prompt sono ancora rispettati?)
  • Segnali di overfit (stessa faccia/texture ovunque, sfondi che collassano)

Scegli il checkpoint in cui il LoRA è forte senza diventare un filtro always‑on.


6. Config consigliate per Addestramento LoRA Z‑Image per fascia di VRAM

Tier 1 — 12–16GB (VRAM stretta)

  • Low VRAM: ON
  • Quantization: float8 per Transformer + Text Encoder
  • Linear Rank: 16
  • Resolutions: 512 + 768
  • Sample Steps: 30 (tieni il preview a 768 se necessario)
  • Steps: 2000–5000 in base alla dimensione del dataset

Tier 2 — 24GB (tier locale più pratico)

  • Low VRAM: ON (puoi provare OFF una volta stabile)
  • Quantization: float8
  • Linear Rank: 32 (personaggio/prodotto), 16–32 (stile)
  • Resolutions: 768 + 1024 (o solo 1024 se coerente)
  • Sample Steps: 30–40
  • Steps: 3000–7000 in base all’obiettivo

Tier 3 — 48GB+ (o cloud H100/H200)

  • Low VRAM: OFF (opzionale)
  • Quantization: opzionale (float8 va comunque bene)
  • Linear Rank: 32–48
  • Resolutions: 1024 + 1280 + 1536 (se il dataset lo supporta)
  • Sample Steps: 40–50 per la migliore qualità preview
  • Steps: stessi range per obiettivo; iteri solo più velocemente

7. Problemi comuni nell’addestramento Z‑Image Base e come risolverli

Questi sono problemi specifici di Z‑Image Base (non errori generici di AI Toolkit).

“Base sembra poco cotta / poco dettagliata”

Causa probabile: troppo pochi step e/o risoluzione troppo bassa.

Fix

  • Aumenta i sample steps a 40–50
  • Prova un bucket più alto (1280/1536) se la VRAM lo consente
  • Se il tuo workflow di inferenza ha un parametro “shift”, alcuni utenti riportano una coerenza migliore con shift a metà range (es. ~4–6). Usalo solo come knob di fine‑tuning dopo aver messo a posto step/CFG.

“La mia LoRA Base funziona su Base ma non su Turbo”

È normale in molti casi:

  • Turbo è distillato e si comporta diversamente (soprattutto per CFG/negativi e “quanto mordono le LoRA”).

Fix

  • Se devi deployare su Turbo, considera un workflow focalizzato su Turbo invece di assumere che Base↔Turbo sia 1:1.
  • Per i migliori risultati, addestra e deploya sulla stessa famiglia (Base→Base).

“Testo/loghi incoerenti”

Z‑Image Base può fare ottima tipografia, ma è sensibile a risoluzione e sampling in Addestramento LoRA Z‑Image.

Fix

  • Addestra a 1024+ (e considera 1280/1536 se possibile)
  • Valuta con 40–50 step
  • Evita Flip X se il testo conta
  • Captiona in modo coerente la feature testuale chiave (non affidarti al trigger per “implicarla”)

8. Usare la tua LoRA Z‑Image Base dopo l’Addestramento LoRA Z‑Image

Run LoRA — apri la pagina Z‑Image Run LoRA. In questa pagina di inferenza del modello base, puoi selezionare un asset LoRA che hai addestrato su RunComfy o importare un file LoRA addestrato con AI Toolkit, quindi eseguire inferenza dal playground o via API. RunComfy usa lo stesso modello base e la definizione completa della pipeline AI Toolkit dalla tua training config, quindi ciò che hai visto durante l’addestramento è ciò che ottieni in inferenza — questo allineamento training/inference aiuta a mantenere risultati coerenti con i sample di Addestramento LoRA Z‑Image. Puoi anche deployare il tuo LoRA come endpoint dedicato usando la pagina Deployments


Altre guide di addestramento LoRA AI Toolkit

Ready to start training?