Entraînement LoRA Z‑Image (Base) avec Ostris AI Toolkit

Z‑Image (Base) est le checkpoint Z‑Image complet (pas le Turbo à 8 étapes). Il est conçu pour du text‑to‑image haute qualité avec CFG + prompts négatifs et davantage d’étapes de sampling, et c’est aussi le meilleur choix si votre objectif est un LoRA propre et totalement contrôlable (personnage, style, produit, concepts riches en typographie).

À la fin de ce guide d’entraînement LoRA Z‑Image, vous saurez :

Lancer un entraînement LoRA Z‑Image dans AI Toolkit d’Ostris (local ou cloud).
Choisir des réglages par défaut qui correspondent vraiment au comportement d’inférence de Z‑Image Base (steps + CFG + résolution).
Éviter les pièges les plus fréquents de l’entraînement LoRA Z‑Image Base (réglages Turbo, « le LoRA ne fait rien », mismatch Base↔Turbo).
Exporter des checkpoints utilisables immédiatement dans votre UI d’inférence.

Cet article fait partie de la série d’entraînement LoRA avec AI Toolkit. Si vous débutez avec Ostris AI Toolkit, commencez par l’aperçu AI Toolkit LoRA training avant de suivre cet entraînement LoRA Z‑Image :

https://www.runcomfy.com/fr/trainer/ai-toolkit/getting-started

Table des matières

1. Aperçu de Z‑Image : ce qu’il sait faire (et en quoi il diffère de Turbo)
2. Options d’environnement : AI Toolkit local vs AI Toolkit cloud sur RunComfy
3. Matériel & VRAM : exigences pour l’entraînement LoRA Z‑Image Base
4. Construire un dataset pour l’entraînement LoRA Z‑Image Base
5. Pas à pas : entraînement LoRA Z‑Image dans AI Toolkit
6. Configurations recommandées pour l’entraînement LoRA Z‑Image selon la VRAM
7. Problèmes fréquents de l’entraînement Z‑Image Base et comment les corriger
8. Utiliser votre LoRA Z‑Image Base après l’entraînement LoRA Z‑Image

1. Aperçu de Z‑Image : ce qu’il sait faire (et en quoi il diffère de Turbo)

1.1 Ce que signifie « Z‑Image Base »

« Z‑Image Base » désigne le checkpoint Z‑Image non distillé. En pratique :

Il attend plus d’étapes de sampling (plutôt ~30–50, pas 8).
Il utilise efficacement CFG et les prompts négatifs.
C’est la meilleure cible pour le fine‑tuning LoRA (mention alternative une fois) quand vous cherchez un maximum de contrôle et de qualité en entraînement LoRA Z‑Image.

1.2 Base vs Turbo (l’implication clé pour l’entraînement)

Une erreur courante en entraînement LoRA Z‑Image est d’entraîner (ou d’évaluer) Base comme Turbo.

Les réglages Turbo (8 steps, peu/pas de CFG) rendent les sorties Base sous‑cuites et peuvent vous faire croire que votre LoRA « ne marche pas ».
Les réglages Base (30–50 steps + CFG normal) sont la bonne façon de juger les checkpoints.

Règle simple :

Si vous avez entraîné un LoRA Base, évaluez‑le sur Base avec un sampling style Base.

2. Options d’environnement : AI Toolkit local vs AI Toolkit cloud sur RunComfy

Vous pouvez réaliser cet entraînement LoRA Z‑Image de deux façons :

AI Toolkit local (votre propre GPU)
Installez AI Toolkit depuis le repo GitHub, puis lancez la Web UI. L’entraînement LoRA Z‑Image en local est idéal si vous avez un GPU NVIDIA, que vous êtes à l’aise avec CUDA/drivers, et que vous voulez un setup persistant pour itérer vos LoRAs.

https://github.com/ostris/ai-toolkit
AI Toolkit cloud sur RunComfy (H100 / H200)
AI Toolkit tourne dans le navigateur sur de gros GPUs :

Pas d’installation (ouvrez simplement l’UI)
Grande VRAM pour des buckets haute résolution (1280 / 1536)
Workspace persistant pour datasets, configs et runs passés

Le workflow d’entraînement LoRA Z‑Image est identique dans les deux environnements ; seule la localisation du GPU change.

3. Matériel & VRAM : exigences pour l’entraînement LoRA Z‑Image Base

Z‑Image peut tourner sur des GPUs assez modestes pour l’inférence, mais l’entraînement LoRA Z‑Image dépend fortement de :

Le bucket de résolution (768 vs 1024 vs 1536)
La quantification (float8)
Le rank LoRA
Les réglages de sampling pendant l’entraînement (résolution de preview + steps de preview)

Une manière pratique de raisonner pour l’entraînement LoRA Z‑Image :

12–16GB VRAM : faisable en 512/768 avec des réglages prudents
24GB VRAM : confortable pour entraîner en 1024
48GB+ VRAM : le plus simple pour les buckets 1280/1536 et une itération plus rapide

Si votre objectif est très typographie/produit, prévoyez une résolution plus élevée et acceptez que la VRAM grimpe vite.

4. Construire un dataset pour l’entraînement LoRA Z‑Image Base

Z‑Image Base n’a rien de « spécial » sur le format de dataset — mais il est sensible à la façon dont vous évaluez la qualité. Votre dataset pour entraînement LoRA Z‑Image doit donc être conçu pour coller au comportement que vous voulez en inférence (CFG + plus de steps).

4.1 Choisir votre objectif (et la forme du dataset)

Personnage / ressemblance : 15–50 images
Mélangez gros plans + plans moyens + variété d’éclairage.
Style : 30–200 images
Maximisez la variété de sujets pour que le modèle apprenne des « indices de style », pas une scène.
Produit / concept : 20–80 images
Cadrage cohérent et légendes claires pour les caractéristiques clés (matériaux, texte d’étiquette, forme).

4.2 Légendes + trigger (restez simple)

Utilisez un trigger si vous voulez un interrupteur net « on/off » (recommandé pour personnage/produit en entraînement LoRA Z‑Image).
Gardez les légendes courtes et cohérentes. Les légendes longues augmentent les associations accidentelles (coiffure/arrière‑plan devient « partie du trigger »).

Templates rapides

Personnage :
[trigger]

ou photo of [trigger], portrait, natural lighting
Style :
in a [style] illustration style, soft shading, muted palette
Produit :
product photo of [trigger], studio lighting, clean background

5. Pas à pas : entraînement LoRA Z‑Image dans AI Toolkit

Cette section est écrite pour correspondre aux panneaux UI d’AI Toolkit que vous voyez lorsque vous créez un nouveau job d’entraînement LoRA Z‑Image.

5.1 Panneau JOB (Training Name, GPU ID, Trigger Word)

Training Name : un nom de run descriptif (ex. zimage_base_character_v1)
GPU ID : sélectionnez votre GPU (local) ou laissez le défaut (cloud)
Trigger Word (optionnel mais recommandé pour personnage/produit en entraînement LoRA Z‑Image) :
Exemple : zimgAlice

5.2 Panneau MODEL (Model Architecture, Name or Path, Options)

Model Architecture : choisissez Z‑Image
Name or Path : définissez le repo du modèle de base, typiquement :
Tongyi-MAI/Z-Image
Options

Low VRAM : ON si vous avez ≤ 24GB
Layer Offloading : OFF par défaut ; ON seulement si vous êtes toujours OOM après avoir baissé résolution/rank

5.3 Panneau QUANTIZATION (Transformer, Text Encoder)

Transformer : float8 (default) est un excellent default pour faire passer des buckets plus grands.
Text Encoder : float8 (default) si vous avez besoin de marge VRAM.

Si vous avez beaucoup de VRAM, vous pouvez réduire la quantification — mais float8 reste généralement une baseline sûre pour l’entraînement LoRA Z‑Image.

5.4 Panneau TARGET (Target Type, Linear Rank)

Target Type : LoRA
Linear Rank (defaults pratiques pour entraînement LoRA Z‑Image)

16 : LoRAs de style, runs low‑VRAM
32 : LoRAs personnage/produit, meilleure fidélité
48+ : seulement si vous avez beaucoup de VRAM et que vous savez que vous sous‑apprenez

5.5 Panneau SAVE (Data Type, Save Every, Max Step Saves to Keep)

Data Type : BF16
Save Every : 250 (assez de checkpoints pour choisir le meilleur)
Max Step Saves to Keep : 4 (évite de gonfler le disque)

5.6 Panneau TRAINING (Batch Size, Steps, Optimizer, LR, Timesteps)

Baseline stable pour entraînement LoRA Z‑Image

Batch Size : 1
Gradient Accumulation : 1 (augmentez si vous voulez un batch effectif plus grand sans VRAM)
Steps : voir ci‑dessous (plages selon objectif)
Optimizer : AdamW8Bit
Learning Rate : 0.0001 (descendez à 0.00005 si instable)
Weight Decay : 0.0001
Timestep Type : Weighted
Timestep Bias : Balanced
Loss Type : Mean Squared Error
EMA : OFF pour la plupart des runs LoRA

Steps : une guideline adaptée à Z‑Image Base

Z‑Image Base tolère souvent un entraînement plus long que des modèles distillés type Turbo, mais vous voulez quand même arrêter avant que la fidélité au prompt ne s’effondre.

Personnage / ressemblance : 3000–7000 steps (le sweet spot dépend de la taille du dataset)
Style : 2000–6000 steps
Produit / concept : 2500–6500 steps

Pour un smoke test rapide de votre entraînement LoRA Z‑Image : lancez 1000–1500 steps, vérifiez les samples, puis faites un run complet.

5.7 Optimisations Text Encoder + Régularisation (à droite)

Unload TE : gardez OFF sauf si vous voulez un comportement trigger‑only sans légendes
Cache Text Embeddings : activez seulement si vos légendes sont statiques et sans caption dropout

Differential Output Preservation (DOP)

Si votre build UI l’inclut :

Activez Differential Output Preservation quand vous voulez que le LoRA « ne s’active que sur demande »
Si DOP est ON, ne cachez pas les text embeddings (conflit conceptuel)

5.8 Panneau ADVANCED

Do Differential Guidance : laissez OFF sauf si vous l’utilisez déjà et savez ce que vous réglez.

5.9 Panneau DATASETS (Target Dataset, Caption Dropout, Cache Latents, Resolutions)

Utilisez les réglages dataset comme vous les voyez pour l’entraînement LoRA Z‑Image :

Target Dataset : sélectionnez votre dataset
Default Caption : template court optionnel (ou vide si vous utilisez des .txt par image)
Caption Dropout Rate : 0.05 (mettez 0 si vous cachez les text embeddings)
Cache Latents : ON pour la vitesse
Is Regularization : OFF pour votre dataset principal
Flip X / Flip Y : OFF par défaut (surtout pour logos/texte)
Resolutions (le levier le plus important en entraînement LoRA Z‑Image Base)

Low VRAM : 512 + 768
24GB : 768 + 1024 (ou 1024 seul si le dataset est cohérent)
High VRAM : ajoutez 1280 / 1536 pour la meilleure fidélité produit/texte

5.10 Panneau SAMPLE (c’est là que Base vs Turbo compte le plus)

C’est l’endroit #1 où les gens se trompent en configurant Z‑Image Base en entraînement LoRA Z‑Image.

Defaults de sampling recommandés pour Base

Sample Every : 250
Sampler : FlowMatch (pour coller à la famille du scheduler)
Guidance Scale : 4 (plage typique Base ~3–5 ; ajustez selon vos goûts)
Sample Steps : 30–50 (commencez à 30)
Width / Height : faites correspondre votre bucket principal (1024×1024 est une bonne baseline)
Ajoutez une petite liste de prompts qui couvre :

le trigger (si vous en utilisez un)
différentes compositions
au moins un prompt « difficile » qui stresse identité/style/géométrie produit

Prompt négatif optionnel (Base le supporte très bien)

Utilisez un prompt négatif court pour les previews afin de réduire les artefacts, par ex. :

low quality, blurry, deformed, bad anatomy, watermark, text artifacts

5.11 Lancer l’entraînement et surveiller

Démarrez le job et surveillez pendant votre entraînement LoRA Z‑Image :

Samples à chaque intervalle de checkpoint (250 steps)
Fidélité au prompt (les prompts sont‑ils toujours respectés ?)
Signaux de surapprentissage (même visage/texture partout, arrière‑plans qui s’effondrent)

Choisissez le checkpoint où le LoRA est fort sans devenir un filtre always‑on.

6. Configurations recommandées pour l’entraînement LoRA Z‑Image selon la VRAM

Tier 1 — 12–16GB (VRAM serrée)

Low VRAM : ON
Quantization : float8 pour Transformer + Text Encoder
Linear Rank : 16
Resolutions : 512 + 768
Sample Steps : 30 (gardez le preview à 768 si nécessaire)
Steps : 2000–5000 selon la taille du dataset

Tier 2 — 24GB (le tier local le plus pratique)

Low VRAM : ON (vous pouvez essayer OFF une fois stable)
Quantization : float8
Linear Rank : 32 (personnage/produit), 16–32 (style)
Resolutions : 768 + 1024 (ou 1024 seul si cohérent)
Sample Steps : 30–40
Steps : 3000–7000 selon l’objectif

Tier 3 — 48GB+ (ou cloud H100/H200)

Low VRAM : OFF (optionnel)
Quantization : optionnelle (float8 reste OK)
Linear Rank : 32–48
Resolutions : 1024 + 1280 + 1536 (si votre dataset le supporte)
Sample Steps : 40–50 pour la meilleure qualité de preview
Steps : mêmes plages selon objectif ; vous itérez juste plus vite

7. Problèmes fréquents de l’entraînement Z‑Image Base et comment les corriger

Ce sont des problèmes spécifiques à Z‑Image Base (pas des erreurs génériques d’AI Toolkit).

« Base a l’air sous‑cuite / peu détaillée »

Cause probable : trop peu de steps et/ou résolution trop basse.

Fix

Montez les sample steps à 40–50
Essayez un bucket plus haut (1280/1536) si la VRAM le permet
Si votre workflow d’inférence a un paramètre « shift », certains utilisateurs rapportent une meilleure cohérence avec un shift moyen (ex. ~4–6). N’utilisez ça qu’en réglage fin après avoir validé steps/CFG.

« Mon LoRA Base marche sur Base mais pas sur Turbo »

C’est attendu dans beaucoup de cas :

Turbo est distillé et se comporte différemment (surtout sur CFG/négatifs et « à quel point les LoRAs mordent »).

Fix

Si vous devez déployer sur Turbo, envisagez un workflow orienté Turbo au lieu de supposer que le transfert Base↔Turbo sera 1:1.
Pour de meilleurs résultats, entraînez et déployez sur la même famille (Base→Base).

« Texte/logos incohérents »

Z‑Image Base peut faire une excellente typographie, mais il est sensible à la résolution et au sampling en entraînement LoRA Z‑Image.

Fix

Entraînez en 1024+ (et envisagez 1280/1536 si possible)
Évaluez avec 40–50 steps
Évitez Flip X si le texte compte
Légendez systématiquement la caractéristique texte clé (ne comptez pas sur le trigger pour l’induire)

8. Utiliser votre LoRA Z‑Image Base après l’entraînement LoRA Z‑Image

Run LoRA — ouvrez la page Z‑Image Run LoRA. Sur cette page d’inférence du modèle de base, vous pouvez sélectionner un asset LoRA entraîné sur RunComfy ou importer un fichier LoRA entraîné avec AI Toolkit, puis lancer l’inférence via le playground ou l’API. RunComfy utilise le même modèle de base et la définition complète du pipeline AI Toolkit issue de votre config d’entraînement, donc ce que vous avez vu pendant l’entraînement est ce que vous obtenez en inférence — cet alignement training/inference aide à garder des résultats cohérents avec vos samples d’entraînement. Vous pouvez aussi déployer votre LoRA comme endpoint dédié via la page Deployments

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Entraînement LoRA Z‑Image (Base) avec Ostris AI Toolkit

Table des matières

1. Aperçu de Z‑Image : ce qu’il sait faire (et en quoi il diffère de Turbo)

1.1 Ce que signifie « Z‑Image Base »

1.2 Base vs Turbo (l’implication clé pour l’entraînement)

2. Options d’environnement : AI Toolkit local vs AI Toolkit cloud sur RunComfy

3. Matériel & VRAM : exigences pour l’entraînement LoRA Z‑Image Base

4. Construire un dataset pour l’entraînement LoRA Z‑Image Base

4.1 Choisir votre objectif (et la forme du dataset)

4.2 Légendes + trigger (restez simple)

5. Pas à pas : entraînement LoRA Z‑Image dans AI Toolkit

5.1 Panneau JOB (Training Name, GPU ID, Trigger Word)

5.2 Panneau MODEL (Model Architecture, Name or Path, Options)

5.3 Panneau QUANTIZATION (Transformer, Text Encoder)

5.4 Panneau TARGET (Target Type, Linear Rank)

5.5 Panneau SAVE (Data Type, Save Every, Max Step Saves to Keep)

5.6 Panneau TRAINING (Batch Size, Steps, Optimizer, LR, Timesteps)

5.7 Optimisations Text Encoder + Régularisation (à droite)

5.8 Panneau ADVANCED

5.9 Panneau DATASETS (Target Dataset, Caption Dropout, Cache Latents, Resolutions)

5.10 Panneau SAMPLE (c’est là que Base vs Turbo compte le plus)

5.11 Lancer l’entraînement et surveiller

6. Configurations recommandées pour l’entraînement LoRA Z‑Image selon la VRAM

Tier 1 — 12–16GB (VRAM serrée)

Tier 2 — 24GB (le tier local le plus pratique)

Tier 3 — 48GB+ (ou cloud H100/H200)

7. Problèmes fréquents de l’entraînement Z‑Image Base et comment les corriger

« Base a l’air sous‑cuite / peu détaillée »

« Mon LoRA Base marche sur Base mais pas sur Turbo »

« Texte/logos incohérents »

8. Utiliser votre LoRA Z‑Image Base après l’entraînement LoRA Z‑Image

Plus de guides d’entraînement LoRA avec AI Toolkit