Entraînement LoRA Z‑Image (Base) avec Ostris AI Toolkit
Z‑Image (Base) est le checkpoint Z‑Image complet (pas le Turbo à 8 étapes). Il est conçu pour du text‑to‑image haute qualité avec CFG + prompts négatifs et davantage d’étapes de sampling, et c’est aussi le meilleur choix si votre objectif est un LoRA propre et totalement contrôlable (personnage, style, produit, concepts riches en typographie).
À la fin de ce guide d’entraînement LoRA Z‑Image, vous saurez :
- Lancer un entraînement LoRA Z‑Image dans AI Toolkit d’Ostris (local ou cloud).
- Choisir des réglages par défaut qui correspondent vraiment au comportement d’inférence de Z‑Image Base (steps + CFG + résolution).
- Éviter les pièges les plus fréquents de l’entraînement LoRA Z‑Image Base (réglages Turbo, « le LoRA ne fait rien », mismatch Base↔Turbo).
- Exporter des checkpoints utilisables immédiatement dans votre UI d’inférence.
Cet article fait partie de la série d’entraînement LoRA avec AI Toolkit. Si vous débutez avec Ostris AI Toolkit, commencez par l’aperçu AI Toolkit LoRA training avant de suivre cet entraînement LoRA Z‑Image :
https://www.runcomfy.com/fr/trainer/ai-toolkit/getting-started
Table des matières
- 1. Aperçu de Z‑Image : ce qu’il sait faire (et en quoi il diffère de Turbo)
- 2. Options d’environnement : AI Toolkit local vs AI Toolkit cloud sur RunComfy
- 3. Matériel & VRAM : exigences pour l’entraînement LoRA Z‑Image Base
- 4. Construire un dataset pour l’entraînement LoRA Z‑Image Base
- 5. Pas à pas : entraînement LoRA Z‑Image dans AI Toolkit
- 6. Configurations recommandées pour l’entraînement LoRA Z‑Image selon la VRAM
- 7. Problèmes fréquents de l’entraînement Z‑Image Base et comment les corriger
- 8. Utiliser votre LoRA Z‑Image Base après l’entraînement LoRA Z‑Image
1. Aperçu de Z‑Image : ce qu’il sait faire (et en quoi il diffère de Turbo)
1.1 Ce que signifie « Z‑Image Base »
« Z‑Image Base » désigne le checkpoint Z‑Image non distillé. En pratique :
- Il attend plus d’étapes de sampling (plutôt ~30–50, pas 8).
- Il utilise efficacement CFG et les prompts négatifs.
- C’est la meilleure cible pour le fine‑tuning LoRA (mention alternative une fois) quand vous cherchez un maximum de contrôle et de qualité en entraînement LoRA Z‑Image.
1.2 Base vs Turbo (l’implication clé pour l’entraînement)
Une erreur courante en entraînement LoRA Z‑Image est d’entraîner (ou d’évaluer) Base comme Turbo.
- Les réglages Turbo (8 steps, peu/pas de CFG) rendent les sorties Base sous‑cuites et peuvent vous faire croire que votre LoRA « ne marche pas ».
- Les réglages Base (30–50 steps + CFG normal) sont la bonne façon de juger les checkpoints.
Règle simple :
Si vous avez entraîné un LoRA Base, évaluez‑le sur Base avec un sampling style Base.
2. Options d’environnement : AI Toolkit local vs AI Toolkit cloud sur RunComfy
Vous pouvez réaliser cet entraînement LoRA Z‑Image de deux façons :
- AI Toolkit local (votre propre GPU)
Installez AI Toolkit depuis le repo GitHub, puis lancez la Web UI. L’entraînement LoRA Z‑Image en local est idéal si vous avez un GPU NVIDIA, que vous êtes à l’aise avec CUDA/drivers, et que vous voulez un setup persistant pour itérer vos LoRAs.
https://github.com/ostris/ai-toolkit
- AI Toolkit cloud sur RunComfy (H100 / H200)
AI Toolkit tourne dans le navigateur sur de gros GPUs :
- Pas d’installation (ouvrez simplement l’UI)
- Grande VRAM pour des buckets haute résolution (1280 / 1536)
- Workspace persistant pour datasets, configs et runs passés
Le workflow d’entraînement LoRA Z‑Image est identique dans les deux environnements ; seule la localisation du GPU change.
3. Matériel & VRAM : exigences pour l’entraînement LoRA Z‑Image Base
Z‑Image peut tourner sur des GPUs assez modestes pour l’inférence, mais l’entraînement LoRA Z‑Image dépend fortement de :
- Le bucket de résolution (768 vs 1024 vs 1536)
- La quantification (float8)
- Le rank LoRA
- Les réglages de sampling pendant l’entraînement (résolution de preview + steps de preview)
Une manière pratique de raisonner pour l’entraînement LoRA Z‑Image :
- 12–16GB VRAM : faisable en 512/768 avec des réglages prudents
- 24GB VRAM : confortable pour entraîner en 1024
- 48GB+ VRAM : le plus simple pour les buckets 1280/1536 et une itération plus rapide
Si votre objectif est très typographie/produit, prévoyez une résolution plus élevée et acceptez que la VRAM grimpe vite.
4. Construire un dataset pour l’entraînement LoRA Z‑Image Base
Z‑Image Base n’a rien de « spécial » sur le format de dataset — mais il est sensible à la façon dont vous évaluez la qualité. Votre dataset pour entraînement LoRA Z‑Image doit donc être conçu pour coller au comportement que vous voulez en inférence (CFG + plus de steps).
4.1 Choisir votre objectif (et la forme du dataset)
- Personnage / ressemblance : 15–50 images
Mélangez gros plans + plans moyens + variété d’éclairage.
- Style : 30–200 images
Maximisez la variété de sujets pour que le modèle apprenne des « indices de style », pas une scène.
- Produit / concept : 20–80 images
Cadrage cohérent et légendes claires pour les caractéristiques clés (matériaux, texte d’étiquette, forme).
4.2 Légendes + trigger (restez simple)
- Utilisez un trigger si vous voulez un interrupteur net « on/off » (recommandé pour personnage/produit en entraînement LoRA Z‑Image).
- Gardez les légendes courtes et cohérentes. Les légendes longues augmentent les associations accidentelles (coiffure/arrière‑plan devient « partie du trigger »).
Templates rapides
- Personnage :
[trigger]ou
photo of [trigger], portrait, natural lighting - Style :
in a [style] illustration style, soft shading, muted palette - Produit :
product photo of [trigger], studio lighting, clean background
5. Pas à pas : entraînement LoRA Z‑Image dans AI Toolkit
Cette section est écrite pour correspondre aux panneaux UI d’AI Toolkit que vous voyez lorsque vous créez un nouveau job d’entraînement LoRA Z‑Image.
5.1 Panneau JOB (Training Name, GPU ID, Trigger Word)
- Training Name : un nom de run descriptif (ex.
zimage_base_character_v1) - GPU ID : sélectionnez votre GPU (local) ou laissez le défaut (cloud)
- Trigger Word (optionnel mais recommandé pour personnage/produit en entraînement LoRA Z‑Image) :
Exemple :
zimgAlice
5.2 Panneau MODEL (Model Architecture, Name or Path, Options)
- Model Architecture : choisissez Z‑Image
- Name or Path : définissez le repo du modèle de base, typiquement :
Tongyi-MAI/Z-Image - Options
- Low VRAM : ON si vous avez ≤ 24GB
- Layer Offloading : OFF par défaut ; ON seulement si vous êtes toujours OOM après avoir baissé résolution/rank
5.3 Panneau QUANTIZATION (Transformer, Text Encoder)
- Transformer :
float8 (default)est un excellent default pour faire passer des buckets plus grands. - Text Encoder :
float8 (default)si vous avez besoin de marge VRAM.
Si vous avez beaucoup de VRAM, vous pouvez réduire la quantification — mais float8 reste généralement une baseline sûre pour l’entraînement LoRA Z‑Image.
5.4 Panneau TARGET (Target Type, Linear Rank)
- Target Type :
LoRA - Linear Rank (defaults pratiques pour entraînement LoRA Z‑Image)
- 16 : LoRAs de style, runs low‑VRAM
- 32 : LoRAs personnage/produit, meilleure fidélité
- 48+ : seulement si vous avez beaucoup de VRAM et que vous savez que vous sous‑apprenez
5.5 Panneau SAVE (Data Type, Save Every, Max Step Saves to Keep)
- Data Type :
BF16 - Save Every :
250(assez de checkpoints pour choisir le meilleur) - Max Step Saves to Keep :
4(évite de gonfler le disque)
5.6 Panneau TRAINING (Batch Size, Steps, Optimizer, LR, Timesteps)
Baseline stable pour entraînement LoRA Z‑Image
- Batch Size :
1 - Gradient Accumulation :
1(augmentez si vous voulez un batch effectif plus grand sans VRAM) - Steps : voir ci‑dessous (plages selon objectif)
- Optimizer :
AdamW8Bit - Learning Rate :
0.0001(descendez à0.00005si instable) - Weight Decay :
0.0001 - Timestep Type :
Weighted - Timestep Bias :
Balanced - Loss Type :
Mean Squared Error - EMA : OFF pour la plupart des runs LoRA
Steps : une guideline adaptée à Z‑Image Base
Z‑Image Base tolère souvent un entraînement plus long que des modèles distillés type Turbo, mais vous voulez quand même arrêter avant que la fidélité au prompt ne s’effondre.
- Personnage / ressemblance : 3000–7000 steps (le sweet spot dépend de la taille du dataset)
- Style : 2000–6000 steps
- Produit / concept : 2500–6500 steps
Pour un smoke test rapide de votre entraînement LoRA Z‑Image : lancez 1000–1500 steps, vérifiez les samples, puis faites un run complet.
5.7 Optimisations Text Encoder + Régularisation (à droite)
- Unload TE : gardez OFF sauf si vous voulez un comportement trigger‑only sans légendes
- Cache Text Embeddings : activez seulement si vos légendes sont statiques et sans caption dropout
Differential Output Preservation (DOP)
Si votre build UI l’inclut :
- Activez Differential Output Preservation quand vous voulez que le LoRA « ne s’active que sur demande »
- Si DOP est ON, ne cachez pas les text embeddings (conflit conceptuel)
5.8 Panneau ADVANCED
- Do Differential Guidance : laissez OFF sauf si vous l’utilisez déjà et savez ce que vous réglez.
5.9 Panneau DATASETS (Target Dataset, Caption Dropout, Cache Latents, Resolutions)
Utilisez les réglages dataset comme vous les voyez pour l’entraînement LoRA Z‑Image :
- Target Dataset : sélectionnez votre dataset
- Default Caption : template court optionnel (ou vide si vous utilisez des
.txtpar image) - Caption Dropout Rate :
0.05(mettez0si vous cachez les text embeddings) - Cache Latents : ON pour la vitesse
- Is Regularization : OFF pour votre dataset principal
- Flip X / Flip Y : OFF par défaut (surtout pour logos/texte)
- Resolutions (le levier le plus important en entraînement LoRA Z‑Image Base)
- Low VRAM : 512 + 768
- 24GB : 768 + 1024 (ou 1024 seul si le dataset est cohérent)
- High VRAM : ajoutez 1280 / 1536 pour la meilleure fidélité produit/texte
5.10 Panneau SAMPLE (c’est là que Base vs Turbo compte le plus)
C’est l’endroit #1 où les gens se trompent en configurant Z‑Image Base en entraînement LoRA Z‑Image.
Defaults de sampling recommandés pour Base
- Sample Every :
250 - Sampler :
FlowMatch(pour coller à la famille du scheduler) - Guidance Scale :
4(plage typique Base ~3–5 ; ajustez selon vos goûts) - Sample Steps : 30–50 (commencez à 30)
- Width / Height : faites correspondre votre bucket principal (1024×1024 est une bonne baseline)
- Ajoutez une petite liste de prompts qui couvre :
- le trigger (si vous en utilisez un)
- différentes compositions
- au moins un prompt « difficile » qui stresse identité/style/géométrie produit
Prompt négatif optionnel (Base le supporte très bien)
Utilisez un prompt négatif court pour les previews afin de réduire les artefacts, par ex. :
low quality, blurry, deformed, bad anatomy, watermark, text artifacts
5.11 Lancer l’entraînement et surveiller
Démarrez le job et surveillez pendant votre entraînement LoRA Z‑Image :
- Samples à chaque intervalle de checkpoint (250 steps)
- Fidélité au prompt (les prompts sont‑ils toujours respectés ?)
- Signaux de surapprentissage (même visage/texture partout, arrière‑plans qui s’effondrent)
Choisissez le checkpoint où le LoRA est fort sans devenir un filtre always‑on.
6. Configurations recommandées pour l’entraînement LoRA Z‑Image selon la VRAM
Tier 1 — 12–16GB (VRAM serrée)
- Low VRAM : ON
- Quantization : float8 pour Transformer + Text Encoder
- Linear Rank : 16
- Resolutions : 512 + 768
- Sample Steps : 30 (gardez le preview à 768 si nécessaire)
- Steps : 2000–5000 selon la taille du dataset
Tier 2 — 24GB (le tier local le plus pratique)
- Low VRAM : ON (vous pouvez essayer OFF une fois stable)
- Quantization : float8
- Linear Rank : 32 (personnage/produit), 16–32 (style)
- Resolutions : 768 + 1024 (ou 1024 seul si cohérent)
- Sample Steps : 30–40
- Steps : 3000–7000 selon l’objectif
Tier 3 — 48GB+ (ou cloud H100/H200)
- Low VRAM : OFF (optionnel)
- Quantization : optionnelle (float8 reste OK)
- Linear Rank : 32–48
- Resolutions : 1024 + 1280 + 1536 (si votre dataset le supporte)
- Sample Steps : 40–50 pour la meilleure qualité de preview
- Steps : mêmes plages selon objectif ; vous itérez juste plus vite
7. Problèmes fréquents de l’entraînement Z‑Image Base et comment les corriger
Ce sont des problèmes spécifiques à Z‑Image Base (pas des erreurs génériques d’AI Toolkit).
« Base a l’air sous‑cuite / peu détaillée »
Cause probable : trop peu de steps et/ou résolution trop basse.
Fix
- Montez les sample steps à 40–50
- Essayez un bucket plus haut (1280/1536) si la VRAM le permet
- Si votre workflow d’inférence a un paramètre « shift », certains utilisateurs rapportent une meilleure cohérence avec un shift moyen (ex. ~4–6). N’utilisez ça qu’en réglage fin après avoir validé steps/CFG.
« Mon LoRA Base marche sur Base mais pas sur Turbo »
C’est attendu dans beaucoup de cas :
- Turbo est distillé et se comporte différemment (surtout sur CFG/négatifs et « à quel point les LoRAs mordent »).
Fix
- Si vous devez déployer sur Turbo, envisagez un workflow orienté Turbo au lieu de supposer que le transfert Base↔Turbo sera 1:1.
- Pour de meilleurs résultats, entraînez et déployez sur la même famille (Base→Base).
« Texte/logos incohérents »
Z‑Image Base peut faire une excellente typographie, mais il est sensible à la résolution et au sampling en entraînement LoRA Z‑Image.
Fix
- Entraînez en 1024+ (et envisagez 1280/1536 si possible)
- Évaluez avec 40–50 steps
- Évitez Flip X si le texte compte
- Légendez systématiquement la caractéristique texte clé (ne comptez pas sur le trigger pour l’induire)
8. Utiliser votre LoRA Z‑Image Base après l’entraînement LoRA Z‑Image
Run LoRA — ouvrez la page Z‑Image Run LoRA. Sur cette page d’inférence du modèle de base, vous pouvez sélectionner un asset LoRA entraîné sur RunComfy ou importer un fichier LoRA entraîné avec AI Toolkit, puis lancer l’inférence via le playground ou l’API. RunComfy utilise le même modèle de base et la définition complète du pipeline AI Toolkit issue de votre config d’entraînement, donc ce que vous avez vu pendant l’entraînement est ce que vous obtenez en inférence — cet alignement training/inference aide à garder des résultats cohérents avec vos samples d’entraînement. Vous pouvez aussi déployer votre LoRA comme endpoint dédié via la page Deployments
Plus de guides d’entraînement LoRA avec AI Toolkit
- Entraînement LoRA Z‑Image‑Turbo & De‑Turbo avec AI Toolkit
- Entraînement LoRA FLUX.2 Dev avec AI Toolkit
- Entraînement LoRA Qwen-Image-Edit-2511 avec AI Toolkit
- Entraînement LoRA Qwen-Image-Edit-2509 avec AI Toolkit
- Entraînement LoRA Wan 2.2 I2V 14B image-to-video
- Entraînement LoRA Wan 2.2 T2V 14B text-to-video
- Entraînement LoRA Qwen Image 2512
- Entraînement LoRA LTX-2 avec AI Toolkit
Prêt à commencer l'entraînement ?

