Z‑Image est un modèle de génération d'images de 6B paramètres de Tongyi‑MAI construit sur un Scalable Single‑Stream Diffusion Transformer (S3‑DiT). Il est inhabituellement efficace pour sa taille et conçu pour fonctionner à 1024×1024 sur des GPU grand public.
Ce guide d'Entraînement LoRA Z-Image Turbo couvre les deux approches les plus courantes et pratiques pour entraîner un LoRA pour Z-Image Turbo :
1) Z‑Image Turbo (avec Training Adapter) — idéal quand vous voulez que votre LoRA fonctionne avec la vraie vitesse Turbo en 8 étapes après l'entraînement.
2) Z‑Image De‑Turbo (De‑Distilled) — idéal quand vous voulez une base dé‑distillée que vous pouvez entraîner sans adaptateur, ou pour des fine-tunes plus longs.
À la fin de ce guide, vous serez capable de :
- Choisir la bonne base Z‑Image (Turbo+adaptateur vs De‑Turbo) pour votre objectif.
- Préparer un dataset qui fonctionne avec l'entraînement distillé style Turbo.
- Configurer Ostris AI Toolkit (localement ou sur RunComfy Cloud AI Toolkit) panneau par panneau.
- Comprendre pourquoi chaque paramètre compte, pour ajuster plutôt que copier-coller.
Cet article fait partie de la série sur l'entraînement LoRA avec AI Toolkit. Si vous êtes nouveau sur Ostris AI Toolkit, commencez par l'aperçu de l'entraînement LoRA avec AI Toolkit avant de plonger dans ce guide.
Démarrage rapide (configuration de base recommandée)
Option A — Turbo + training adapter (recommandé pour la plupart des LoRAs)
Utilisez cette option pour l'Entraînement LoRA Z-Image Turbo si vous voulez que votre LoRA conserve le comportement rapide en 8 étapes de Turbo après l'entraînement.
Pourquoi c'est important :
- Turbo est un modèle "élève" distillé : il compresse un processus de diffusion multi-étapes plus lent en ~8 étapes.
- Si vous entraînez sur Turbo comme un modèle normal, vos mises à jour peuvent défaire la distillation ("dérive Turbo"), et vous aurez besoin de plus d'étapes / plus de CFG pour obtenir la même qualité.
- Le training adapter "dé‑distille" temporairement Turbo pendant l'entraînement pour que votre LoRA apprenne votre concept sans casser le comportement en 8 étapes de Turbo. À l'inférence, vous retirez l'adaptateur et gardez uniquement votre LoRA.
Configuration de base :
- MODEL → Model Architecture :
Z‑Image Turbo (w/ Training Adapter) - MODEL → Name or Path :
Tongyi-MAI/Z-Image-Turbo - MODEL → Training Adapter Path :
- Gardez la valeur par défaut si votre UI la remplit automatiquement (RunComfy utilise souvent v2 par défaut), ou définissez explicitement :
- v1 :
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2 :
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors - TARGET → Linear Rank :
16 - TRAINING → Learning Rate :
0.0001 - TRAINING → Steps :
2500–3000(pour 10–30 images) - DATASETS → Resolutions :
512 / 768 / 1024et Cache Latents = ON - SAMPLE (pour les aperçus) :
1024×1024, 8 étapes (ou9si votre pipeline traite 9 comme "8 DiT forwards")- Guidance scale = 0 (Turbo est guidance‑distillé)
- Échantillonner toutes les
250étapes
Option B — De‑Turbo (base dé‑distillée)
Utilisez cette option si vous voulez entraîner sans training adapter ou si vous prévoyez des entraînements plus longs.
Ce qui change par rapport à Turbo :
- De‑Turbo se comporte davantage comme un modèle de diffusion "normal" pour l'entraînement et l'échantillonnage.
- Vous échantillonnez typiquement avec plus d'étapes et un CFG faible (mais non nul).
- MODEL → Model Architecture :
Z‑Image De‑Turbo (De‑Distilled) - MODEL → Name or Path :
ostris/Z-Image-De-Turbo(ou ce que votre build AI Toolkit présélectionne) - Training Adapter Path : aucun (pas nécessaire)
- Gardez les mêmes paramètres LoRA (rank/LR/steps) comme ligne de base.
- SAMPLE (pour les aperçus) :
- 20–30 étapes
- CFG (guidance scale) ≈ 2–3
- Échantillonner toutes les
250étapes
Vous voulez zéro configuration ? Utilisez le RunComfy Cloud AI Toolkit et suivez exactement les mêmes panneaux.
Table des matières
- 1. Quelle base Z‑Image devriez-vous entraîner ? (Turbo+adaptateur vs De‑Turbo)
- 2. Z‑Image training adapter v1 vs v2 (ce qui change, quand utiliser)
- 3. Z‑Image / Z‑Image‑Turbo en bref (pour l'entraînement LoRA)
- 4. Où entraîner Z‑Image : local vs cloud AI Toolkit
- 5. Concevoir des datasets pour l'entraînement LoRA Z‑Image
- 6. Configuration LoRA Z‑Image dans AI Toolkit – paramètre par paramètre
- 7. Recettes pratiques pour l'entraînement LoRA Z‑Image
- 8. Dépannage (dérive Turbo, surapprentissage, VRAM, échantillonnage)
- 9. Exporter et utiliser votre LoRA Z‑Image
- FAQ
1. Quelle base Z‑Image devriez-vous entraîner ? (Turbo+adaptateur vs De‑Turbo)
AI Toolkit expose deux choix de "model architecture" pour l'AI Toolkit Z-Image Turbo LoRA :
1.1 Z‑Image Turbo (avec Training Adapter)
Idéal pour : les LoRAs typiques (personnage, style, produit), où votre objectif final est d'exécuter l'inférence sur Turbo en 8 étapes.
Pourquoi ça existe :
- Z‑Image Turbo est un modèle distillé par étapes. Si vous entraînez des LoRAs sur un modèle distillé par étapes "normalement", la distillation peut se dégrader rapidement, et Turbo commence à se comporter comme un modèle plus lent non-distillé (changements de qualité, besoin de plus d'étapes, etc.).
- Le training adapter agit comme un "LoRA de dé‑distillation" temporaire pendant l'entraînement. Votre LoRA apprend votre concept tandis que le comportement rapide en 8 étapes de Turbo reste stable.
- Au moment de l'inférence, vous retirez le training adapter et gardez votre LoRA sur la vraie base Turbo.
Signaux pratiques que vous avez choisi le bon chemin :
- Vos échantillons d'aperçu sont beaux à 8 étapes avec guidance ≈ 0.
- Votre LoRA ne commence pas soudainement à nécessiter 20–30 étapes pour paraître propre (un signe courant de dérive Turbo).
1.2 Z‑Image De‑Turbo (De‑Distilled)
Idéal pour : entraîner sans adaptateur, ou des fine‑tunes plus longs où Turbo+adaptateur finirait par dériver.
Ce que c'est :
- De‑Turbo est une version dé‑distillée de Turbo, conçue pour se comporter davantage comme un modèle de diffusion normal pour l'entraînement.
- Il peut être entraîné directement sans adaptateur et aussi utilisé pour l'inférence (typiquement 20–30 étapes avec un CFG faible).
1.3 Guide de décision rapide
Choisissez Turbo + training adapter si :
- Vous voulez que le LoRA fonctionne à vitesse Turbo (8 étapes) après l'entraînement.
- Vous faites un entraînement LoRA normal (quelques milliers à dizaines de milliers d'étapes).
Choisissez De‑Turbo si :
- Vous voulez un comportement de "modèle normal" pour l'entraînement et l'échantillonnage.
- Vous voulez entraîner plus longtemps, ou vous expérimentez avec des workflows qui ne supportent pas proprement le training adapter.
2. Z‑Image training adapter v1 vs v2 (ce qui change, quand utiliser)
Dans le dépôt du training adapter, vous verrez souvent deux fichiers :
..._v1.safetensors..._v2.safetensors
Ce que vous devez savoir (pratiquement) :
- v1 est la ligne de base sûre.
- v2 est une variante plus récente qui peut changer la dynamique d'entraînement et les résultats.
Recommandation : traitez cela comme un test A/B :
- Gardez dataset, LR, steps, rank identiques
- Entraînez une fois avec v1, une fois avec v2
- Comparez les grilles d'échantillons aux mêmes checkpoints
Si votre UI RunComfy utilise v2 par défaut et votre entraînement semble stable, gardez-le. Si vous voyez de l'instabilité (bruit, dérive Turbo, artefacts étranges), passez à v1.
3. Z‑Image / Z‑Image‑Turbo en bref (pour l'entraînement LoRA)
Des sources officielles Z‑Image :
- 6B paramètres, architecture S3‑DiT — les tokens texte, tokens sémantiques visuels et latents VAE sont concaténés en un seul flux transformer.
- Famille de modèles — les variantes Turbo, Base et Edit existent dans la série Z‑Image.
- Spécificités Turbo — optimisé pour une inférence rapide ; le guidance est typiquement 0 pour l'inférence Turbo.
Un modèle mental utile pour l'entraînement LoRA :
- Les timesteps à bruit élevé contrôlent principalement la composition (disposition, pose, tonalité de couleur globale).
- Les timesteps à bruit faible contrôlent principalement les détails (visages, mains, textures).
C'est pourquoi les paramètres de timestep et le biais peuvent changer notablement si un LoRA ressemble plus à un "style global" vs "identité/détail".
4. Où entraîner Z‑Image : local vs cloud AI Toolkit
4.1 AI Toolkit Local
L'AI Toolkit d'Ostris est open source sur GitHub. Il supporte le Tutoriel LoRA Z-Image Turbo, FLUX, Wan, Qwen et plus via un système unifié d'UI et de configuration.
Local a du sens si :
- Vous avez déjà un GPU NVIDIA et n'êtes pas gêné par la configuration Python / Git.
- Vous voulez un contrôle total sur les fichiers, logs et modifications personnalisées.
Dépôt : ostris/ai-toolkit
4.2 RunComfy Cloud AI Toolkit
Si vous préférez éviter les installations CUDA et les problèmes de drivers, utilisez RunComfy Cloud AI Toolkit :
- Zéro configuration — ouvrez un navigateur et entraînez.
- VRAM constant — plus facile de suivre les guides sans friction matérielle.
- Stockage persistant — itération plus facile et gestion des checkpoints.
👉 Ouvrez-le ici : Cloud AI Toolkit sur RunComfy
5. Concevoir des datasets pour l'entraînement LoRA Z‑Image
5.1 Combien d'images avez-vous réellement besoin ?
- 10–30 images est une bonne fourchette pour la plupart des LoRAs de personnage ou de style.
- Au-delà de ~50 images, vous atteignez souvent des rendements décroissants sauf si votre gamme de styles est très large.
Z‑Image apprend fortement des gradients ("apprend chaud"), donc la qualité et la variété du dataset comptent plus que le nombre brut d'images :
- Trop peu d'images + trop d'entraînement se manifeste souvent par des visages surappris, poses répétées, ou arrière-plans désordonnés.
- Un petit dataset mais diversifié (angles, éclairage, arrière-plans) tend à mieux généraliser qu'un grand répétitif.
5.2 LoRAs de personnage vs style
LoRA de Personnage
- Visez 12–30 images du même sujet.
- Mélangez gros plans et corps entier, angles, éclairage, tenues.
- Les légendes peuvent être littérales et cohérentes ; token trigger optionnel.
LoRA de Style
- Visez 15–40 images à travers des sujets variés (personnes, intérieurs, paysages, objets).
- Légendez la scène normalement ; ne sur-décrivez pas le style sauf si vous voulez qu'il soit uniquement par trigger.
- Cela enseigne : "rendre n'importe quoi dans ce style", plutôt que "faire le style seulement quand je dis un mot-clé spécial."
5.3 Légendes, mot trigger et fichiers texte
image_01.png→image_01.txt- S'il n'y a pas de
.txt, AI Toolkit utilise la Default Caption. - Vous pouvez utiliser
[trigger]dans les légendes et définir Trigger Word dans le panneau JOB. - C'est particulièrement utile si vous activez plus tard DOP (Differential Output Preservation) pour rendre le LoRA plus "opt-in".
6. Configuration LoRA Z‑Image dans AI Toolkit – paramètre par paramètre
Dans cette section, nous parcourons les panneaux UI et expliquons ce que fait chaque champ important pour savoir comment entraîner un Z-Image-Turbo LoRA.
6.1 Panneau JOB
- Training Name — étiquette descriptive comme
zimage_char_roux_v1 - GPU ID — sélecteur GPU local ; sur cloud gardez la valeur par défaut
- Trigger Word (optionnel) —
zchar_roux/zstyle_crayon
6.2 Panneau MODEL (le plus important)
C'est ici que comptent les deux choix de base :
Si vous choisissez Turbo + adaptateur
- Model Architecture —
Z‑Image Turbo (w/ Training Adapter) - Name or Path —
Tongyi-MAI/Z-Image-Turbo - C'est l'identifiant du modèle Hugging Face (repo id). Dans la plupart des builds AI Toolkit, sélectionner l'architecture du modèle remplira automatiquement ceci ; laissez-le sauf si vous avez une raison de le changer.
- Si vous le remplacez, utilisez le format repo id Hugging Face :
org-ou-utilisateur/nom-modele(optionnellementorg-ou-utilisateur/nom-modele@revision). - Training Adapter Path — gardez la valeur par défaut ou choisissez :
- v1 :
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2 :
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
Conseil : si vous entraînez accidentellement Turbo sans l'adaptateur, le symptôme le plus courant est que votre LoRA ne "fonctionne" que quand vous augmentez steps/CFG, ce qui annule l'intérêt de Turbo.
Si vous choisissez De‑Turbo
- Model Architecture —
Z‑Image De‑Turbo (De‑Distilled) - Name or Path —
ostris/Z-Image-De-Turbo - C'est l'identifiant du modèle Hugging Face (repo id). Dans la plupart des builds AI Toolkit, sélectionner l'architecture du modèle remplira automatiquement ceci ; laissez-le sauf si vous avez une raison de le changer.
- Si vous le remplacez, utilisez le format repo id Hugging Face :
org-ou-utilisateur/nom-modele(optionnellementorg-ou-utilisateur/nom-modele@revision). - Training Adapter Path — aucun
Options :
- Low VRAM / Layer Offloading — activer si vous êtes limité en VRAM
6.3 Panneau QUANTIZATION
- À 24+ Go, préférez
BF16/nonepour la fidélité - À 16 Go,
float8est généralement le meilleur compromis
6.4 Panneau TARGET – configuration LoRA
- Target Type —
LoRA - Linear Rank — commencez avec
8–16 16pour des styles/textures plus forts8pour des LoRAs plus petits et subtils
6.5 Panneau SAVE
- Data Type —
BF16 - Save Every —
250 - Max Step Saves to Keep —
4–12
6.6 Panneau TRAINING – hyperparamètres principaux
- Batch Size —
1 - Optimizer —
AdamW8Bit - Learning Rate — commencez à
0.0001Si instable/bruyant, descendez à
0.00005–0.00008.Évitez de monter trop haut (ex.
0.0002+) — les modèles style Turbo peuvent devenir instables rapidement. - Weight Decay —
0.0001 - Steps —
2500–3000pour 10–30 imagesSi votre dataset est très petit (<10 images), considérez
1500–2200pour réduire le surapprentissage. - Loss Type —
Mean Squared Error - Timestep Type —
Weighted - Timestep Bias —
Balanced - Favorisez High Noise si vous voulez un style/ambiance globale plus fort.
- Favorisez Low Noise si vous cherchez l'identité/détail (avancé ; commencez avec Balanced).
- EMA — OFF
Text Encoder :
- Cache Text Embeddings — ON si les légendes sont statiques et la VRAM est limitée
(alors mettez Caption Dropout à 0)
- Unload TE — gardez OFF pour l'entraînement basé sur les légendes
Régularisation :
- DOP — gardez OFF pour la première exécution ; ajoutez plus tard pour les LoRAs de production trigger-only
(DOP est puissant mais ajoute de la complexité ; c'est plus facile une fois que vous avez une ligne de base stable.)
6.7 Panneau DATASETS
- Caption Dropout Rate
0.05si vous ne cachez pas les embeddings texte0si vous cachez les embeddings- Cache Latents — ON
- Resolutions —
512 / 768 / 1024est une ligne de base solide
6.8 Panneau SAMPLE (correspondez à votre base !)
Si vous entraînez Turbo :
1024×1024, 8 étapes, guidance = 0, échantillonner toutes les250
Si vous entraînez De‑Turbo :
1024×1024, 20–30 étapes, CFG 2–3, échantillonner toutes les250
Utilisez 5–10 prompts qui reflètent l'utilisation réelle ; incluez quelques prompts sans le trigger pour détecter les fuites.
6.9 Panneau ADVANCED – Differential Guidance (optionnel)
- Do Differential Guidance — ON si vous voulez une convergence plus rapide
- Scale — commencez à
3Si les échantillons semblent trop nets/bruyants tôt, réduisez à
2. Si l'apprentissage est lent, vous pouvez tester4plus tard.
7. Recettes pratiques pour l'entraînement LoRA Z‑Image
Une ligne de base solide pour les LoRAs Turbo :
- Turbo + training adapter (v1 ou v2)
rank=16,lr=1e-4,steps=2500–3000- buckets
512/768/1024, cache latents ON - échantillons toutes les 250 étapes, 8 étapes, guidance 0
Si votre LoRA semble "trop fort" :
- Gardez l'entraînement identique, mais prévoyez d'exécuter l'inférence avec un poids LoRA plus bas (ex.
0.6–0.8).
8. Dépannage
"Mon LoRA a détruit Turbo — maintenant j'ai besoin de plus de steps / CFG."
- Causes les plus courantes :
- entraîné sur Turbo sans le training adapter, ou
- LR trop haut trop longtemps.
- Solution :
- utilisez l'architecture Turbo + training adapter
- gardez LR ≤ 1e‑4
- réduisez les steps si vous voyez de la dérive tôt
"Le style est trop fort."
- Baissez le poids du LoRA à l'inférence (0.6–0.8)
- Utilisez trigger + DOP pour les LoRAs de production (comportement opt‑in)
"Les mains/arrière-plans sont désordonnés."
- Ajoutez quelques images qui incluent ces cas
- Envisagez de favoriser légèrement les timesteps à bruit faible (avancé)
"Plus de VRAM / trop lent."
- Désactivez les buckets hauts (gardez 512–1024)
- Activez Low VRAM + offloading
- Quantifiez en float8
- Cachez les latents (et optionnellement cachez les embeddings texte)
9. Utilisez votre LoRA Z‑Image
- Model playground — testez votre LoRA sur le modèle de base via le Z‑Image Turbo LoRA playground
- Workflows ComfyUI — chargez votre LoRA dans un workflow comme Z‑Image workflow dans ComfyUI
FAQ
Dois-je utiliser l'adaptateur v1 ou v2 pour l'Entraînement LoRA Z-Image Turbo ?
Commencez avec la valeur par défaut de votre UI. Si les résultats sont instables ou vous voyez de la dérive Z‑Image Turbo, testez l'autre version en gardant tous les autres paramètres identiques.
Dois-je entraîner Z‑Image sur Turbo+adaptateur ou De‑Turbo ?
Turbo+adaptateur pour la plupart des LoRAs Z‑Image qui doivent conserver le comportement Turbo en 8 étapes. De‑Turbo si vous voulez un entraînement sans adaptateur ou des fine‑tunes plus longs.
Quels paramètres d'inférence Z‑Image dois-je utiliser après l'entraînement ?
Z‑Image Turbo utilise typiquement un CFG bas/nul et ~8 étapes. De‑Turbo se comporte davantage comme un modèle normal (20–30 étapes, CFG bas). Faites toujours correspondre vos paramètres d'échantillonnage à la base que vous utilisez réellement.
Plus de guides d'entraînement LoRA avec AI Toolkit
- Entraînement LoRA FLUX.2 Dev avec AI Toolkit
- Entraînement LoRA Qwen-Image-Edit-2511 avec AI Toolkit
- Entraînement LoRA Qwen-Image-Edit-2509 avec AI Toolkit
- Entraînement LoRA Wan 2.2 I2V 14B image-to-video
- Entraînement LoRA Wan 2.2 T2V 14B text-to-video
- Entraînement LoRA LTX-2 avec AI Toolkit
- Entraînement LoRA Qwen Image 2512 avec AI Toolkit
Ready to start training?

