Entraînement LoRA Z-Image (Z-Image Turbo + De-Turbo) avec Ostris AI Toolkit

Z‑Image est un modèle de génération d'images de 6B paramètres de Tongyi‑MAI construit sur un Scalable Single‑Stream Diffusion Transformer (S3‑DiT). Il est inhabituellement efficace pour sa taille et conçu pour fonctionner à 1024×1024 sur des GPU grand public.

Ce guide d'Entraînement LoRA Z-Image Turbo couvre les deux approches les plus courantes et pratiques pour entraîner un LoRA pour Z-Image Turbo :

1) Z‑Image Turbo (avec Training Adapter) — idéal quand vous voulez que votre LoRA fonctionne avec la vraie vitesse Turbo en 8 étapes après l'entraînement.

2) Z‑Image De‑Turbo (De‑Distilled) — idéal quand vous voulez une base dé‑distillée que vous pouvez entraîner sans adaptateur, ou pour des fine-tunes plus longs.

À la fin de ce guide, vous serez capable de :

Choisir la bonne base Z‑Image (Turbo+adaptateur vs De‑Turbo) pour votre objectif.
Préparer un dataset qui fonctionne avec l'entraînement distillé style Turbo.
Configurer Ostris AI Toolkit (localement ou sur RunComfy Cloud AI Toolkit) panneau par panneau.
Comprendre pourquoi chaque paramètre compte, pour ajuster plutôt que copier-coller.

Cet article fait partie de la série sur l'entraînement LoRA avec AI Toolkit. Si vous êtes nouveau sur Ostris AI Toolkit, commencez par l'aperçu de l'entraînement LoRA avec AI Toolkit avant de plonger dans ce guide.

Démarrage rapide (configuration de base recommandée)

Option A — Turbo + training adapter (recommandé pour la plupart des LoRAs)

Utilisez cette option pour l'Entraînement LoRA Z-Image Turbo si vous voulez que votre LoRA conserve le comportement rapide en 8 étapes de Turbo après l'entraînement.

Pourquoi c'est important :

Turbo est un modèle "élève" distillé : il compresse un processus de diffusion multi-étapes plus lent en ~8 étapes.
Si vous entraînez sur Turbo comme un modèle normal, vos mises à jour peuvent défaire la distillation ("dérive Turbo"), et vous aurez besoin de plus d'étapes / plus de CFG pour obtenir la même qualité.
Le training adapter "dé‑distille" temporairement Turbo pendant l'entraînement pour que votre LoRA apprenne votre concept sans casser le comportement en 8 étapes de Turbo. À l'inférence, vous retirez l'adaptateur et gardez uniquement votre LoRA.

Configuration de base :

MODEL → Model Architecture : Z‑Image Turbo (w/ Training Adapter)
MODEL → Name or Path : Tongyi-MAI/Z-Image-Turbo
MODEL → Training Adapter Path :

Gardez la valeur par défaut si votre UI la remplit automatiquement (RunComfy utilise souvent v2 par défaut), ou définissez explicitement :

v1 : ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
v2 : ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors

TARGET → Linear Rank : 16
TRAINING → Learning Rate : 0.0001
TRAINING → Steps : 2500–3000 (pour 10–30 images)
DATASETS → Resolutions : 512 / 768 / 1024 et Cache Latents = ON
SAMPLE (pour les aperçus) :

1024×1024, 8 étapes (ou 9 si votre pipeline traite 9 comme "8 DiT forwards")
Guidance scale = 0 (Turbo est guidance‑distillé)
Échantillonner toutes les 250 étapes

Option B — De‑Turbo (base dé‑distillée)

Utilisez cette option si vous voulez entraîner sans training adapter ou si vous prévoyez des entraînements plus longs.

Ce qui change par rapport à Turbo :

De‑Turbo se comporte davantage comme un modèle de diffusion "normal" pour l'entraînement et l'échantillonnage.
Vous échantillonnez typiquement avec plus d'étapes et un CFG faible (mais non nul).

MODEL → Model Architecture : Z‑Image De‑Turbo (De‑Distilled)
MODEL → Name or Path : ostris/Z-Image-De-Turbo (ou ce que votre build AI Toolkit présélectionne)
Training Adapter Path : aucun (pas nécessaire)
Gardez les mêmes paramètres LoRA (rank/LR/steps) comme ligne de base.
SAMPLE (pour les aperçus) :

20–30 étapes
CFG (guidance scale) ≈ 2–3
Échantillonner toutes les 250 étapes

Vous voulez zéro configuration ? Utilisez le RunComfy Cloud AI Toolkit et suivez exactement les mêmes panneaux.

Table des matières

1. Quelle base Z‑Image devriez-vous entraîner ? (Turbo+adaptateur vs De‑Turbo)
2. Z‑Image training adapter v1 vs v2 (ce qui change, quand utiliser)
3. Z‑Image / Z‑Image‑Turbo en bref (pour l'entraînement LoRA)
4. Où entraîner Z‑Image : local vs cloud AI Toolkit
5. Concevoir des datasets pour l'entraînement LoRA Z‑Image
6. Configuration LoRA Z‑Image dans AI Toolkit – paramètre par paramètre
7. Recettes pratiques pour l'entraînement LoRA Z‑Image
8. Dépannage (dérive Turbo, surapprentissage, VRAM, échantillonnage)
9. Exporter et utiliser votre LoRA Z‑Image
FAQ

1. Quelle base Z‑Image devriez-vous entraîner ? (Turbo+adaptateur vs De‑Turbo)

AI Toolkit expose deux choix de "model architecture" pour l'AI Toolkit Z-Image Turbo LoRA :

1.1 Z‑Image Turbo (avec Training Adapter)

Idéal pour : les LoRAs typiques (personnage, style, produit), où votre objectif final est d'exécuter l'inférence sur Turbo en 8 étapes.

Pourquoi ça existe :

Z‑Image Turbo est un modèle distillé par étapes. Si vous entraînez des LoRAs sur un modèle distillé par étapes "normalement", la distillation peut se dégrader rapidement, et Turbo commence à se comporter comme un modèle plus lent non-distillé (changements de qualité, besoin de plus d'étapes, etc.).
Le training adapter agit comme un "LoRA de dé‑distillation" temporaire pendant l'entraînement. Votre LoRA apprend votre concept tandis que le comportement rapide en 8 étapes de Turbo reste stable.
Au moment de l'inférence, vous retirez le training adapter et gardez votre LoRA sur la vraie base Turbo.

Signaux pratiques que vous avez choisi le bon chemin :

Vos échantillons d'aperçu sont beaux à 8 étapes avec guidance ≈ 0.
Votre LoRA ne commence pas soudainement à nécessiter 20–30 étapes pour paraître propre (un signe courant de dérive Turbo).

1.2 Z‑Image De‑Turbo (De‑Distilled)

Idéal pour : entraîner sans adaptateur, ou des fine‑tunes plus longs où Turbo+adaptateur finirait par dériver.

Ce que c'est :

De‑Turbo est une version dé‑distillée de Turbo, conçue pour se comporter davantage comme un modèle de diffusion normal pour l'entraînement.
Il peut être entraîné directement sans adaptateur et aussi utilisé pour l'inférence (typiquement 20–30 étapes avec un CFG faible).

1.3 Guide de décision rapide

Choisissez Turbo + training adapter si :

Vous voulez que le LoRA fonctionne à vitesse Turbo (8 étapes) après l'entraînement.
Vous faites un entraînement LoRA normal (quelques milliers à dizaines de milliers d'étapes).

Choisissez De‑Turbo si :

Vous voulez un comportement de "modèle normal" pour l'entraînement et l'échantillonnage.
Vous voulez entraîner plus longtemps, ou vous expérimentez avec des workflows qui ne supportent pas proprement le training adapter.

2. Z‑Image training adapter v1 vs v2 (ce qui change, quand utiliser)

Dans le dépôt du training adapter, vous verrez souvent deux fichiers :

..._v1.safetensors
..._v2.safetensors

Ce que vous devez savoir (pratiquement) :

v1 est la ligne de base sûre.
v2 est une variante plus récente qui peut changer la dynamique d'entraînement et les résultats.

Recommandation : traitez cela comme un test A/B :

Gardez dataset, LR, steps, rank identiques
Entraînez une fois avec v1, une fois avec v2
Comparez les grilles d'échantillons aux mêmes checkpoints

Si votre UI RunComfy utilise v2 par défaut et votre entraînement semble stable, gardez-le. Si vous voyez de l'instabilité (bruit, dérive Turbo, artefacts étranges), passez à v1.

3. Z‑Image / Z‑Image‑Turbo en bref (pour l'entraînement LoRA)

Des sources officielles Z‑Image :

6B paramètres, architecture S3‑DiT — les tokens texte, tokens sémantiques visuels et latents VAE sont concaténés en un seul flux transformer.
Famille de modèles — les variantes Turbo, Base et Edit existent dans la série Z‑Image.
Spécificités Turbo — optimisé pour une inférence rapide ; le guidance est typiquement 0 pour l'inférence Turbo.

Un modèle mental utile pour l'entraînement LoRA :

Les timesteps à bruit élevé contrôlent principalement la composition (disposition, pose, tonalité de couleur globale).
Les timesteps à bruit faible contrôlent principalement les détails (visages, mains, textures).

C'est pourquoi les paramètres de timestep et le biais peuvent changer notablement si un LoRA ressemble plus à un "style global" vs "identité/détail".

4. Où entraîner Z‑Image : local vs cloud AI Toolkit

4.1 AI Toolkit Local

L'AI Toolkit d'Ostris est open source sur GitHub. Il supporte le Tutoriel LoRA Z-Image Turbo, FLUX, Wan, Qwen et plus via un système unifié d'UI et de configuration.

Local a du sens si :

Vous avez déjà un GPU NVIDIA et n'êtes pas gêné par la configuration Python / Git.
Vous voulez un contrôle total sur les fichiers, logs et modifications personnalisées.

Dépôt : ostris/ai-toolkit

4.2 RunComfy Cloud AI Toolkit

Si vous préférez éviter les installations CUDA et les problèmes de drivers, utilisez RunComfy Cloud AI Toolkit :

Zéro configuration — ouvrez un navigateur et entraînez.
VRAM constant — plus facile de suivre les guides sans friction matérielle.
Stockage persistant — itération plus facile et gestion des checkpoints.

👉 Ouvrez-le ici : Cloud AI Toolkit sur RunComfy

5. Concevoir des datasets pour l'entraînement LoRA Z‑Image

5.1 Combien d'images avez-vous réellement besoin ?

10–30 images est une bonne fourchette pour la plupart des LoRAs de personnage ou de style.
Au-delà de ~50 images, vous atteignez souvent des rendements décroissants sauf si votre gamme de styles est très large.

Z‑Image apprend fortement des gradients ("apprend chaud"), donc la qualité et la variété du dataset comptent plus que le nombre brut d'images :

Trop peu d'images + trop d'entraînement se manifeste souvent par des visages surappris, poses répétées, ou arrière-plans désordonnés.
Un petit dataset mais diversifié (angles, éclairage, arrière-plans) tend à mieux généraliser qu'un grand répétitif.

5.2 LoRAs de personnage vs style

LoRA de Personnage

Visez 12–30 images du même sujet.
Mélangez gros plans et corps entier, angles, éclairage, tenues.
Les légendes peuvent être littérales et cohérentes ; token trigger optionnel.

LoRA de Style

Visez 15–40 images à travers des sujets variés (personnes, intérieurs, paysages, objets).
Légendez la scène normalement ; ne sur-décrivez pas le style sauf si vous voulez qu'il soit uniquement par trigger.

Cela enseigne : "rendre n'importe quoi dans ce style", plutôt que "faire le style seulement quand je dis un mot-clé spécial."

5.3 Légendes, mot trigger et fichiers texte

image_01.png → image_01.txt
S'il n'y a pas de .txt, AI Toolkit utilise la Default Caption.
Vous pouvez utiliser [trigger] dans les légendes et définir Trigger Word dans le panneau JOB.

C'est particulièrement utile si vous activez plus tard DOP (Differential Output Preservation) pour rendre le LoRA plus "opt-in".

6. Configuration LoRA Z‑Image dans AI Toolkit – paramètre par paramètre

Dans cette section, nous parcourons les panneaux UI et expliquons ce que fait chaque champ important pour savoir comment entraîner un Z-Image-Turbo LoRA.

6.1 Panneau JOB

Training Name — étiquette descriptive comme zimage_char_roux_v1
GPU ID — sélecteur GPU local ; sur cloud gardez la valeur par défaut
Trigger Word (optionnel) — zchar_roux / zstyle_crayon

6.2 Panneau MODEL (le plus important)

C'est ici que comptent les deux choix de base :

Si vous choisissez Turbo + adaptateur

Model Architecture — Z‑Image Turbo (w/ Training Adapter)
Name or Path — Tongyi-MAI/Z-Image-Turbo

C'est l'identifiant du modèle Hugging Face (repo id). Dans la plupart des builds AI Toolkit, sélectionner l'architecture du modèle remplira automatiquement ceci ; laissez-le sauf si vous avez une raison de le changer.
Si vous le remplacez, utilisez le format repo id Hugging Face : org-ou-utilisateur/nom-modele (optionnellement org-ou-utilisateur/nom-modele@revision).

Training Adapter Path — gardez la valeur par défaut ou choisissez :

v1 : ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
v2 : ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors

Conseil : si vous entraînez accidentellement Turbo sans l'adaptateur, le symptôme le plus courant est que votre LoRA ne "fonctionne" que quand vous augmentez steps/CFG, ce qui annule l'intérêt de Turbo.

Si vous choisissez De‑Turbo

Model Architecture — Z‑Image De‑Turbo (De‑Distilled)
Name or Path — ostris/Z-Image-De-Turbo

C'est l'identifiant du modèle Hugging Face (repo id). Dans la plupart des builds AI Toolkit, sélectionner l'architecture du modèle remplira automatiquement ceci ; laissez-le sauf si vous avez une raison de le changer.
Si vous le remplacez, utilisez le format repo id Hugging Face : org-ou-utilisateur/nom-modele (optionnellement org-ou-utilisateur/nom-modele@revision).

Training Adapter Path — aucun

Options :

Low VRAM / Layer Offloading — activer si vous êtes limité en VRAM

6.3 Panneau QUANTIZATION

À 24+ Go, préférez BF16/none pour la fidélité
À 16 Go, float8 est généralement le meilleur compromis

6.4 Panneau TARGET – configuration LoRA

Target Type — LoRA
Linear Rank — commencez avec 8–16

16 pour des styles/textures plus forts
8 pour des LoRAs plus petits et subtils

6.5 Panneau SAVE

Data Type — BF16
Save Every — 250
Max Step Saves to Keep — 4–12

6.6 Panneau TRAINING – hyperparamètres principaux

Batch Size — 1
Optimizer — AdamW8Bit
Learning Rate — commencez à 0.0001
Si instable/bruyant, descendez à 0.00005–0.00008.

Évitez de monter trop haut (ex. 0.0002+) — les modèles style Turbo peuvent devenir instables rapidement.
Weight Decay — 0.0001
Steps — 2500–3000 pour 10–30 images
Si votre dataset est très petit (<10 images), considérez 1500–2200 pour réduire le surapprentissage.
Loss Type — Mean Squared Error
Timestep Type — Weighted
Timestep Bias — Balanced

Favorisez High Noise si vous voulez un style/ambiance globale plus fort.
Favorisez Low Noise si vous cherchez l'identité/détail (avancé ; commencez avec Balanced).

EMA — OFF

Text Encoder :

Cache Text Embeddings — ON si les légendes sont statiques et la VRAM est limitée
(alors mettez Caption Dropout à 0)
Unload TE — gardez OFF pour l'entraînement basé sur les légendes

Régularisation :

DOP — gardez OFF pour la première exécution ; ajoutez plus tard pour les LoRAs de production trigger-only
(DOP est puissant mais ajoute de la complexité ; c'est plus facile une fois que vous avez une ligne de base stable.)

6.7 Panneau DATASETS

Caption Dropout Rate

0.05 si vous ne cachez pas les embeddings texte
0 si vous cachez les embeddings

Cache Latents — ON
Resolutions — 512 / 768 / 1024 est une ligne de base solide

6.8 Panneau SAMPLE (correspondez à votre base !)

Si vous entraînez Turbo :

1024×1024, 8 étapes, guidance = 0, échantillonner toutes les 250

Si vous entraînez De‑Turbo :

1024×1024, 20–30 étapes, CFG 2–3, échantillonner toutes les 250

Utilisez 5–10 prompts qui reflètent l'utilisation réelle ; incluez quelques prompts sans le trigger pour détecter les fuites.

6.9 Panneau ADVANCED – Differential Guidance (optionnel)

Do Differential Guidance — ON si vous voulez une convergence plus rapide
Scale — commencez à 3
Si les échantillons semblent trop nets/bruyants tôt, réduisez à 2. Si l'apprentissage est lent, vous pouvez tester 4 plus tard.

7. Recettes pratiques pour l'entraînement LoRA Z‑Image

Une ligne de base solide pour les LoRAs Turbo :

Turbo + training adapter (v1 ou v2)
rank=16, lr=1e-4, steps=2500–3000
buckets 512/768/1024, cache latents ON
échantillons toutes les 250 étapes, 8 étapes, guidance 0

Si votre LoRA semble "trop fort" :

Gardez l'entraînement identique, mais prévoyez d'exécuter l'inférence avec un poids LoRA plus bas (ex. 0.6–0.8).

8. Dépannage

"Mon LoRA a détruit Turbo — maintenant j'ai besoin de plus de steps / CFG."

Causes les plus courantes :

entraîné sur Turbo sans le training adapter, ou
LR trop haut trop longtemps.

Solution :

utilisez l'architecture Turbo + training adapter
gardez LR ≤ 1e‑4
réduisez les steps si vous voyez de la dérive tôt

"Le style est trop fort."

Baissez le poids du LoRA à l'inférence (0.6–0.8)
Utilisez trigger + DOP pour les LoRAs de production (comportement opt‑in)

"Les mains/arrière-plans sont désordonnés."

Ajoutez quelques images qui incluent ces cas
Envisagez de favoriser légèrement les timesteps à bruit faible (avancé)

"Plus de VRAM / trop lent."

Désactivez les buckets hauts (gardez 512–1024)
Activez Low VRAM + offloading
Quantifiez en float8
Cachez les latents (et optionnellement cachez les embeddings texte)

FAQ

Dois-je utiliser l'adaptateur v1 ou v2 pour l'Entraînement LoRA Z-Image Turbo ?

Commencez avec la valeur par défaut de votre UI. Si les résultats sont instables ou vous voyez de la dérive Z‑Image Turbo, testez l'autre version en gardant tous les autres paramètres identiques.

Dois-je entraîner Z‑Image sur Turbo+adaptateur ou De‑Turbo ?

Turbo+adaptateur pour la plupart des LoRAs Z‑Image qui doivent conserver le comportement Turbo en 8 étapes. De‑Turbo si vous voulez un entraînement sans adaptateur ou des fine‑tunes plus longs.

Quels paramètres d'inférence Z‑Image dois-je utiliser après l'entraînement ?

Z‑Image Turbo utilise typiquement un CFG bas/nul et ~8 étapes. De‑Turbo se comporte davantage comme un modèle normal (20–30 étapes, CFG bas). Faites toujours correspondre vos paramètres d'échantillonnage à la base que vous utilisez réellement.

9. Utilisez votre LoRA Z‑Image

Run LoRA — ouvrez la page Run LoRA Z‑Image Turbo. Sur cette page d’inférence du modèle de base, vous pouvez sélectionner un asset LoRA entraîné sur RunComfy ou importer un fichier LoRA entraîné avec AI Toolkit, puis lancer l’inférence via le playground ou l’API. RunComfy utilise le même modèle de base et la définition complète du pipeline AI Toolkit depuis votre config d’entraînement, donc ce que vous avez vu pendant le training est exactement ce que vous obtenez en inférence — cet alignement training/inference aide à garder des résultats cohérents avec vos samples d’entraînement.
Workflows ComfyUI — chargez votre LoRA dans un workflow comme Z‑Image workflow dans ComfyUI

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample