Guides d'entraînement LoRA AI Toolkit

Entraînement LoRA Z‑Image Base avec Ostris AI Toolkit

Ce guide explique comment entraîner une LoRA Z‑Image Base de haute qualité dans Ostris AI Toolkit, en ajustant le dataset, rank/LR/steps et le sampling style Base (30–50 steps + CFG) pour des résultats stables.

Entraînez des modèles de diffusion avec Ostris AI Toolkit

Faites défiler horizontalement pour voir le formulaire complet

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Use a Hugging Face repo ID (e.g. owner/model-name).
⚠️ full URLs, .safetensors files, and local files are not supported.

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Entraînement LoRA Z‑Image (Base) avec Ostris AI Toolkit

Z‑Image (Base) est le checkpoint Z‑Image complet (pas le Turbo à 8 étapes). Il est conçu pour du text‑to‑image haute qualité avec CFG + prompts négatifs et davantage d’étapes de sampling, et c’est aussi le meilleur choix si votre objectif est un LoRA propre et totalement contrôlable (personnage, style, produit, concepts riches en typographie).

À la fin de ce guide d’entraînement LoRA Z‑Image, vous saurez :

  • Lancer un entraînement LoRA Z‑Image dans AI Toolkit d’Ostris (local ou cloud).
  • Choisir des réglages par défaut qui correspondent vraiment au comportement d’inférence de Z‑Image Base (steps + CFG + résolution).
  • Éviter les pièges les plus fréquents de l’entraînement LoRA Z‑Image Base (réglages Turbo, « le LoRA ne fait rien », mismatch Base↔Turbo).
  • Exporter des checkpoints utilisables immédiatement dans votre UI d’inférence.
Cet article fait partie de la série d’entraînement LoRA avec AI Toolkit. Si vous débutez avec Ostris AI Toolkit, commencez par l’aperçu AI Toolkit LoRA training avant de suivre cet entraînement LoRA Z‑Image :
https://www.runcomfy.com/fr/trainer/ai-toolkit/getting-started

Table des matières


1. Aperçu de Z‑Image : ce qu’il sait faire (et en quoi il diffère de Turbo)

1.1 Ce que signifie « Z‑Image Base »

« Z‑Image Base » désigne le checkpoint Z‑Image non distillé. En pratique :

  • Il attend plus d’étapes de sampling (plutôt ~30–50, pas 8).
  • Il utilise efficacement CFG et les prompts négatifs.
  • C’est la meilleure cible pour le fine‑tuning LoRA (mention alternative une fois) quand vous cherchez un maximum de contrôle et de qualité en entraînement LoRA Z‑Image.

1.2 Base vs Turbo (l’implication clé pour l’entraînement)

Une erreur courante en entraînement LoRA Z‑Image est d’entraîner (ou d’évaluer) Base comme Turbo.

  • Les réglages Turbo (8 steps, peu/pas de CFG) rendent les sorties Base sous‑cuites et peuvent vous faire croire que votre LoRA « ne marche pas ».
  • Les réglages Base (30–50 steps + CFG normal) sont la bonne façon de juger les checkpoints.

Règle simple :

Si vous avez entraîné un LoRA Base, évaluez‑le sur Base avec un sampling style Base.


2. Options d’environnement : AI Toolkit local vs AI Toolkit cloud sur RunComfy

Vous pouvez réaliser cet entraînement LoRA Z‑Image de deux façons :

  • AI Toolkit local (votre propre GPU)

    Installez AI Toolkit depuis le repo GitHub, puis lancez la Web UI. L’entraînement LoRA Z‑Image en local est idéal si vous avez un GPU NVIDIA, que vous êtes à l’aise avec CUDA/drivers, et que vous voulez un setup persistant pour itérer vos LoRAs.

    https://github.com/ostris/ai-toolkit

  • AI Toolkit cloud sur RunComfy (H100 / H200)

    AI Toolkit tourne dans le navigateur sur de gros GPUs :

    • Pas d’installation (ouvrez simplement l’UI)
    • Grande VRAM pour des buckets haute résolution (1280 / 1536)
    • Workspace persistant pour datasets, configs et runs passés

Le workflow d’entraînement LoRA Z‑Image est identique dans les deux environnements ; seule la localisation du GPU change.


3. Matériel & VRAM : exigences pour l’entraînement LoRA Z‑Image Base

Z‑Image peut tourner sur des GPUs assez modestes pour l’inférence, mais l’entraînement LoRA Z‑Image dépend fortement de :

  • Le bucket de résolution (768 vs 1024 vs 1536)
  • La quantification (float8)
  • Le rank LoRA
  • Les réglages de sampling pendant l’entraînement (résolution de preview + steps de preview)

Une manière pratique de raisonner pour l’entraînement LoRA Z‑Image :

  • 12–16GB VRAM : faisable en 512/768 avec des réglages prudents
  • 24GB VRAM : confortable pour entraîner en 1024
  • 48GB+ VRAM : le plus simple pour les buckets 1280/1536 et une itération plus rapide
Si votre objectif est très typographie/produit, prévoyez une résolution plus élevée et acceptez que la VRAM grimpe vite.

4. Construire un dataset pour l’entraînement LoRA Z‑Image Base

Z‑Image Base n’a rien de « spécial » sur le format de dataset — mais il est sensible à la façon dont vous évaluez la qualité. Votre dataset pour entraînement LoRA Z‑Image doit donc être conçu pour coller au comportement que vous voulez en inférence (CFG + plus de steps).

4.1 Choisir votre objectif (et la forme du dataset)

  • Personnage / ressemblance : 15–50 images

    Mélangez gros plans + plans moyens + variété d’éclairage.

  • Style : 30–200 images

    Maximisez la variété de sujets pour que le modèle apprenne des « indices de style », pas une scène.

  • Produit / concept : 20–80 images

    Cadrage cohérent et légendes claires pour les caractéristiques clés (matériaux, texte d’étiquette, forme).

4.2 Légendes + trigger (restez simple)

  • Utilisez un trigger si vous voulez un interrupteur net « on/off » (recommandé pour personnage/produit en entraînement LoRA Z‑Image).
  • Gardez les légendes courtes et cohérentes. Les légendes longues augmentent les associations accidentelles (coiffure/arrière‑plan devient « partie du trigger »).

Templates rapides

  • Personnage :

    [trigger]

    ou photo of [trigger], portrait, natural lighting

  • Style :

    in a [style] illustration style, soft shading, muted palette

  • Produit :

    product photo of [trigger], studio lighting, clean background


5. Pas à pas : entraînement LoRA Z‑Image dans AI Toolkit

Cette section est écrite pour correspondre aux panneaux UI d’AI Toolkit que vous voyez lorsque vous créez un nouveau job d’entraînement LoRA Z‑Image.

5.1 Panneau JOB (Training Name, GPU ID, Trigger Word)

  • Training Name : un nom de run descriptif (ex. zimage_base_character_v1)
  • GPU ID : sélectionnez votre GPU (local) ou laissez le défaut (cloud)
  • Trigger Word (optionnel mais recommandé pour personnage/produit en entraînement LoRA Z‑Image) :

    Exemple : zimgAlice

5.2 Panneau MODEL (Model Architecture, Name or Path, Options)

  • Model Architecture : choisissez Z‑Image
  • Name or Path : définissez le repo du modèle de base, typiquement :

    Tongyi-MAI/Z-Image

  • Options
    • Low VRAM : ON si vous avez ≤ 24GB
    • Layer Offloading : OFF par défaut ; ON seulement si vous êtes toujours OOM après avoir baissé résolution/rank

5.3 Panneau QUANTIZATION (Transformer, Text Encoder)

  • Transformer : float8 (default) est un excellent default pour faire passer des buckets plus grands.
  • Text Encoder : float8 (default) si vous avez besoin de marge VRAM.

Si vous avez beaucoup de VRAM, vous pouvez réduire la quantification — mais float8 reste généralement une baseline sûre pour l’entraînement LoRA Z‑Image.

5.4 Panneau TARGET (Target Type, Linear Rank)

  • Target Type : LoRA
  • Linear Rank (defaults pratiques pour entraînement LoRA Z‑Image)
    • 16 : LoRAs de style, runs low‑VRAM
    • 32 : LoRAs personnage/produit, meilleure fidélité
    • 48+ : seulement si vous avez beaucoup de VRAM et que vous savez que vous sous‑apprenez

5.5 Panneau SAVE (Data Type, Save Every, Max Step Saves to Keep)

  • Data Type : BF16
  • Save Every : 250 (assez de checkpoints pour choisir le meilleur)
  • Max Step Saves to Keep : 4 (évite de gonfler le disque)

5.6 Panneau TRAINING (Batch Size, Steps, Optimizer, LR, Timesteps)

Baseline stable pour entraînement LoRA Z‑Image

  • Batch Size : 1
  • Gradient Accumulation : 1 (augmentez si vous voulez un batch effectif plus grand sans VRAM)
  • Steps : voir ci‑dessous (plages selon objectif)
  • Optimizer : AdamW8Bit
  • Learning Rate : 0.0001 (descendez à 0.00005 si instable)
  • Weight Decay : 0.0001
  • Timestep Type : Weighted
  • Timestep Bias : Balanced
  • Loss Type : Mean Squared Error
  • EMA : OFF pour la plupart des runs LoRA

Steps : une guideline adaptée à Z‑Image Base

Z‑Image Base tolère souvent un entraînement plus long que des modèles distillés type Turbo, mais vous voulez quand même arrêter avant que la fidélité au prompt ne s’effondre.

  • Personnage / ressemblance : 3000–7000 steps (le sweet spot dépend de la taille du dataset)
  • Style : 2000–6000 steps
  • Produit / concept : 2500–6500 steps

Pour un smoke test rapide de votre entraînement LoRA Z‑Image : lancez 1000–1500 steps, vérifiez les samples, puis faites un run complet.

5.7 Optimisations Text Encoder + Régularisation (à droite)

  • Unload TE : gardez OFF sauf si vous voulez un comportement trigger‑only sans légendes
  • Cache Text Embeddings : activez seulement si vos légendes sont statiques et sans caption dropout

Differential Output Preservation (DOP)

Si votre build UI l’inclut :

  • Activez Differential Output Preservation quand vous voulez que le LoRA « ne s’active que sur demande »
  • Si DOP est ON, ne cachez pas les text embeddings (conflit conceptuel)

5.8 Panneau ADVANCED

  • Do Differential Guidance : laissez OFF sauf si vous l’utilisez déjà et savez ce que vous réglez.

5.9 Panneau DATASETS (Target Dataset, Caption Dropout, Cache Latents, Resolutions)

Utilisez les réglages dataset comme vous les voyez pour l’entraînement LoRA Z‑Image :

  • Target Dataset : sélectionnez votre dataset
  • Default Caption : template court optionnel (ou vide si vous utilisez des .txt par image)
  • Caption Dropout Rate : 0.05 (mettez 0 si vous cachez les text embeddings)
  • Cache Latents : ON pour la vitesse
  • Is Regularization : OFF pour votre dataset principal
  • Flip X / Flip Y : OFF par défaut (surtout pour logos/texte)
  • Resolutions (le levier le plus important en entraînement LoRA Z‑Image Base)
    • Low VRAM : 512 + 768
    • 24GB : 768 + 1024 (ou 1024 seul si le dataset est cohérent)
    • High VRAM : ajoutez 1280 / 1536 pour la meilleure fidélité produit/texte

5.10 Panneau SAMPLE (c’est là que Base vs Turbo compte le plus)

C’est l’endroit #1 où les gens se trompent en configurant Z‑Image Base en entraînement LoRA Z‑Image.

Defaults de sampling recommandés pour Base

  • Sample Every : 250
  • Sampler : FlowMatch (pour coller à la famille du scheduler)
  • Guidance Scale : 4 (plage typique Base ~3–5 ; ajustez selon vos goûts)
  • Sample Steps : 30–50 (commencez à 30)
  • Width / Height : faites correspondre votre bucket principal (1024×1024 est une bonne baseline)
  • Ajoutez une petite liste de prompts qui couvre :
    • le trigger (si vous en utilisez un)
    • différentes compositions
    • au moins un prompt « difficile » qui stresse identité/style/géométrie produit

Prompt négatif optionnel (Base le supporte très bien)

Utilisez un prompt négatif court pour les previews afin de réduire les artefacts, par ex. :

low quality, blurry, deformed, bad anatomy, watermark, text artifacts

5.11 Lancer l’entraînement et surveiller

Démarrez le job et surveillez pendant votre entraînement LoRA Z‑Image :

  • Samples à chaque intervalle de checkpoint (250 steps)
  • Fidélité au prompt (les prompts sont‑ils toujours respectés ?)
  • Signaux de surapprentissage (même visage/texture partout, arrière‑plans qui s’effondrent)

Choisissez le checkpoint où le LoRA est fort sans devenir un filtre always‑on.


6. Configurations recommandées pour l’entraînement LoRA Z‑Image selon la VRAM

Tier 1 — 12–16GB (VRAM serrée)

  • Low VRAM : ON
  • Quantization : float8 pour Transformer + Text Encoder
  • Linear Rank : 16
  • Resolutions : 512 + 768
  • Sample Steps : 30 (gardez le preview à 768 si nécessaire)
  • Steps : 2000–5000 selon la taille du dataset

Tier 2 — 24GB (le tier local le plus pratique)

  • Low VRAM : ON (vous pouvez essayer OFF une fois stable)
  • Quantization : float8
  • Linear Rank : 32 (personnage/produit), 16–32 (style)
  • Resolutions : 768 + 1024 (ou 1024 seul si cohérent)
  • Sample Steps : 30–40
  • Steps : 3000–7000 selon l’objectif

Tier 3 — 48GB+ (ou cloud H100/H200)

  • Low VRAM : OFF (optionnel)
  • Quantization : optionnelle (float8 reste OK)
  • Linear Rank : 32–48
  • Resolutions : 1024 + 1280 + 1536 (si votre dataset le supporte)
  • Sample Steps : 40–50 pour la meilleure qualité de preview
  • Steps : mêmes plages selon objectif ; vous itérez juste plus vite

7. Problèmes fréquents de l’entraînement Z‑Image Base et comment les corriger

Ce sont des problèmes spécifiques à Z‑Image Base (pas des erreurs génériques d’AI Toolkit).

« Base a l’air sous‑cuite / peu détaillée »

Cause probable : trop peu de steps et/ou résolution trop basse.

Fix

  • Montez les sample steps à 40–50
  • Essayez un bucket plus haut (1280/1536) si la VRAM le permet
  • Si votre workflow d’inférence a un paramètre « shift », certains utilisateurs rapportent une meilleure cohérence avec un shift moyen (ex. ~4–6). N’utilisez ça qu’en réglage fin après avoir validé steps/CFG.

« Mon LoRA Base marche sur Base mais pas sur Turbo »

C’est attendu dans beaucoup de cas :

  • Turbo est distillé et se comporte différemment (surtout sur CFG/négatifs et « à quel point les LoRAs mordent »).

Fix

  • Si vous devez déployer sur Turbo, envisagez un workflow orienté Turbo au lieu de supposer que le transfert Base↔Turbo sera 1:1.
  • Pour de meilleurs résultats, entraînez et déployez sur la même famille (Base→Base).

« Texte/logos incohérents »

Z‑Image Base peut faire une excellente typographie, mais il est sensible à la résolution et au sampling en entraînement LoRA Z‑Image.

Fix

  • Entraînez en 1024+ (et envisagez 1280/1536 si possible)
  • Évaluez avec 40–50 steps
  • Évitez Flip X si le texte compte
  • Légendez systématiquement la caractéristique texte clé (ne comptez pas sur le trigger pour l’induire)

8. Utiliser votre LoRA Z‑Image Base après l’entraînement LoRA Z‑Image

Run LoRA — ouvrez la page Z‑Image Run LoRA. Sur cette page d’inférence du modèle de base, vous pouvez sélectionner un asset LoRA entraîné sur RunComfy ou importer un fichier LoRA entraîné avec AI Toolkit, puis lancer l’inférence via le playground ou l’API. RunComfy utilise le même modèle de base et la définition complète du pipeline AI Toolkit issue de votre config d’entraînement, donc ce que vous avez vu pendant l’entraînement est ce que vous obtenez en inférence — cet alignement training/inference aide à garder des résultats cohérents avec vos samples d’entraînement. Vous pouvez aussi déployer votre LoRA comme endpoint dédié via la page Deployments


Plus de guides d’entraînement LoRA avec AI Toolkit

Prêt à commencer l'entraînement ?