Entraînement LoRA Qwen-Image-Edit-2509 avec Ostris AI Toolkit

Qwen‑Image‑Edit‑2509 est un modèle d'édition multi‑images de 20B qui peut traiter jusqu'à trois images simultanément (cible, contrôle et design) pour effectuer des éditions précises et conscientes de la géométrie. Ce guide vous montre comment réaliser l'Entraînement LoRA Qwen-Edit-2509. À la fin, vous serez capable de :

Réaliser un Entraînement LoRA Qwen-Edit-2509 pour des tâches d'édition ciblées fiables (par exemple, mettre n'importe quel design sur un t-shirt) avec AI Toolkit by Ostris.
Exécuter tout le workflow d'Entraînement LoRA Qwen Edit 2509 soit localement (même avec <10GB VRAM en utilisant le layer offloading), soit dans le navigateur avec le Cloud AI Toolkit sur RunComfy sur H100 / H200 (80GB / 141GB VRAM).
Comprendre pourquoi les paramètres clés comptent pour ce modèle : les options Match Target Res et Low VRAM, la quantification Transformer/Text Encoder, le Layer Offloading, Cache Text Embeddings, Differential Output Preservation, Differential Guidance, plus les hyperparamètres de base comme Batch Size, Steps et LoRA Rank.
Ajuster avec confiance les configurations pour vos propres LoRAs d'édition (relighting, essayage de vêtements, peau, remplacement d'objets…).

Si vous cherchez le checkpoint plus récent et un comportement d'édition plus orienté "cohérence d'abord", consultez le Tuto d'entraînement LoRA Qwen-Edit-2509 version 2511.

Cet article fait partie de la série d'entraînement LoRA AI Toolkit. Si vous êtes nouveau sur Ostris AI Toolkit, commencez par la vue d'ensemble de l'entraînement LoRA AI Toolkit avant de plonger dans ce guide.

Table des matières

1. Vue d'ensemble de Qwen‑Image‑Edit‑2509 : ce que ce modèle d'édition peut faire
2. Options d'environnement : AI Toolkit local vs Cloud AI Toolkit sur RunComfy
3. Exigences matérielles et VRAM pour l'Entraînement LoRA Qwen-Edit-2509
4. Construire un dataset pour l'Entraînement LoRA Qwen-Edit-2509
5. Étape par étape : Fine-tuning LoRA Qwen Edit 2509 dans AI Toolkit
6. Configurations recommandées pour l'Entraînement LoRA Qwen-Edit-2509 par niveau de VRAM
7. Problèmes courants d'Entraînement LoRA Qwen-Edit-2509 et comment les résoudre
8. Utiliser votre LoRA Qwen Edit 2509 après l'entraînement

1. Vue d'ensemble de Qwen‑Image‑Edit‑2509 : ce que ce modèle d'édition peut faire

Qwen‑Image‑Edit‑2509 (souvent abrégé en Qwen Edit 2509 ou Qwen Image Edit Plus) est l'itération de septembre 2025 du modèle Qwen‑Image‑Edit. Il est construit sur la base 20B Qwen‑Image, avec les poids officiels sur la page du modèle Qwen‑Image‑Edit‑2509 sur Hugging Face.

Comparé à la première version de Qwen‑Image‑Edit, 2509 ajoute :

Édition multi-images – le modèle peut prendre 1–3 images d'entrée à la fois (par exemple, personne + vêtement + pose, ou photo source + référence d'éclairage).
Comportement de concaténation d'images – dans les pipelines officiels, chaque image d'entrée est redimensionnée à environ 1 mégapixel puis traitée ensemble. Le modèle voit effectivement un budget de pixels fixe même quand vous fournissez plusieurs contrôles.
Meilleure édition de texte et de détails – propulsé par Qwen2.5-VL et un VAE dédié, il gère bien mieux les petits textes, logos et détails fins.

Cas d'utilisation typiques de LoRA où les gens utilisent déjà l'Entraînement LoRA Qwen Edit 2509 :

Essayage de vêtements / changement de tenue – Qwen‑Image‑Edit‑2509‑Clothing‑Tryon‑LoRA.
Relighting / raffinement d'éclairage – Qwen‑Image‑Edit‑2509‑Relight‑LoRA.
Fusion de style et détails multi-effets – Qwen‑Image‑Edit‑2509‑Multi‑Effect‑Fusion‑LoRA.
Restauration légère, plus conversion de photos fond blanc en scènes complètes – Qwen‑Image‑Edit‑2509‑White‑Film‑To‑Rendering‑LoRA.
Stylisation photo vers anime – Qwen‑Image‑Edit‑2509‑Anime‑Stylization‑LoRA.
Édition de pose romantique / baiser – Qwen‑Image‑Edit‑2509‑Passionate‑Kiss‑LoRA.
Style caricature / portrait exagéré – Qwen‑Image‑Edit‑2509‑Caricature‑LoRA.

Qwen‑Image‑Edit et Qwen‑Image partagent essentiellement la même base. Les tests de la communauté montrent que les LoRAs entraînés sur Qwen‑Image sont compatibles avec Qwen‑Image‑Edit / 2509 et vice versa, car les adaptateurs se connectent au même backbone.

2. Options d'environnement : AI Toolkit local vs Cloud AI Toolkit sur RunComfy

2.1 AI Toolkit local (votre propre GPU)

Installez AI Toolkit depuis le dépôt GitHub AI Toolkit, puis lancez la Web UI. L'entraînement local est un bon choix si vous avez déjà une carte NVIDIA 24GB+, êtes à l'aise avec la gestion CUDA / pilotes / espace disque, et ne vous souciez pas de laisser l'entraînement tourner toute la nuit.

2.2 Cloud AI Toolkit sur RunComfy (H100 / H200)

Avec le Cloud AI Toolkit sur RunComfy, AI Toolkit s'exécute entièrement dans le cloud :

Vous n'avez rien à installer – ouvrez simplement un navigateur, connectez-vous, et vous êtes dans l'UI AI Toolkit.
Vous avez accès à de gros GPUs comme H100 (80GB) et H200 (141GB) pour les travaux lourds d'Entraînement LoRA Qwen-Edit-2509.
Vous obtenez un workspace persistant – datasets, configurations et travaux passés restent attachés à votre compte pour que vous puissiez revenir et itérer.

👉 Ouvrez-le ici : Cloud AI Toolkit sur RunComfy

Le reste de ce tutoriel fonctionne de manière identique dans les deux environnements ; seul l'endroit où le GPU se trouve est différent.

3. Exigences matérielles et VRAM pour l'Entraînement LoRA Qwen-Edit-2509

Qwen‑Image‑Edit‑2509 est un modèle lourd :

Le modèle de base fait environ 20B paramètres.
Le pipeline d'édition peut faire passer jusqu'à 3 × ~1MP images à travers le transformer à la fois.

Dans la configuration exemple 32GB standard pour 2509 (train_lora_qwen_image_edit_2509_32gb.yaml), les utilisateurs rapportent environ :

27–28.5GB VRAM pour l'entraînement à 1024×1024.
25–26GB VRAM pour l'entraînement à 768×768 — toujours pas de chance pour 24GB.

C'est pourquoi l'exemple officiel est explicitement une configuration 32GB. Mais avec la quantification ARA 3-bit + mode Low VRAM + Layer Offloading (RAMTorch), Ostris montre qu'on peut faire l'Entraînement LoRA Qwen-Edit-2509 avec seulement ~8–9GB GPU VRAM, au prix d'une RAM CPU élevée (60GB+) et d'un entraînement plus lent.

Niveau	Où	Matériel exemple	Ce que ça donne
VRAM faible (~10–12GB)	Local	RTX 3060 12GB, 4070, etc.	Vous devez activer la quantification dans le panneau QUANTIZATION (ARA 3-bit pour le modèle de base) et utiliser un Layer Offloading agressif. Attendez-vous à ~8–9GB GPU VRAM et 60GB+ CPU RAM, avec ~10–12s/étape sur un CPU de milieu de gamme. Cette configuration (2 flux de contrôle) entraîne confortablement jusqu'à 1024×1024 ; considérez 1024² comme votre résolution maximale pratique à ce niveau.
24GB serré	Local	RTX 3090 / 4090 / 5090	24GB ne peut pas faire tourner la config standard 32GB Qwen‑Edit LoRA à 1024² avec 2 contrôles sans offloading (pic autour de ~24.7GB VRAM), donc vous avez encore besoin de trucs Low VRAM comme ARA 3-bit, gradient checkpointing et/ou offload partiel. Considérez 768×768 comme la résolution cible maximale pratique avec 2 contrôles sauf si vous ajoutez de l'offloading.
32GB confortable	Local	RTX 4090 32GB, cartes plus récentes	C'est le niveau pour lequel le `train_lora_qwen_image_edit_32gb.yaml` officiel est calibré : quantification ARA 3-bit, buckets de résolution 1024², rang LoRA moyen, pas d'offloading. Avec 32GB vous pouvez considérer 1024×1024 (avec 2–3 flux de contrôle) comme une résolution de travail normale.
VRAM élevé (80–141GB)	Cloud AI Toolkit sur RunComfy	H100 80GB / H200 141GB	Vous pouvez garder les configurations simples (quantification activée, offloading désactivé), utiliser des batches plus grands (4–8), et entraîner à 1024×1024 par défaut sans vous soucier de l'OOM. À ce niveau vous pouvez aussi expérimenter avec des résolutions légèrement plus hautes (par exemple 1280–1536px), mais 1024² reste la taille cible la plus sûre et la mieux testée.

Sur une 4090 avec offloading complet, l'exemple d'Ostris atteint ~9GB VRAM et ~64GB CPU RAM, exécutant ~5k étapes en environ une journée. Sur une 5090 sans offload, les itérations sont environ 2–3× plus rapides.

4. Construire un dataset pour l'Entraînement LoRA Qwen-Edit-2509

Nous allons reproduire l'exemple du "design de t-shirt" du tutoriel d'Ostris et le généraliser pour que vous puissiez l'adapter à d'autres tâches.

4.1 Trois flux logiques d'images

Pour un LoRA de design de vêtements, le modèle doit apprendre : Étant donné une personne portant un t-shirt vierge et une image de design, mettre ce design sur son t-shirt tout en préservant la pose, l'éclairage et les plis.

Images cibles (ce que vous voulez comme résultat) – une personne portant un t-shirt avec le design déjà dessus. Ce sont les sorties que vous voulez que le modèle reproduise.
Images de contrôle (t-shirts vierges, mêmes personnes) – les mêmes sujets et poses que les cibles, mais sans le design (ou avec un t-shirt uni). Celles-ci contrôlent la géométrie, les plis, l'éclairage et les occlusions (bras, cheveux, colliers, etc.).
Images de design – le design lui-même sur un fond neutre (gris, noir ou blanc). Vous pouvez inclure quelques variantes (différentes couleurs de fond) pour augmenter la robustesse.

Dans l'exemple d'Ostris, environ 26 triplets (personne + t-shirt vierge + design) ont suffi pour obtenir des performances très fortes, y compris des QR codes et logos complexes se mappant correctement sur le tissu. Pour les LoRAs de production, commencer avec 20–60 triplets bien curés (cible + contrôle + design) est une bonne base.

4.2 Résolution et rapport d'aspect

Qwen‑Image‑Edit‑2509 :

Redimensionne chaque entrée en interne à environ 1MP (par exemple, 1024×1024 ou équivalent).
Fonctionne mieux quand vos images d'entraînement sont carrées ou presque carrées (nous utiliserons 1024×1024 ici), ou un rapport d'aspect cohérent (par exemple, toutes en 3:4).

Dans ce tutoriel nous supposons des images carrées pour que le bucketing soit simple :

Cibles, contrôles et designs tous autour de 1024×1024. AI Toolkit fera des buckets en 512 / 768 / 1024 selon ce que vous activez dans le panneau DATASETS.

4.3 Légendes

Pour ce LoRA de design de vêtements, nous n'utilisons pas de légendes par image, seulement une seule légende par défaut au niveau du dataset : put this design on their shirt

Cela fonctionne parce que :

La sémantique est simple et identique pour tous les échantillons.
Les images de contrôle et de design portent la plupart des informations intéressantes.

Pour des LoRAs d'édition plus complexes (comme "éclairer comme une lumière de bord studio" vs "heure dorée"), vous devriez utiliser des légendes par image décrivant l'édition souhaitée.

5. Étape par étape : Fine-tuning LoRA Qwen Edit 2509 dans AI Toolkit

5.1 Étape 0 – Choisissez où vous exécuterez AI Toolkit

Vous pouvez exécuter AI Toolkit de deux façons pour ce tutoriel :

AI Toolkit local (votre propre GPU) – installez AI Toolkit, lancez la Web UI, et ouvrez-la localement. Assurez-vous d'avoir un GPU NVIDIA avec au moins 10–12GB VRAM (24GB+ préféré) et assez de RAM CPU (idéalement 64GB+ si vous prévoyez d'utiliser le Layer Offloading).
Cloud AI Toolkit sur RunComfy – connectez-vous au Cloud AI Toolkit sur RunComfy. Vous atterrissez directement dans l'UI AI Toolkit fonctionnant dans le cloud. Quand vous démarrez un job depuis la Training Queue vous choisissez une machine H100 (80GB) ou H200 (141GB).

5.2 Étape 1 – Créer des datasets dans AI Toolkit

Dans l'UI AI Toolkit, ouvrez l'onglet Datasets.

Créez trois datasets (les noms sont juste des exemples) :

shirt_target
shirt_control
shirt_design

Uploadez vos images pour que chaque dataset ait un rôle clair :

shirt_target – 20–60 photos de personnes portant des t-shirts avec des designs.
shirt_control – les mêmes personnes et poses sans designs (ou avec un t-shirt vierge).
shirt_design – images de design carrées sur des fonds simples (gris, noir ou blanc).

Si vous n'avez pas préparé de légendes comme fichiers .txt, laissez les légendes par image vides pour l'instant. Nous ajouterons une seule Légende par Défaut au niveau du job plus tard.

Note importante sur l'appariement

Les images cibles et de contrôle doivent être appariées dans l'ordre (même personne, même pose) autant que possible. Pour garder l'appariement stable, utilisez des noms de fichiers correspondants entre les dossiers pour que l'ordre alphabétique s'aligne, par exemple : shirt_target/img_0001.jpg, shirt_control/img_0001.jpg, shirt_design/img_0001.png. Chaque image cible doit avoir une image de contrôle et de design correspondante avec le même index.

5.3 Étape 2 – Créer un nouveau Job

Ouvrez l'onglet New Job. Configurons chaque panneau dans l'ordre où ils apparaissent.

5.3.1 Panneau JOB – nom du job, GPU, mot déclencheur

Training Name – définissez n'importe quel nom descriptif, par exemple qwen_edit2509_shirt_lora_v1. Cela devient le nom du job et le nom du dossier où les checkpoints sont sauvegardés.
GPU ID – sur une installation locale, choisissez le GPU sur votre machine. Dans le Cloud AI Toolkit sur RunComfy, laissez GPU ID à la valeur par défaut. Le type de machine réel (H100 / H200) est choisi plus tard quand vous démarrez le job depuis la Training Queue.
Trigger Word – entrez la phrase que vous voulez taper au moment de l'inférence, par exemple : put this design on their shirt. Dans les légendes de votre dataset vous pouvez utiliser [trigger] comme placeholder. AI Toolkit remplace [trigger] par le Trigger Word pendant l'entraînement. Une phrase déclencheur claire vous donne un interrupteur marche/arrêt propre pour le LoRA : les prompts qui ne le contiennent pas devraient rester proches du comportement de base de Qwen‑Image‑Edit‑2509, surtout si vous activez aussi Differential Output Preservation (DOP) comme recommandé plus tard.

5.3.2 Panneau MODEL – modèle de base et options VRAM

Model Architecture – sélectionnez Qwen‑Image‑Edit‑2509.
Name or Path – l'identifiant de modèle Hugging Face (repo id) pour le checkpoint de base, par exemple : Qwen/Qwen-Image-Edit-2509.
Dans la plupart des builds AI Toolkit, sélectionner Qwen‑Image‑Edit‑2509 remplira automatiquement cette valeur ; laissez-la telle quelle sauf si vous avez une raison de la changer.

Dans Options :

Low VRAM – mettez ON pour les GPUs avec ≤ 24GB VRAM. Cela active du checkpointing supplémentaire et des astuces d'économie de mémoire à l'intérieur du backbone pour que le grand modèle Qwen rentre plus facilement.
Match Target Res – mettez ON pour les jobs d'Entraînement LoRA Qwen-Edit-2509. Cela redimensionne les images de contrôle pour correspondre au même bucket de résolution que l'image cible (par exemple, 768×768 ou 1024×1024). Cela garde la géométrie d'édition alignée et évite de gaspiller du VRAM sur des contrôles surdimensionnés.
Layer Offloading – traitez ceci comme une soupape de sécurité. Mettez-le ON sur les très petits GPUs si vous obtenez encore CUDA OOM après avoir activé Low VRAM et quantification ; cela déchargera certaines couches vers la RAM CPU au prix d'étapes plus lentes. Laissez-le OFF sur les GPUs 24GB+ ou les GPUs cloud sur RunComfy pour la meilleure vitesse.

5.3.3 Panneau QUANTIZATION – adapter le grand transformer

Qwen‑Image‑Edit‑2509 est assez grand pour que la quantification soit presque toujours une bonne idée.

Transformer – réglez sur float8 (default). Dans AI Toolkit cela correspond typiquement à une base ARA 3-bit avec un adaptateur de "récupération" 8-bit, donc vous obtenez une utilisation VRAM proche d'un modèle 3-bit avec une qualité proche de la pleine précision.
Text Encoder – réglez aussi sur float8 (default). Le text encoder est grand, et le faire tourner en fp8 économise beaucoup de VRAM avec une perte de qualité minimale.

Vous n'avez pas besoin de configurer manuellement les fichiers ARA dans l'UI ; sélectionner les options float8 suffit.

5.3.4 Panneau TARGET – type de LoRA et rang

Ce panneau dit à AI Toolkit que vous entraînez un LoRA et quelle capacité il devrait avoir.

Target Type – choisissez LoRA.
Linear Rank – pour l'Entraînement LoRA Qwen-Edit-2509, 32 est une bonne valeur par défaut. C'est assez expressif pour des comportements comme "mettre ce design sur leur t-shirt" tout en restant léger à entraîner et charger. Sur les très petits GPUs vous pouvez descendre à 16 ; pour des comportements plus complexes vous pouvez expérimenter avec 48–64 (surveillez de près l'overfitting avec des rangs plus élevés).

5.3.5 Panneau SAVE – type de checkpoint et fréquence

Data Type – choisissez BF16. Qwen‑Image‑Edit‑2509 tourne typiquement en bfloat16, et sauvegarder les poids LoRA en BF16 les garde compatibles et raisonnablement petits.
Save Every – 250 étapes est une valeur pratique par défaut ; vous obtiendrez un checkpoint toutes les 250 étapes d'entraînement.
Max Step Saves to Keep – 4 garde les quatre derniers checkpoints et supprime automatiquement les plus anciens pour que votre disque ne se remplisse pas.

5.3.6 Panneau TRAINING – hyperparamètres de base

Le panneau TRAINING contrôle à quel point nous fine-tunons Qwen‑Image‑Edit‑2509 agressivement.

Valeurs de départ recommandées pour un LoRA à dataset unique (10–40 images à 768–1024px) :

Batch Size – réglez sur 1 par défaut. Utilisez 2 seulement sur les très gros GPUs (niveau A100 / H100 / H200).
Gradient Accumulation – commencez à 1. Si vous voulez une taille de batch effective plus grande sans plus de VRAM, augmentez à 2–4. Taille de batch effective = Batch Size × Gradient Accumulation.
Steps – utilisez 2500–3000. Pour l'exemple du design de t-shirt avec ~20–30 triplets, 3000 fonctionne bien. Si votre dataset est minuscule (<15 images), considérez 1500–2200 pour éviter l'overfitting.
Optimizer – choisissez AdamW8Bit. Adam 8-bit réduit drastiquement la mémoire tout en se comportant comme AdamW standard.
Learning Rate – réglez 0.0001. Si l'entraînement semble bruité ou instable, réduisez à 0.00005.
Weight Decay – réglez 0.0001 comme régularisateur léger pour que le LoRA ne dérive pas trop loin sur les petits datasets.
Timestep Type – réglez sur Weighted. Cela biaise l'entraînement vers les niveaux de bruit qui comptent le plus pour Qwen‑Image‑Edit.
Timestep Bias – réglez sur Balanced, une valeur sûre par défaut qui ne sur-accentue pas les timesteps très précoces ou très tardifs.
Loss Type – laissez sur Mean Squared Error, le choix standard pour l'entraînement de diffusion / rectified-flow.
EMA (Exponential Moving Average → Use EMA) – laissez OFF pour les LoRAs. EMA est plus utile lors de l'entraînement de modèles complets.

5.3.7 Section Régularisation et Text Encoder (côté droit du panneau TRAINING)

Sur le côté droit du panneau TRAINING vous verrez deux zones importantes : Text Encoder Optimizations et Regularization.

Text Encoder Optimizations

Cache Text Embeddings – pour Qwen‑Image‑Edit + Differential Output Preservation (DOP), ceci doit rester OFF. DOP réécrit le texte du prompt en interne à chaque batch, donc les embeddings cachés ne correspondraient plus aux vrais prompts. Quand DOP est OFF et vos légendes sont statiques, vous pouvez mettre Cache Text Embeddings ON pour encoder toutes les légendes une fois, stocker les embeddings sur disque, puis libérer le text encoder de la VRAM.
Unload Text Encoder (Unload TE) – c'est un mode spécial trigger-seulement. Quand vous le mettez ON, AI Toolkit cache les embeddings pour votre Trigger Word et prompts Sample une fois, décharge le text encoder de la VRAM, et ignore toutes les légendes du dataset. Pour les LoRAs Qwen‑Image‑Edit‑2509 qui dépendent de légendes normales (et surtout quand Differential Output Preservation est ON), vous devriez laisser Unload TE OFF.

Parce que le caption dropout est implémenté en abandonnant aléatoirement les légendes pendant l'entraînement, il dépend d'un encodage de texte frais à chaque étape. Si vous activez Cache Text Embeddings, vous devriez mettre Caption Dropout Rate = 0 dans le panneau DATASETS (voir ci-dessous) pour qu'il n'y ait pas de décalage entre les embeddings cachés et le comportement de dropout prévu.

Regularization → Differential Output Preservation

Differential Output Preservation – mettez ceci ON pour la plupart des projets réels. C'est crucial pour Qwen‑Image‑Edit : cela laisse le modèle de base se comporter normalement quand la phrase déclencheur est absente et n'injecte votre comportement que quand le trigger est présent.
DOP Loss Multiplier – laissez à 1 pour commencer. Vous pouvez l'augmenter légèrement si vous voyez trop de style fuir dans les prompts sans trigger.
DOP Preservation Class – utilisez un mot de classe neutre qui décrit ce que vous éditez le plus fréquemment. Pour les éditions centrées sur les personnes, person est une bonne valeur par défaut ; pour les éditions de produits uniquement, utilisez quelque chose comme product ou object.

Comment DOP se connecte à vos légendes et Trigger Word :

Supposons qu'une légende soit "[trigger] a person walking down the street, wearing the design on their shirt"
Avec Trigger Word = put this design on their shirt
Et DOP Preservation Class = person

AI Toolkit crée en interne deux prompts :

put this design on their shirt a person walking down the street, wearing the design on their shirt – le chemin LoRA.
person a person walking down the street, wearing the design on their shirt – le chemin du modèle de base.

Le LoRA est entraîné uniquement sur la différence entre ces deux. Les générations sans la phrase déclencheur restent beaucoup plus proches du Qwen‑Image‑Edit‑2509 vanilla parce que DOP préserve explicitement ce comportement.

Blank Prompt Preservation – laissez OFF sauf si vous avez une raison très spécifique de préserver le comportement pour les prompts vides.

5.3.8 Panneau ADVANCED – Differential Guidance

Do Differential Guidance – mettez ON.
Differential Guidance Scale – commencez avec 3.

Differential Guidance est une astuce spécifique à AI Toolkit qui met à l'échelle le signal d'erreur que le LoRA voit. Une échelle plus grande rend le signal "tu te trompes ici" plus fort donc le LoRA apprend typiquement le changement désiré plus vite sans augmenter le learning rate.

Si les échantillons semblent instables ou trop "nets" tôt dans l'entraînement, baissez à 2. Si l'apprentissage semble très lent, vous pouvez expérimenter avec 4 plus tard.

5.3.9 Panneau DATASETS – connecter les images cibles, de contrôle et de design

Pour l'Entraînement LoRA Qwen-Edit-2509 vous devez fournir au moins un dataset cible et un dataset de contrôle.

Dans Dataset 1 :

Target Dataset – choisissez votre dataset de sortie / édité, c'est-à-dire les images qui représentent "après application du comportement LoRA".
Control Dataset 1 – choisissez le dataset contenant vos images d'entrée (les photos originales que vous voulez éditer). Chaque fichier doit correspondre à une image cible par le nom (par exemple, scene_001.png → scene_001.png).
Control Dataset 2 / 3 – ceux-ci sont optionnels. Pour le LoRA t-shirt, mettez Control Dataset 2 à shirt_design pour que le modèle voie le logo ou l'artwork comme un second flux de contrôle. Laissez les slots de contrôle vides sauf si vous avez des conditions supplémentaires comme des cartes de profondeur ou des keypoints.
LoRA Weight – laissez à 1 sauf si vous ajoutez plus de datasets. Quand vous ajoutez plus de datasets vous pouvez rééquilibrer leur influence ici.
Default Caption – si vos images ont déjà des légendes .txt, vous pouvez laisser vide. Sinon entrez quelque chose comme :
"[trigger] put this design on their shirt, full‑body street photo"

Rappelez-vous : [trigger] sera remplacé par le Trigger Word du panneau JOB.
Caption Dropout Rate – 0.05 est une bonne valeur de départ quand vous ne cachez pas les text embeddings ; environ un pas sur vingt ignorera la légende pour que le modèle ne sur-apprenne pas la formulation exacte. Si vous prévoyez de mettre Cache Text Embeddings ON dans le panneau TRAINING, mettez Caption Dropout Rate = 0, parce que le dropout nécessite de réencoder les légendes à chaque pas et ne fonctionne pas correctement avec les embeddings cachés.
Settings → Cache Latents – mettez ON. AI Toolkit encode chaque image cible en latents VAE une fois et les réutilise, ce qui enlève le lourd VAE du GPU après le caching et accélère significativement l'entraînement.
Settings → Is Regularization – laissez OFF pour votre dataset principal. Si vous ajoutez plus tard un second dataset purement pour les images de régularisation (par exemple des photos génériques de personnes), vous mettriez Is Regularization de ce second dataset sur ON.
Flipping (Flip X / Flip Y) – pour la plupart des LoRAs de personnes / produits laissez les deux OFF, sauf si vous êtes sûr que les retournements miroir sont sûrs pour votre sujet (Flip X refléterait tout texte sur les t-shirts).
Resolutions – activez les buckets auxquels vous voulez que Qwen‑Image‑Edit s'entraîne, par exemple 512, 768, et 1024. 768 est un sweet spot pour beaucoup de LoRAs Qwen ; ajouter 512 et 1024 rend l'entraînement robuste aux légers changements de résolution.

Vous pouvez ajouter des datasets supplémentaires avec Add Dataset (par exemple, un dataset de régularisation avec LoRA Weight < 1), mais un seul Dataset 1 avec une cible + un ou deux sets de contrôle suffit pour la plupart des cas d'utilisation "mettre ce design sur leur t-shirt".

5.3.10 Panneau SAMPLE – aperçus d'entraînement

Le panneau SAMPLE contrôle les aperçus périodiques pendant l'entraînement. Ces échantillons n'affectent pas la perte d'entraînement ; ils sont uniquement pour le monitoring.

Sample Every – mettez à 250 pour générer des aperçus toutes les 250 étapes, ce qui s'aligne bien avec votre planning de checkpoints.
Width / Height – correspondez à votre résolution d'entraînement principale, par exemple 1024 × 1024 ou 768 × 1024 selon votre dataset.
Seed – choisissez un seed stable comme 42. Vous pouvez activer Walk Seed si vous voulez que chaque batch d'aperçu utilise des seeds consécutifs et montre plus de variété.
Sampler – choisissez FlowMatch (ou le sampler Qwen par défaut dans votre build). Cela devrait correspondre au scheduler FlowMatch utilisé dans TRAINING.
Guidance Scale – mettez 4 pour les aperçus. Quand vous ferez l'inférence plus tard dans ComfyUI ou d'autres UIs, vous expérimenterez typiquement entre 3–6.
Sample Steps – environ 25 étapes est un bon compromis qualité-vs-vitesse pour les aperçus.
Advanced Sampling – vous pouvez laisser Skip First Sample, Force First Sample, et Disable Sampling tous OFF. Mettez Disable Sampling ON seulement si vous débuguez ou voulez la vitesse maximale sans aucun aperçu.
Sample Prompts – ajoutez 4–8 prompts qui représentent des cas d'utilisation réalistes pour votre LoRA.

5.4 Étape 3 – Lancer l'entraînement et monitorer

Après avoir configuré le job, allez dans l'onglet Training Queue, sélectionnez votre job, et préparez-le à s'exécuter.

Cliquez sur Start / Play et surveillez principalement deux choses :

GPU VRAM / CPU RAM – surtout sur les cartes à faible VRAM utilisant Layer Offloading, gardez un œil sur l'utilisation de RAM système.
Images d'échantillon – le design devrait rester sur le t-shirt et suivre les plis et la pose. S'il commence à déborder sur toute l'image ou si les couleurs deviennent extrêmes, envisagez d'arrêter tôt ou de réduire le nombre total d'étapes.

6. Configurations recommandées pour l'Entraînement LoRA Qwen-Edit-2509 par niveau de VRAM

Si vous voulez juste une valeur par défaut sûre pour les GPUs locaux 24GB et toutes les exécutions cloud H100/H200, utilisez les paramètres des sections 3–6 : Low VRAM = ON, quantification Transformer/Text Encoder = float8, Batch Size = 1, LoRA Rank = 32, Resolutions = 512 / 768 / 1024, Differential Output Preservation = ON, Cache Text Embeddings = OFF.

Ci-dessous sont uniquement les paramètres qui changent vraiment avec le matériel. Tout ce qui n'est pas mentionné ici (Steps, Learning Rate, Optimizer, etc.) peut rester aux recommandations précédentes.

Niveau 1 – VRAM faible (~10–12GB local)

MODEL → Low VRAM : mettez ON. Cela active le checkpointing supplémentaire et le shuffling pour que Qwen‑Image‑Edit‑2509 rentre sur une carte 10–12GB.
MODEL → Layer Offloading : mettez ON si vous obtenez encore CUDA OOM. Attendez-vous à une haute utilisation de CPU RAM (≈60GB+) et des étapes plus lentes, mais le GPU VRAM peut descendre à environ 8–9GB.
QUANTIZATION → Transformer / Text Encoder : mettez les deux sur float8. Dans cette architecture qui utilise des adaptateurs Qwen 3-bit ARA sous le capot, float8 est le minimum pratique pour une qualité stable.
TRAINING → Batch Size : verrouillez à 1. Si vous voulez un batch effectif plus grand, augmentez Gradient Accumulation plutôt que Batch Size.
DATASETS → Resolutions : activez 512 et 768 comme vos buckets principaux. Vous pouvez ajouter 1024 si vous acceptez des exécutions plus lentes et plus fragiles ; considérez 1024×1024 avec deux flux de contrôle comme la limite supérieure pratique à ce niveau.
TRAINING → Text Encoder Optimizations / Regularization : si vous n'arrivez pas à faire rentrer Differential Output Preservation même avec Low VRAM et Layer Offloading, désactivez DOP et activez Cache Text Embeddings pour que les légendes soient encodées une fois et que le text encoder soit libéré de la VRAM. Vous perdez un peu de préservation du modèle de base mais gagnez plusieurs GB de marge.

Niveau 2 – 24GB serré (classe 3090 / 4090 / 5090)

Ce que vous pouvez relâcher par rapport au Niveau 1 :

MODEL → Low VRAM : gardez ON par sécurité sur 24GB ; une fois que vous savez que votre résolution et configuration de contrôle rentre confortablement, vous pouvez expérimenter en le désactivant.
MODEL → Layer Offloading : généralement OFF. Activez-le seulement si vous obtenez encore OOM à votre résolution choisie et nombre de flux de contrôle.
QUANTIZATION → Transformer / Text Encoder : gardez les deux sur float8. Désactiver la quantification à ce niveau aide rarement et ne fait que brûler du VRAM que vous pourriez dépenser en résolution ou taille de batch.
TRAINING → Batch Size : 1 reste la valeur par défaut. Batch Size 2 est parfois possible à 768×768 avec deux contrôles si Low VRAM est ON et la quantification reste ON.
DATASETS → Resolutions : activez 512, 768, et 1024. Considérez 768 comme votre bucket "toujours sûr" et 1024 comme le bucket haut de gamme qui peut nécessiter Low VRAM et possiblement un offload partiel.
TRAINING → Text Encoder Optimizations / Regularization : vous pouvez généralement garder Differential Output Preservation ON et Cache Text Embeddings OFF, surtout si vous entraînez principalement à 768×768. Si vous avez absolument besoin de 1024×1024 sur une carte 24GB et obtenez encore OOM après d'autres ajustements, le prochain levier est de désactiver DOP et d'activer Cache Text Embeddings.

Niveau 3 – 32GB+ confortable local et cloud H100/H200

Sur les cartes locales 32GB et les GPUs cloud 80–141GB (H100 / H200), vous arrêtez de vous battre contre la VRAM et pouvez simplifier la configuration :

MODEL → Low VRAM : optionnel. Vous pouvez le désactiver sur les GPUs locaux 32GB+ et H100/H200 pour des étapes légèrement plus rapides et des traces plus simples.
MODEL → Layer Offloading : gardez OFF. Tous les composants Qwen‑Image‑Edit‑2509 peuvent rester résidents sur le GPU.
QUANTIZATION → Transformer / Text Encoder : laissez les deux sur float8 par défaut. Sur H100/H200 vous pouvez expérimenter en désactivant la quantification du Text Encoder si vous voulez, mais ce n'est pas requis pour une bonne qualité et offre peu d'avantage par rapport à utiliser cette VRAM pour la taille de batch ou la résolution.
TRAINING → Batch Size : utilisez 1–2 sur les GPUs locaux 32GB, et 2–4 sur H100/H200 à 1024×1024 avec deux flux de contrôle.
TARGET → LoRA Rank : 32 est une valeur par défaut confortable. Vous pouvez essayer 48–64 sur H100/H200 pour des comportements très complexes (par exemple, des LoRAs d'édition multi-effets) si vous surveillez l'overfitting.
DATASETS → Resolutions : entraînez principalement à 768 et 1024. Vous pouvez généralement abandonner 512 sauf si vous vous souciez spécifiquement du comportement à basse résolution.
TRAINING → Text Encoder Optimizations / Regularization : exécutez avec Differential Output Preservation ON et Cache Text Embeddings OFF par défaut. La VRAM suffit pour garder le text encoder résident, et vous obtenez la séparation la plus propre entre le comportement "avec trigger" et "sans trigger".

7. Problèmes courants d'Entraînement LoRA Qwen-Edit-2509 et comment les résoudre

7.1 Datasets mal appariés (mauvais ordre / personnes non correspondantes)

Symptôme : Les designs apparaissent, mais au mauvais endroit, sur la mauvaise personne, ou déformés.

Vérifiez que les datasets cibles et de contrôle sont alignés : shirt_target/img_0001.jpg devrait être apparié avec shirt_control/img_0001.jpg, et shirt_design/img_0001.png, et ainsi de suite. Si vous mélangez les images manuellement, gardez les noms de fichiers appariés pour que l'ordre alphabétique s'aligne toujours.

7.2 VRAM OOM même avec quantification

Si vous entraînez avec une petite résolution cible (par exemple 512×512) mais que vos datasets de contrôle utilisent encore 1024×1024 comme bucket le plus haut et Match Target Res est désactivé, chaque flux de contrôle sera encodé à 1024×1024 tandis que la cible n'est que 512×512. Avec deux ou trois de ces flux de contrôle, la taille totale des latents devient beaucoup plus grande que prévu et vous pouvez facilement obtenir CUDA OOM même avec la quantification activée.

Pour corriger cela :

Soit activez Match Target Res ON dans le panneau MODEL pour que toutes les images de contrôle soient automatiquement redimensionnées au même bucket de résolution que la cible, soit
Gardez Match Target Res OFF mais abaissez le bucket de résolution le plus haut pour vos datasets de contrôle pour correspondre à la cible (abandonnez 1024 et restez sur 512/768).

Sur H100/H200 dans le cloud vous pouvez vous permettre de garder des buckets 1024×1024 pour la cible et les contrôles et moins dépendre de ces astuces, mais la règle la plus sûre est : évitez de mélanger des cibles minuscules avec des contrôles très grands quand Match Target Res est désactivé.

7.3 L'entraînement ne converge jamais / semble aléatoire

Vérifiez ce qui suit :

Dans le panneau TRAINING le noise scheduler et les paramètres de timestep correspondent toujours à FlowMatch. Dans le YAML exporté vous devriez voir noise_scheduler: "flowmatch", et dans le panneau SAMPLE le sampler devrait aussi être réglé sur FlowMatch ; si le sampler utilise un scheduler différent, les aperçus peuvent ressembler à du bruit pur même si le LoRA s'entraîne correctement.
Le Learning Rate n'est pas trop haut. 0.0001 est une valeur par défaut sûre pour l'Entraînement LoRA Qwen-Edit-2509 ; si les aperçus continuent d'osciller ou semblent très instables après quelques centaines d'étapes, baissez-le à 0.00005 et reprenez depuis le dernier bon checkpoint.

7.4 LoRA sur-apprend (le design déborde partout)

Solutions possibles :

Réduisez le total de Steps (par exemple, de 5000 à 3000).
Envisagez un LoRA Rank légèrement plus bas (16 au lieu de 32).
Diversifiez le dataset avec différentes personnes, poses et éclairages.
Assurez-vous que Differential Output Preservation est activé et, si nécessaire, augmentez le DOP Loss Multiplier un peu pour que le comportement de base soit préservé plus fortement.

7.5 Enfer de l'environnement

Les problèmes locaux typiques incluent un décalage de version CUDA, un build PyTorch incorrect, ou des pilotes ne correspondant pas à votre GPU / OS. Dans le Cloud AI Toolkit sur RunComfy ces problèmes disparaissent : AI Toolkit et les dépendances sont préinstallés et vous démarrez directement depuis l'UI avec les configurations et datasets.

Si vous passez plus de temps à réparer CUDA qu'à entraîner, c'est généralement le moment où il est plus facile de déplacer ce job spécifique vers le cloud.

8. Utiliser votre LoRA Qwen Edit 2509 après l'entraînement

Une fois l'entraînement terminé, vous pouvez utiliser votre LoRA Qwen Edit 2509 de deux manières simples :

Model playground – ouvrez le Qwen‑Image‑Edit‑2509 LoRA playground et collez l'URL de votre LoRA entraîné pour voir rapidement comment il se comporte sur le modèle de base.
Workflows ComfyUI – lancez une instance ComfyUI et soit construisez votre propre workflow soit chargez-en un comme Qwen Edit 2509 MultipleAngles, échangez votre LoRA dans le nœud chargeur de LoRA, et ajustez le poids du LoRA et d'autres paramètres pour un contrôle plus détaillé.

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample