AI Toolkit LoRA Training Guides

Entraînement LoRA Qwen 2511 (Qwen-Image-Edit-2511) avec Ostris AI Toolkit (Guide mis à jour)

Ce tutoriel montre comment entraîner des LoRAs Qwen 2511 (Qwen-Image-Edit-2511) avec Ostris AI Toolkit pour l'édition multi-image et geometry-aware. Vous apprendrez à construire des datasets d'édition (contrôles + instruction → cible), à planifier la VRAM pour 1 à 3 flux de contrôle, à ajuster les paramètres clés et à corriger les erreurs d'entraînement les plus fréquentes.

Train Diffusion Models with Ostris AI Toolkit

Faites défiler horizontalement pour voir le formulaire complet

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Qwen‑Image‑Edit‑2511 (souvent abrégé en Qwen 2511) est le checkpoint "cohérence d'abord" de Qwen pour l'édition d'images : il est conçu pour réduire la dérive d'image, préserver l'identité lors d'éditions créatives, et rester structurellement fidèle lorsque vous n'éditez qu'une partie d'une image. Il intègre également des capacités LoRA natives dans les poids de base, une meilleure sortie design industriel/produit et un raisonnement géométrique amélioré, ce qui le rend particulièrement intéressant pour des LoRAs d'édition pratiques et reproductibles.

Ce guide montre comment réaliser l'Entraînement LoRA Qwen Image Edit 2511 avec Ostris AI Toolkit.

Cet article fait partie de la série d'entraînement LoRA AI Toolkit. Si vous êtes nouveau sur Ostris AI Toolkit, commencez par la vue d'ensemble de l'entraînement LoRA AI Toolkit avant de plonger dans ce guide.

Table des matières


1. Qwen 2511 vs 2509 : quelles différences

Qwen 2511 n'est pas un checkpoint pour "faire de belles images" — c'est un éditeur d'images qui suit les instructions. Si vous venez du Tutoriel LoRA Qwen Edit 2509, considérez 2511 comme l'itération "cohérence d'abord" : il est ajusté pour réduire la dérive, préserver l'identité/structure, et maintenir les éditions localisées sur ce que vous avez demandé (surtout pour le travail de design produit/industriel et le placement sensible à la géométrie).

Trois différences par rapport à Qwen 2509 sont directement pertinentes pour l'Entraînement LoRA Qwen Image Edit 2511 :

Premièrement : résistance accrue à la dérive et rétention d'identité. Par rapport à Qwen 2509, Qwen 2511 a tendance à garder les parties "inchangées" plus stables, ce qui permet à votre LoRA d'apprendre une règle d'édition plus propre au lieu d'intégrer accidentellement l'effet dans les visages, arrière-plans ou composition.

Deuxièmement : le conditionnement multi-image reste central, mais le signal de contrôle doit être propre. Comme Qwen 2509, Qwen 2511 fonctionne mieux quand vous fournissez 1-3 images de référence plus une instruction. La différence pratique est que 2511 récompense les flux de contrôle bien alignés ; si l'appariement est faux ou les contrôles faibles, vous verrez plus de sur-édition et de dérive.

Troisièmement : plus de compatibilité LoRA intégrée (et plus grand besoin de spécificité). Qwen 2511 arrive avec une capacité LoRA intégrée plus forte dans les poids de base. C'est formidable pour des LoRAs d'édition pratiques et reproductibles, mais cela signifie aussi que votre Entraînement LoRA Qwen-Edit-2511 doit être réalisé avec un mapping clair et étroit pour qu'il ne devienne pas un vague "filtre universel".


2. Le modèle mental central : ce qu'un Edit LoRA apprend réellement

Pour Qwen 2511, votre LoRA apprend une règle de transformation :

"Étant donné cette/ces image(s) de référence et cette instruction, produis le résultat édité tout en préservant les parties qui doivent rester cohérentes."

C'est pourquoi les datasets d'édition doivent inclure les trois composants :

  • Image(s) de contrôle/référence : ce qui doit être préservé (identité, géométrie, éclairage, arrière-plan — ce que votre tâche requiert)
  • Instruction (caption/prompt) : ce qui doit changer, explicitement formulé
  • Image cible : le résultat "après" qui démontre le changement

Si vous ne fournissez que des images "après", le modèle n'a pas de signal stable pour ce qu'il faut garder, donc il apprendra un raccourci bruité : il peut intégrer des changements dans l'identité, l'arrière-plan ou la composition. Cela ressemble à "le LoRA est fort", mais c'est en fait une dérive incontrôlée.

La façon la plus simple de juger si votre dataset est "correct pour l'édition" est celle-ci : si vous supprimez l'instruction, un humain pourrait-il encore déduire ce qui a changé en comparant le(s) contrôle(s) avec la cible ? Si oui, vous avez un signal d'édition apprenable. Sinon (ou si le changement est ambigu), votre LoRA sera fragile.


3. Où entraîner : AI Toolkit local vs RunComfy Cloud AI Toolkit

AI Toolkit local est préférable si vous avez déjà un GPU NVIDIA compatible, êtes à l'aise avec la gestion des versions CUDA/PyTorch, et voulez un contrôle maximal sur les fichiers et l'itération. (Installez AI Toolkit depuis le repo GitHub d'Ostris : ostris/ai-toolkit.) Pour l'Entraînement LoRA Qwen Image Edit 2511, l'entraînement local peut être parfaitement viable — mais le modèle est lourd, et le conditionnement multi-image peut faire grimper rapidement la VRAM, donc vous vous appuierez souvent sur la quantification, les modes low-VRAM, ou des buckets de résolution plus petits.

RunComfy Cloud AI Toolkit est le chemin "passer la configuration" et souvent le choix pratique spécifiquement pour l'Entraînement LoRA Qwen Image Edit 2511. Vous exécutez la même UI AI Toolkit dans le navigateur, mais avec de gros GPUs disponibles (et moins de surprises d'environnement). C'est aussi pratique pour les équipes : datasets, configurations et checkpoints restent dans un workspace persistant, vous pouvez donc itérer comme un workflow de production plutôt qu'une expérience locale unique.

👉 Ouvrez ici : Cloud AI Toolkit sur RunComfy


4. Planification matériel et VRAM pour l'Entraînement LoRA Qwen-Edit-2511

Qwen 2511 a un backbone imposant et est conçu pour fonctionner à 1024×1024 par défaut pour les meilleurs résultats. De plus, chaque flux d'image de contrôle supplémentaire augmente l'utilisation mémoire, car le modèle doit traiter plus d'informations de conditionnement.

En pratique, vous verrez trois niveaux viables pour l'Entraînement LoRA Qwen Image Edit 2511 :

Niveau A : 24-32GB VRAM (demandant, mais possible).

Attendez-vous à utiliser des stratégies agressives : modes low-VRAM, gradient checkpointing, buckets plus petits (souvent 768 comme point de départ), et quantification (idéalement avec option Accuracy Recovery Adapter si votre build la propose). Gardez la batch size à 1 et montez en échelle avec gradient accumulation.

Niveau B : 40-48GB VRAM (confortable).

Vous pouvez souvent entraîner à 1024 avec un ou deux flux de contrôle, avec quantification modérée ou même principalement bf16 selon vos paramètres exacts. Ce niveau est là où l'entraînement LoRA Qwen Edit devient "reproductible" plutôt que "délicat".

Niveau C : 80GB+ VRAM (rapide, peu de friction).

Vous pouvez garder plus de composants en bf16, exécuter des datasets multi-contrôle confortablement, échantillonner plus souvent, et itérer rapidement — c'est la configuration que vous obtenez avec RunComfy Cloud AI Toolkit sur de gros GPUs.

L'idée clé : résolution et nombre de flux de contrôle sont vos plus grands leviers VRAM. Si vous êtes bloqué, changez ceux-ci avant de commencer à ajuster aléatoirement le learning rate.


5. Conception de dataset qui fonctionne vraiment pour les modèles Qwen Edit

5.1 Structure de dossiers compatible avec le trainer Qwen Edit d'AI Toolkit

Une structure pratique qui évite 90% des bugs :

  • targets/ → les images éditées "après"
  • control_1/ → premier flux d'image de référence (souvent l'image "avant")
  • control_2/ → deuxième flux de référence (optionnel ; deuxième personne/produit/arrière-plan/design)
  • control_3/ → troisième flux (rare ; seulement si votre workflow en a vraiment besoin)
  • captions/ → captions .txt optionnels alignés par nom de fichier (ou captions stockés à côté des targets selon votre workflow)

La partie importante est l'appariement. AI Toolkit ne peut entraîner correctement que s'il peut faire correspondre targets/0001.png avec control_1/0001.png (et control_2/0001.png, etc.). Si l'ordre des fichiers diffère, votre LoRA apprend le mauvais mapping et vous obtiendrez "ça entraîne mais ça a l'air aléatoire."


5.2 Trois patterns de dataset qui couvrent la plupart des LoRAs réels

Pattern A : Édition référence unique (1 image de contrôle).

Utilisez ceci pour : changements de couleur, échanges d'objets locaux, relighting, remplacement d'arrière-plan, "transforme ça en aquarelle," etc. Votre control_1 est l'image originale, votre cible est le résultat édité, et le caption est une instruction directe ("rends le chapeau rouge"). Ce pattern est le plus facile à entraîner et débugger.

Pattern B : Fusion multi-référence (2-3 images de contrôle).

Utilisez ceci pour : personne + personne, personne + scène, produit + arrière-plan, "fusionne ces deux identités," ou toute situation où vous voulez que le modèle préserve plusieurs sources. Vos captions doivent clarifier le rôle de chaque référence ("utiliser personne de ref1, arrière-plan de ref2").

Pattern C : Triplets d'insertion de design (vierge + design → appliqué).

C'est le pattern de dataset avec le meilleur ROI pour le travail commercial : logos sur t-shirts, autocollants sur produits, motifs sur tissu, étiquettes sur emballages. control_1 est le produit/personne sans le design, control_2 est l'image du design, et la cible est l'image finale "design appliqué". Cette séparation apprend au LoRA exactement quoi préserver (géométrie/éclairage/matériau) versus quoi changer (la région du design).


5.3 Captions qui aident (plutôt que nuisent)

Pour les Edit LoRAs, vos captions doivent se comporter comme des instructions, pas des descriptions. "Un homme portant un t-shirt, dehors" n'est pas utile ; "Place le logo fourni centré sur la poitrine, préserve les plis du tissu et l'éclairage" est utile.

Un bon caption d'instruction inclut généralement :

  • le changement prévu
  • ce qui doit être préservé
  • toute contrainte de placement ou géométrie (surtout pour l'insertion de design)

Gardez les captions cohérents dans tout le dataset. La cohérence rend le mapping plus facile à apprendre et rend votre LoRA plus contrôlable à l'inférence.


5.4 Combien d'échantillons avez-vous besoin ?

Pour des éditions étroites et reproductibles (insertion de logo, une règle de relighting spécifique, une transformation de matériau cohérente), vous pouvez souvent commencer avec 20-60 triplets bien construits. Pour une stylisation plus large ou une fusion multi-sujet, prévoyez 60-200+ exemples, car l'espace de "ce qui doit rester cohérent" est plus grand.

Si vous n'êtes pas sûr, commencez petit avec un ensemble "smoke test" de 8-12 échantillons. L'objectif du smoke test n'est pas la qualité — c'est de confirmer que votre appariement et câblage des contrôles fonctionne avant d'investir dans une longue exécution.


6. Étape par étape : Comment entraîner un LoRA Qwen Edit 2511 dans AI Toolkit

6.1 Créez vos datasets dans AI Toolkit (Targets + Control Streams)

Dans DATASETS (voir Section 5 pour la logique de structure de dossiers) :

  • Créez un dataset pour targets/, puis ajoutez control_1 / control_2 / control_3 si vous les utilisez.
  • Vérifiez que les comptages et l'appariement des noms de fichiers correspondent entre targets et controls (vérifiez au hasard ~10 échantillons).
  • Si vous utilisez des captions, définissez l'extension de caption (généralement .txt) et gardez les noms de fichiers de captions alignés avec les targets.

6.2 Créez un nouveau job

Dans JOB :

  • Choisissez un nom d'entraînement que vous reconnaîtrez plus tard.
  • Définissez un trigger word seulement si vous voulez que le LoRA soit "invocable" avec un seul mot-clé. Pour beaucoup d'Edit LoRAs, l'instruction elle-même suffit, et un trigger est optionnel.
  • Définissez Steps sur quelque chose de conservateur pour la première exécution (vous validez la configuration, pas le modèle final parfait).

Dans MODEL :

  • Sélectionnez l'architecture Qwen Image Edit "Plus" (la variante d'édition multi-image).
  • Name or Path – l'id de modèle Hugging Face (repo id) pour le checkpoint de base, par ex. : Qwen/Qwen-Image-Edit-2511.

    Dans la plupart des builds AI Toolkit, sélectionner l'architecture du modèle remplira automatiquement cette valeur ; laissez-la telle quelle sauf si vous avez une raison de la changer.

  • Utilisez bf16 si votre GPU le supporte ; sinon FP16 peut fonctionner, mais bf16 est généralement plus stable quand disponible.
  • Activez les options "Low VRAM" ou offloading seulement si nécessaire ; commencez simple quand vous pouvez.

Dans QUANTIZATION (seulement si nécessaire) :

  • Si vous êtes à 24-32GB, quantifiez d'abord le transformer/backbone. Si votre build offre une option "with ARA" pour Qwen 2511, préférez-la à la quantification plain low-bit car elle tend à retenir plus de qualité.
  • Quantifiez le text encoder/côté conditioning seulement si la VRAM est encore serrée après quantification du transformer.

Dans TARGET / NETWORK (paramètres LoRA) :

  • Commencez avec un rank modéré. Pour des éditions "type règle" (insertion de logo, relighting), vous n'avez souvent pas besoin d'un rank extrême.
  • Si votre build expose des ranks linear/conv séparés, gardez conv conservateur sauf si vous avez des preuves que ça aide votre tâche spécifique. Sur-paramétrer est un chemin rapide vers l'overfitting et la dérive.

Dans TRAINING :

  • Gardez Batch Size = 1 et utilisez Gradient Accumulation pour augmenter le batch effectif si nécessaire.
  • Commencez avec AdamW 8-bit si vous êtes limité en VRAM.
  • Utilisez les paramètres de scheduler recommandés/par défaut de Qwen que votre build fournit (pour les jobs Qwen Edit c'est généralement un scheduler flow-matching).
  • Gardez "train text encoder" désactivé pour votre première exécution réussie sauf si vous avez une raison spécifique d'adapter le comportement du langage. La plupart des Edit LoRAs pratiques n'ont besoin que de l'adaptation backbone/transformer.
  • Activez Gradient Checkpointing si la VRAM est serrée.

Dans DATASETS / RESOLUTIONS (Buckets) :

  • Si vous pouvez vous le permettre, 1024 est un défaut solide pour la qualité Qwen Edit.
  • Si vous êtes limité en VRAM, utilisez 768 pour la première exécution, puis montez en échelle une fois que vous avez confirmé que le pipeline est correctement câblé.
  • Préférez un petit ensemble de buckets (ex., 768 et 1024) plutôt qu'une distribution chaotique qui rend le mapping incohérent.

Dans SAMPLE / PREVIEWS :

Le sampling est votre système d'alerte précoce. Configurez 1-3 prompts de preview qui représentent votre cas d'usage réel, et utilisez toujours les mêmes images de contrôle fixes et seed pour pouvoir comparer les checkpoints visuellement.

Une bonne cadence de sampling pour les premières exécutions :

  • échantillonnez tous les 100-250 pas tôt
  • sauvegardez les checkpoints tous les 250-500 pas
  • gardez seulement une poignée de checkpoints récents pour éviter le bloat disque

6.3 Comment savoir si l'entraînement fonctionne

Vers ~200-500 pas, vous devriez voir au moins l'un de ces éléments :

  • l'édition commence à se produire de manière cohérente
  • les parties préservées (identité/arrière-plan/géométrie) restent plus stables que "génération aléatoire"
  • le changement correspond directionnellement à l'instruction du caption

Si vous ne voyez que du bruit, ou que le modèle ignore les contrôles, ne le "corrigez" pas d'abord avec le learning rate. Corrigez l'appariement, le câblage des contrôles, et zero_cond_t d'abord.


7. Le paramètre spécifique 2511 : zero_cond_t

C'est un détail important spécifique à 2511. zero_cond_t change comment les timesteps sont appliqués à travers les flux quand le modèle a un flux débruité (l'image en cours de génération) et des flux de conditionnement (vos images de référence/contrôle). Avec zero_cond_t activé, les images de conditionnement sont traitées comme des références propres (effectivement timestep 0) tandis que l'image principale suit le schedule normal de timestep de diffusion.

Si vos images de conditionnement sont "bruitées" avec le flux principal, le modèle a une référence plus faible et floue pour l'identité/structure. Cela augmente directement la dérive et diminue la fidélité d'édition. Garder les contrôles au timestep 0 est un choix d'ingénierie propre qui s'aligne avec l'objectif de "préserver la référence".

Pour Qwen 2511, traitez zero_cond_t comme une exigence de compatibilité, pas comme un hyperparamètre :

  • Activez-le pour l'entraînement.
  • Gardez-le activé pour l'inférence.
  • Si vos résultats semblent étonnamment plus dérivants que ce pour quoi 2511 est connu, c'est la première chose à vérifier.

8. Échecs d'entraînement courants et solutions

8.1 "Missing control images for QwenImageEditPlusModel"

Si vous voyez ceci, AI Toolkit vous dit qu'il n'a pas reçu d'images de contrôle au moment de l'entraînement. Les causes les plus courantes sont :

  • vous avez attaché le dataset targets mais n'avez pas assigné control_1 / control_2 dans le câblage dataset/job
  • le chemin du dossier de contrôle est incorrect ou vide
  • les comptages target/control ne correspondent pas, donc les controls échouent à charger pour certains échantillons

Corrigez en rendant les contrôles explicites : re-vérifiez les assignations de dataset, confirmez les chemins de dossiers, et assurez-vous que les noms de fichiers/comptages correspondent entre les flux.


8.2 "tuple index out of range" / erreurs de shape de tensor tôt dans l'entraînement

Cela signifie presque toujours que le loader attendait un tensor d'image mais a obtenu None ou une shape inattendue. Les raisons sous-jacentes sont généralement ennuyeuses mais réparables :

  • un fichier image corrompu
  • mode d'image non supporté (CMYK, niveaux de gris)
  • une image de contrôle manquante pour un index spécifique (décalage d'appariement)

Votre boucle de correction devrait être : valider l'intégrité des données → valider l'appariement → exécuter un petit smoke test (3-5 échantillons) avant de relancer un gros job.


8.3 KeyError: 'pixel_values' (souvent causé par des images en niveaux de gris)

Les pipelines Qwen Edit attendent généralement des images RGB. Les images en niveaux de gris (canal unique) peuvent casser l'extraction de caractéristiques et résulter en erreurs pixel_values. Convertissez vos images de dataset en PNG/JPG RGB standard 3 canaux et réessayez.


8.4 Out of memory (OOM), surtout pendant le sampling

L'entraînement d'édition multi-image peut faire grimper la VRAM pendant le sampling de preview parce qu'il exécute des passes forward supplémentaires et peut utiliser des buffers intermédiaires plus grands.

Corrigez OOM dans cet ordre :

  1. réduisez la fréquence de preview ou la résolution de preview
  2. gardez batch size à 1, augmentez gradient accumulation
  3. réduisez les buckets (ou descendez à 768)
  4. activez quantification/offloading
  5. entraînez temporairement avec moins de flux de contrôle pendant le débugage
  6. si vous avez encore OOM localement, exécutez le même job dans RunComfy Cloud AI Toolkit sur un GPU plus grand

8.5 LoRA charge mais "ne fait rien" (ou charge avec des keys manquantes) dans ComfyUI

Quand un LoRA ne fait rien, c'est généralement l'un de ces cas :

  • vous le chargez dans une architecture différente de celle pour laquelle il a été entraîné
  • l'échelle du LoRA est trop basse pour être remarquée
  • il y a un décalage de préfixe de key entre ce que la pile d'inférence attend et ce que le trainer a sauvegardé

Si vous voyez des avertissements de keys manquantes spécifiquement pour les Qwen LoRAs, un workaround connu est de réécrire le préfixe de key du state dict du LoRA (par ex., mapper les keys diffusion_model. vers des keys transformer.). Si votre build AI Toolkit et vos nodes ComfyUI sont tous deux à jour, cela peut déjà être corrigé — mais c'est la première chose à essayer quand vous voyez des problèmes systématiques de "keys not loaded".


9. Utiliser votre LoRA entraîné (Playground + ComfyUI)

Une fois l'entraînement terminé, la façon la plus rapide de tester votre Qwen 2511 LoRA est de le charger dans le Qwen‑Image‑Edit‑2511 LoRA Playground ; quand vous voulez un graph de nodes reproductible pour le travail réel, partez du workflow ComfyUI Qwen‑Image‑Edit‑2511 et substituez votre LoRA.


Plus de guides d'entraînement LoRA AI Toolkit

Ready to start training?