Guide d'entraînement LoRA Qwen-Image-2512 avec Ostris AI Toolkit

Qwen‑Image‑2512 (souvent abrégé en Qwen 2512) est un grand modèle de base texte vers image qui peut être affiné avec de petits adaptateurs pour apprendre de manière fiable un personnage (ressemblance), un style ou un produit/concept. Ce guide vous montre comment réaliser un Entraînement LoRA Qwen Image 2512 pratique avec Ostris AI Toolkit, avec des valeurs par défaut stables et des solutions aux problèmes courants.

À la fin de ce guide d'Entraînement LoRA Qwen Image 2512, vous serez capable de :

Choisir les bons paramètres par défaut pour les LoRAs personnage vs style vs produit sur Qwen-Image-2512.
Planifier les besoins en VRAM et décider quand ARA vaut la peine.
Construire des datasets, légendes et triggers qui évitent les modes d'échec courants (surapprentissage/bleeding).
Exécuter un smoke test court, puis fixer les étapes et paramètres avec confiance.

Cet article fait partie de la série Formation LoRA Qwen-Image-2512 avec AI-Toolkit. Si vous êtes nouveau sur Ostris AI Toolkit, commencez par l'introduction à la formation LoRA avec AI Toolkit avant de plonger dans ce guide pour former une LoRA Qwen Image 2512.

Table des matières

1. Aperçu de Qwen‑Image‑2512 : ce que ce modèle texte vers image peut faire
2. Options d'environnement : travailler dans l'interface d'entraînement AI Toolkit
3. Matériel et exigences VRAM pour l'Entraînement LoRA Qwen Image 2512
4. Construire un dataset pour Qwen 2512 entraînement LoRA
5. Étape par étape : Entraînement LoRA Qwen Image 2512 dans AI Toolkit
6. Configurations recommandées d'Entraînement LoRA Qwen Image 2512 par niveau de VRAM
7. Problèmes courants d'AI-Toolkit LoRA Qwen Image 2512 et comment les résoudre
8. Utiliser votre LoRA Qwen‑Image‑2512 après l'entraînement

1. Aperçu de Qwen‑Image‑2512 : ce que ce modèle texte vers image peut faire

Qu'est-ce que l'Entraînement LoRA Qwen Image 2512 (et ce que « bon » signifie)

Dans l'Entraînement LoRA Qwen Image 2512, vous ne remplacez pas le modèle de base—vous ajoutez un petit adaptateur qui l'oriente vers une identité, un style ou un concept de produit spécifique.

Un LoRA fort a trois qualités :

Force : il change clairement les sorties quand il est actif
Contrôle : il s'active uniquement quand vous le voulez
Généralisation : il fonctionne sur de nouveaux prompts, pas seulement sur vos images d'entraînement

Choisissez votre objectif : Personnage vs Style vs Produit/Concept

Votre objectif détermine les meilleurs paramètres par défaut pour la conception du dataset et les réglages d'entraînement lors de la Formation LoRA Qwen-Image-2512.

Personnage / ressemblance

Idéal pour : une personne spécifique, personnage, ressemblance avec une célébrité, visage/identité cohérent
Risques principaux : bleeding d'identité (affecte d'autres personnes), visages surcuits, surapprentissage rapide
Nécessite : stratégie de timestep plus serrée, étapes soignées, généralement un trigger, souvent DOP

Style

Idéal pour : un look/grade, style d'illustration, style d'éclairage, langage de texture
Risques principaux : devenir un « filtre universel », perte de fidélité au prompt
Nécessite : plus de variété, souvent moins de répétitions/image que personnage, trigger optionnel

Produit / concept

Idéal pour : un produit spécifique (chaussure, bouteille), emballage avec logo, un nouveau concept d'objet
Risques principaux : dérive de forme, matériaux incohérents, géométrie instable
Nécessite : cadrage cohérent + légendes propres ; trigger généralement recommandé

Si vous n'êtes pas sûr, commencez l'Entraînement LoRA Qwen Image 2512 comme smoke test (exécution courte), puis fixez les étapes finales une fois que vous voyez à quelle vitesse votre dataset « s'imprime ».

2. Options d'environnement : AI Toolkit local vs AI Toolkit cloud sur RunComfy

Pour la Formation LoRA Qwen-Image-2512, vous pouvez utiliser les deux mêmes environnements que les autres workflows LoRA AI Toolkit :

AI Toolkit local sur votre propre GPU
AI Toolkit cloud sur RunComfy avec de grandes GPUs (H100 / H200)

L'interface d'entraînement, les paramètres et le workflow sont identiques dans les deux cas. La seule différence est où se trouve la GPU et combien de VRAM vous avez disponible.

2.1 AI Toolkit local (votre propre GPU)

Installez AI Toolkit depuis le dépôt GitHub AI Toolkit, puis lancez l'interface Web. L'entraînement local est un bon choix si :

Vous avez déjà une GPU NVIDIA (typiquement 24GB de VRAM ou plus pour un entraînement confortable à 1024)
Vous êtes à l'aise avec la gestion de CUDA, des drivers, de l'espace disque et des jobs de longue durée

2.2 AI Toolkit cloud sur RunComfy (H100 / H200)

Avec l'AI Toolkit cloud sur RunComfy, l'AI-Toolkit LoRA Qwen Image 2512 s'exécute entièrement dans le navigateur :

Vous n'installez rien localement
Vous ouvrez un navigateur, vous connectez et arrivez directement dans l'interface d'entraînement AI Toolkit
Vous pouvez sélectionner de grandes GPUs comme H100 (80GB) ou H200 (141GB) lors du lancement d'un job
Vous obtenez un workspace persistant où les datasets, configs et checkpoints sont sauvegardés et peuvent être réutilisés entre les sessions

Cet environnement est particulièrement utile pour l'Entraînement LoRA Qwen Image 2512 quand :

Vous voulez une itération plus rapide à 1024×1024 sans astuces mémoire agressives
Vous voulez expérimenter avec des rangs LoRA plus grands, plus de buckets ou des tailles de batch plus élevées
Vous ne voulez pas passer du temps à déboguer des problèmes CUDA ou de drivers

👉 Ouvrez ici : AI Toolkit cloud sur RunComfy

3. Matériel et exigences VRAM pour l'Entraînement LoRA Qwen Image 2512

3.1 Planification matérielle : niveaux de VRAM et quand ARA compte

Qwen 2512 est grand. Pour un Entraînement LoRA Qwen Image 2512 pratique, pensez en niveaux :

24GB VRAM (courant) : faisable, mais vous avez typiquement besoin de quantification bas bit + ARA pour l'entraînement à 1024
40–48GB VRAM : entraînement confortable à 1024 avec moins de compromis
80GB+ VRAM : configuration la plus simple, itération la plus rapide, moins besoin d'optimiser la mémoire

Si vous êtes en dessous de 24GB : vous pouvez parfois entraîner à plus basse résolution (ex. 768) avec des tactiques mémoire agressives, mais attendez-vous à des exécutions plus lentes et une stabilité plus délicate.

3.2 ARA expliqué : ce que c'est, quand l'utiliser et comment cela affecte l'entraînement

Ce qu'est ARA

ARA (Accuracy Recovery Adapter) est un mécanisme de récupération utilisé avec une quantification très bas bit (couramment 3-bit ou 4-bit). Le modèle de base s'exécute quantifié pour économiser la VRAM, tandis qu'ARA aide à récupérer la précision perdue par la quantification.

Quand utiliser ARA pour Qwen 2512

Utilisez ARA si vous voulez l'un de ces éléments :

Entraîner Qwen 2512 à 1024×1024 sur 24GB
Moins de problèmes OOM
Convergence stable sans offload CPU lourd

Comment ARA affecte l'entraînement (compromis)

Avantages

Rend l'entraînement à 1024 viable sur les GPUs grand public
Améliore souvent la stabilité par rapport à la quantification « simple bas bit »

Inconvénients

Ajoute des parties mobiles supplémentaires (la compatibilité outils/versions compte)
Si la quantification échoue, vous devrez peut-être ajuster le mode de quantification ou mettre à jour votre environnement

Guide pratique pour l'Entraînement LoRA Qwen Image 2512

Commencez avec ARA 3-bit sur 24GB
Si des erreurs de quantification surviennent, essayez ARA 4-bit
Si les problèmes persistent, utilisez temporairement un mode de quantification de plus haute précision pour valider le reste de votre pipeline, puis revenez à ARA

4. Construire un dataset pour Qwen 2512 entraînement LoRA

4.1 Conception du dataset : quoi collecter pour chaque objectif

La plupart des échecs de l'Entraînement LoRA Qwen Image 2512 sont des échecs de dataset déguisés.

Règles universelles

Convertissez tout en RGB (évitez niveaux de gris/CMJN)
Supprimez les images cassées/corrompues
Évitez les quasi-doublons sauf si vous voulez intentionnellement que cette prise domine
Gardez la résolution cohérente quand possible (ou utilisez un petit ensemble de buckets)

Dataset personnage (15–50 images)

Visez :

30–60% gros plans / tête et épaules
30–50% plans moyens
10–20% corps entier (optionnel mais aide à la généralisation vêtements/pose)

Gardez l'éclairage et les arrière-plans suffisamment variés pour que « l'identité » soit le signal cohérent.

Dataset style (30–200 images)

Visez :

Large variété de sujets (personnes, objets, environnements)
Composition et situations de couleur variées
Indices de style cohérents (pinceau, ombrage, palette, grain de film, etc.)

Les LoRAs de style dans le Qwen 2512 entraînement LoRA généralisent mieux quand le style est le seul facteur cohérent.

Dataset produit / concept (20–80 images)

Visez :

Angles et cadrage cohérents (face/côté/45 degrés)
Échelle du produit cohérente dans le cadre (évitez les différences de zoom extrêmes)
Multiples conditions d'éclairage si le matériau compte (mat vs brillant)
Arrière-plans propres aident au début (vous pouvez ajouter des scènes complexes après)

4.2 Légendes et triggers : modèles pour Personnage / Style / Produit

Vous pouvez entraîner Qwen 2512 avec trigger seul ou avec courtes légendes cohérentes.

4.2.1 La règle clé des légendes

Si une caractéristique apparaît dans de nombreuses images d'entraînement mais que vous ne la mentionnez jamais dans les légendes, le modèle peut apprendre que le trigger signifie implicitement cette caractéristique—il essaiera donc de la reproduire chaque fois que vous utilisez le trigger.

C'est une raison courante pour laquelle un LoRA « force » une coupe de cheveux, une tenue, une couleur d'arrière-plan ou un style de caméra chaque fois qu'il s'active.

4.2.2 Modèles de légendes pour personnage

Recommandé : utilisez un trigger. Gardez les légendes courtes.

Trigger seul :
[trigger]
Courte légende :
portrait photo of [trigger], studio lighting, sharp focus

photo of [trigger], natural skin texture, realistic

Évitez de sur-décrire les parties du visage (yeux, nez, etc.). Laissez le modèle apprendre l'identité des images.

4.2.3 Modèles de légendes pour style

Le trigger est optionnel. Si vous en utilisez un, cela vous donne un interrupteur marche/arrêt.

Sans trigger, courte légende :
in a watercolor illustration style, soft edges, pastel palette
Trigger + courte légende :
[trigger], watercolor illustration, pastel palette, soft edges

Pour le style, les légendes doivent décrire les attributs de style, pas le contenu de la scène.

4.2.4 Modèles de légendes pour produit/concept

Le trigger est fortement recommandé pour le contrôle.

Simple :
product photo of [trigger], clean background, studio lighting
Si le produit a des caractéristiques définissantes :
product photo of [trigger], transparent bottle, blue label, studio lighting

Évitez les longues légendes. Pour les produits, une formulation cohérente améliore la stabilité de la géométrie.

5. Étape par étape : Entraînement LoRA Qwen Image 2512 dans AI Toolkit

Cette section suit le même flux que l'interface d'entraînement AI Toolkit. Créez d'abord vos datasets, puis configurez un nouveau job panneau par panneau.

5.1 Étape 0 – Choisissez votre objectif (Personnage vs Style vs Produit)

Avant de toucher aux paramètres, décidez ce que vous entraînez. Cela détermine les meilleurs paramètres par défaut pour les légendes, étapes et régularisation.

Personnage / ressemblance : cohérence d'identité la plus forte (visage/apparence). Plus grand risque de bleeding et surapprentissage rapide.
Style : look visuel cohérent (palette/texture/éclairage). Plus grand risque de devenir un « filtre universel ».
Produit / concept : identité d'objet stable et géométrie. Plus grand risque de dérive forme/matériau.

Si vous n'êtes pas sûr, exécutez d'abord un smoke test court (voir TRAINING + SAMPLE ci-dessous), puis fixez les étapes une fois que vous voyez à quelle vitesse votre dataset « s'imprime ».

5.2 Étape 1 – Créer des datasets dans AI Toolkit

Dans l'interface AI Toolkit, ouvrez l'onglet Datasets.

Créez au moins un dataset (exemple de nom) :

my_dataset_2512

Téléchargez vos images dans ce dataset.

Règles de qualité du dataset (tous objectifs)

Convertissez tout en RGB (évitez niveaux de gris/CMJN).
Supprimez les fichiers cassés/corrompus.
Évitez les quasi-doublons sauf si vous voulez intentionnellement que ce look/pose domine.

Tailles de dataset suggérées

Personnage : 15–50 images
Style : 30–200 images (plus de variété aide)
Produit : 20–80 images (cadrage cohérent aide)

5.3 Étape 2 – Créer un nouveau Job

Ouvrez l'onglet New Job. Configurez chaque panneau dans l'ordre où ils apparaissent.

5.3.1 Panneau JOB – Training Name, GPU ID, Trigger Word

Training Name
Choisissez un nom clair que vous reconnaîtrez plus tard (ex. qwen_2512_character_v1, qwen_2512_style_v1, qwen_2512_product_v1).
GPU ID – sur une installation locale, choisissez la GPU de votre machine. Dans l'AI Toolkit cloud sur RunComfy, laissez GPU ID à la valeur par défaut. Le type de machine réel (H100 / H200) est choisi plus tard quand vous démarrez le job depuis la Training Queue.
Trigger Word
Utilisation recommandée selon votre objectif :

Personnage : fortement recommandé (vous donne un contrôle marche/arrêt propre et aide à prévenir le bleeding).
Style : optionnel (utilisez-le si vous voulez un « style appelable » au lieu de toujours actif).
Produit : fortement recommandé (aide à garder le concept appris contrôlable).

Si vous utilisez un trigger, vos légendes peuvent inclure un placeholder comme [trigger] et suivre des modèles cohérents (voir ci-dessous).

5.3.2 Panneau MODEL – Model Architecture, Name or Path, Options

Model Architecture
Sélectionnez Qwen-Image-2512.
Name or Path
Utilisez Qwen/Qwen-Image-2512. Dans la plupart des builds AI Toolkit, sélectionner Qwen‑Image‑2512 remplira automatiquement cette valeur.

Si vous la remplacez, utilisez le format ID de repo Hugging Face : org-or-user/model-name (optionnellement org-or-user/model-name@revision).
Options

Low VRAM : activez pour les GPUs 24GB lors de la Formation LoRA Qwen-Image-2512.
Layer Offloading : traitez cela comme dernier recours si vous avez encore des OOM après quantification, rang plus bas et moins de buckets.

Ordre d'offloading (meilleures pratiques) :

1) ARA + Low VRAM

2) Réduire le rang

3) Réduire les buckets de résolution

4) Réduire la fréquence/résolution d'échantillonnage

5) Puis activer Layer Offloading

5.3.3 Panneau QUANTIZATION – Transformer, Text Encoder

C'est là que la plupart des exécutions d'Entraînement LoRA Qwen Image 2512 sur 24GB réussissent ou échouent.

Baseline 24GB (recommandé pour l'entraînement à 1024)

Quantifiez le Transformer et utilisez ARA (3-bit d'abord, 4-bit si nécessaire).
Quantifiez le Text Encoder en float8 si vous avez besoin de marge VRAM supplémentaire.

GPUs à grande VRAM
Vous pouvez réduire la quantification ou la désactiver pour simplicité si l'entraînement est stable et assez rapide.

Si la quantification échoue (erreurs dtype/quantize), traitez-le d'abord comme un problème de compatibilité d'outils :

basculez entre ARA 3-bit ↔ 4-bit,
mettez à jour AI Toolkit/dépendances,
ou utilisez temporairement un mode de plus haute précision pour valider le reste de votre configuration de job, puis revenez à ARA.

5.3.4 Panneau TARGET – Target Type, Linear Rank

Target Type : choisissez LoRA.
Linear Rank
Points de départ recommandés par objectif :

Personnage : 32
Style : 16–32
Produit : 32

Règles générales :

Si OOM → réduisez le rang avant de toucher à autre chose.
Si underfitting → ajustez d'abord timesteps/steps/LR, puis envisagez d'augmenter le rang.
Si overfitting → réduisez répétitions/étapes, réduisez rang, ajoutez variété, envisagez DOP.

5.3.5 Panneau SAVE – Data Type, Save Every, Max Step Saves to Keep

Data Type : BF16 (valeur par défaut stable).
Save Every : 250 (bonne cadence de checkpoints).
Max Step Saves to Keep : 4 (garde l'utilisation disque sous contrôle).

5.3.6 Panneau TRAINING – hyperparamètres principaux

Ce sont les valeurs par défaut avec lesquelles la plupart des exécutions commencent :

Batch Size : 1
Gradient Accumulation : 1
Optimizer : AdamW8Bit
Learning Rate : 0.0001
Weight Decay : 0.0001
Timestep Type : Weighted
Timestep Bias : Balanced
Loss Type : Mean Squared Error
Use EMA : OFF (pour les LoRAs Qwen 2512)

Guide Timestep Type par objectif

Personnage : Weighted est une baseline sûre ; si la ressemblance ne se fixe pas ou semble incohérente, essayez un réglage de timestep plus favorable à l'identité (améliore souvent l'empreinte du personnage).
Style : Weighted fonctionne généralement ; augmentez la variété avant d'augmenter les étapes.
Produit : Weighted est une baseline stable ; si la géométrie dérive, réduisez d'abord les répétitions ou resserrez les légendes/trigger.

Steps : valeurs recommandées pour Personnage vs Style vs Produit

Les steps ne doivent pas être un seul nombre magique. Une méthode plus fiable sont les répétitions par image :

répétitions ≈ (steps × batch_size × grad_accum) ÷ num_images
avec batch_size=1 et grad_accum=1 : steps ≈ répétitions × num_images

Si vous augmentez gradient accumulation à 2 ou 4, réduisez les steps proportionnellement.

Répétitions par image pour personnage (ressemblance)

Smoke test : 30–50
Sweet spot typique : 50–90
Push haute ressemblance : 90–120 (surveillez le bleeding)

Exemples (batch=1, accum=1) :

Images	30–50 rép.	50–90 rép.	90–120 rép.
15	450–750	750–1350	1350–1800
25	750–1250	1250–2250	2250–3000
40	1200–2000	2000–3600	3600–4800

Répétitions par image pour style

Smoke test : 15–30
Sweet spot typique : 25–60
Limite supérieure : 60–80 (seulement avec datasets grands et divers)

Exemples (batch=1, accum=1) :

Images	15–30 rép.	25–60 rép.	60–80 rép.
30	450–900	750–1800	1800–2400
100	1500–3000	2500–6000	6000–8000

Répétitions par image pour produit / concept

Smoke test : 20–40
Sweet spot typique : 30–70
Push haute fidélité : 70–90 (seulement si forme/matériau est encore en underfitting)

Exemples (batch=1, accum=1) :

Images	20–40 rép.	30–70 rép.	70–90 rép.
20	400–800	600–1400	1400–1800
50	1000–2000	1500–3500	3500–4500
80	1600–3200	2400–5600	5600–7200

Optimisations Text Encoder (côté droit de TRAINING)

Unload TE
Utilisez seulement pour les workflows trigger-seul où vous voulez minimiser l'utilisation VRAM et ne dépendez pas des légendes par image.
Cache Text Embeddings
Activez seulement si :

les légendes sont statiques,
caption dropout est OFF,
DOP est OFF.

Si vous utilisez caption dropout ou DOP, gardez-le OFF.

Régularisation (côté droit de TRAINING)

Differential Output Preservation (DOP) peut aider à prévenir le bleeding.

Ce que fait DOP
Encourage le LoRA à se comporter comme un delta contrôlé :

effet fort quand le trigger est présent,
effet minimal quand le trigger est absent.

Quand activer DOP

Personnage : généralement oui (surtout pour un comportement propre trigger marche/arrêt).
Style : optionnel (utilisez-le si vous voulez un style appelable).
Produit : recommandé si l'identité du produit se propage partout.

Règle de compatibilité clé pour l'Entraînement LoRA Qwen Image 2512

Si DOP est ON, ne cachez pas les text embeddings.

Blank Prompt Preservation

Laissez OFF sauf si vous avez une raison spécifique de préserver le comportement pour les prompts vides.

5.3.7 Panneau ADVANCED – Options vitesse et stabilité

Do Differential Guidance
Réglage optionnel pour augmenter le « signal d'apprentissage ». Si vous l'activez, commencez conservativement (valeur moyenne) et augmentez seulement si l'apprentissage semble trop lent.
Latent caching
Dans la section DATASETS vous pouvez activer Cache Latents (recommandé pour la vitesse si vous avez assez de disque et voulez des itérations plus rapides).

5.3.8 Panneau DATASETS – Target Dataset, Default Caption, Settings, Resolutions

Dans Dataset 1 :

Target Dataset
Choisissez le dataset que vous avez téléchargé (ex. my_dataset_2512).
Default Caption
Choisissez selon votre stratégie de légendes :

trigger seul : laissez vide ou juste [trigger]
courtes légendes : utilisez un modèle cohérent pour tout le dataset

Modèles de légendes :

Personnage : portrait photo of [trigger], studio lighting, sharp focus
Style : [trigger], watercolor illustration, pastel palette, soft edges (trigger optionnel)
Produit : product photo of [trigger], clean background, studio lighting

Règle clé des légendes

Caption Dropout Rate
0.05 est un point de départ courant quand vous ne cachez pas les text embeddings.

Si vous activez le cache des text embeddings, mettez dropout à 0.
Settings

Cache Latents : recommandé pour la vitesse (surtout sur grands datasets).
Is Regularization : utilisez seulement si ce dataset est un dataset de régularisation.
Flip X / Flip Y : OFF par défaut. Activez seulement si les retournements miroir sont sûrs pour votre sujet/produit (note : retourner peut casser texte/logos).

Resolutions
Commencez simple :

Personnage : 1024 seulement (empreinte propre), ajoutez 768 plus tard si nécessaire
Style : 768 + 1024 si le dataset mélange les tailles
Produit : 1024 seulement au début, ajoutez un autre bucket une fois que la forme est stable

5.3.9 Panneau SAMPLE – aperçus d'entraînement

L'échantillonnage est votre système d'alerte précoce pour l'Entraînement LoRA Qwen Image 2512.

Valeurs par défaut recommandées :

Sample Every : 250
Sampler : FlowMatch (correspond à l'entraînement)
Guidance Scale : 4
Sample Steps : 25
Width/Height : correspond à votre bucket principal d'entraînement (souvent 1024×1024)
Seed : 42
Walk Seed : optionnel (plus de variété dans les aperçus)

Signaux d'arrêt précoce

Personnage : la ressemblance atteint un pic puis se surcuit ; le bleeding d'identité commence ; la fidélité au prompt baisse.
Style : devient un « filtre universel » ; des textures répétitives apparaissent ; les prompts ne sont plus respectés.
Produit : la géométrie se déforme après amélioration ; les labels/logos deviennent trop assertifs ; les matériaux se dégradent.

5.4 Étape 3 – Lancer l'entraînement et surveiller

Après avoir configuré le job, allez dans la Training Queue, sélectionnez votre job et démarrez l'entraînement.

Surveillez deux choses :

Utilisation VRAM (surtout avec GPUs 24GB)
Images échantillons (elles vous disent quand arrêter et quel checkpoint est le meilleur)

La plupart des utilisateurs obtiennent de meilleurs résultats de Qwen 2512 entraînement LoRA en sélectionnant le meilleur checkpoint de l'échantillonnage (souvent plus tôt) plutôt qu'en terminant toujours les étapes maximales.

6. Configurations recommandées d'Entraînement LoRA Qwen Image 2512 par niveau de VRAM

Qwen 2512 est grand. Pour un Qwen 2512 entraînement LoRA pratique, pensez en niveaux :

24GB VRAM (courant) : faisable, mais vous avez typiquement besoin de quantification bas bit + ARA pour l'entraînement à 1024
40–48GB VRAM : entraînement confortable à 1024 avec moins de compromis
80GB+ VRAM : configuration la plus simple, itération la plus rapide, moins besoin d'optimiser la mémoire

Utilisez ARA si vous voulez l'un de ces éléments :

Entraîner Qwen 2512 à 1024×1024 sur 24GB
Moins de problèmes OOM
Convergence stable sans offload CPU lourd

7. Problèmes courants d'AI-Toolkit LoRA Qwen Image 2512 et comment les résoudre

7.1 La quantification échoue au démarrage (ARA / mismatch dtype sur Qwen-Image-2512)

Symptômes

L'entraînement s'arrête immédiatement pendant le démarrage.
Erreurs comme « Failed to quantize … Expected dtype … ».

Pourquoi cela arrive

Le mode ARA ou quantification sélectionné n'est pas totalement compatible avec le build actuel d'AI Toolkit ou l'environnement.

Solution (ordre le plus rapide)

Mettez à jour AI Toolkit et les dépendances vers une version connue pour supporter Qwen-Image-2512.
Changez de mode ARA :

Si ARA 3-bit échoue → essayez ARA 4-bit.
Si ARA 4-bit échoue → essayez ARA 3-bit.

Utilisez temporairement un mode de quantification de plus haute précision pour confirmer que le reste de la configuration d'entraînement fonctionne, puis revenez à ARA.

7.2 L'identité du personnage devient générique quand batch size > 1

Symptômes

Les échantillons précoces semblent prometteurs, mais le LoRA final semble « moyenné ».
Le personnage ne ressemble plus à une personne spécifique.

Pourquoi cela arrive

Les batches plus grands peuvent encourager la sur-généralisation dans la Formation LoRA Qwen-Image-2512 pour les personnages.

Solution

Préférez Batch Size = 1 et Gradient Accumulation = 1.
Si vous avez besoin d'un batch effectif plus grand, augmentez Gradient Accumulation au lieu de Batch Size et surveillez les échantillons de près.

7.3 La ressemblance ne « se fixe jamais » (mauvais comportement de timestep)

Symptômes

Les vêtements, la pose ou l'ambiance sont corrects, mais le visage ou l'identité est incohérent.
Les résultats varient beaucoup entre les prompts.

Pourquoi cela arrive

Pour les personnages réalistes, Qwen-Image-2512 répond souvent mieux au comportement timestep de type sigmoid qu'aux timesteps pondérés.

Solution

Pour les LoRAs personnage (et souvent produit), changez Timestep Type à sigmoid.
Évaluez les échantillons tôt ; n'attendez pas la fin de l'entraînement.

7.4 Les visages deviennent « frits » ou cireux aux checkpoints tardifs

Symptômes

Un checkpoint a l'air super, mais les suivants semblent sur-accentués, plastiques ou instables.
Le bleeding d'identité augmente rapidement.

Pourquoi cela arrive

Les LoRAs de personnage dans l'Entraînement LoRA Qwen Image 2512 peuvent se dégrader rapidement une fois que vous dépassez environ ~100 répétitions par image.

Solution

Sélectionnez un checkpoint plus tôt (souvent la meilleure solution).
Réduisez le total de répétitions/étapes et restez plus proche de la plage recommandée.
Si nécessaire, réduisez le rang LoRA ou ajoutez plus de variété au dataset avant d'augmenter les étapes.

7.5 Le LoRA de style est incohérent ou agit comme un « filtre universel »

Symptômes

Parfois le style apparaît, parfois non.
Ou il écrase toujours le contenu du prompt.

Pourquoi cela arrive

Les LoRAs de style ont souvent besoin de plus de largeur de dataset et d'un entraînement global plus long que les LoRAs de personnage.

Solution

Ajoutez plus d'exemples de style diversifiés (personnes, objets, environnements).
Gardez les répétitions par image raisonnables et augmentez le signal total via plus d'images plutôt que des répétitions extrêmes.
Échantillonnez souvent pour éviter que le style ne devienne un filtre global brutal.

8. Utiliser votre LoRA Qwen 2512 après l'entraînement

Une fois l'entraînement terminé, vous pouvez utiliser votre LoRA Qwen 2512 de deux façons simples :

Run LoRA – ouvrez la page Run LoRA Qwen‑Image‑2512. Sur cette page d’inférence du modèle de base, vous pouvez sélectionner un asset LoRA entraîné sur RunComfy ou importer un fichier LoRA entraîné avec AI Toolkit, puis lancer l’inférence via le playground ou l’API. RunComfy utilise le même modèle de base et la définition complète du pipeline AI Toolkit depuis votre config d’entraînement, donc ce que vous avez vu pendant le training est exactement ce que vous obtenez en inférence — cet alignement training/inference aide à garder des résultats cohérents avec vos samples d’entraînement.
Workflows ComfyUI – démarrez une instance ComfyUI et construisez votre propre workflow ou chargez-en un comme Qwen Image 2512, ajoutez un nœud chargeur LoRA, mettez-y votre LoRA, et ajustez le poids LoRA et autres paramètres pour un contrôle plus détaillé.

Tester votre LoRA Qwen 2512 en inférence

Tests personnage

Prompt portrait gros plan
Prompt plan moyen
Prompt corps entier

Tests style

Multiples catégories de sujets (humain/objet/environnement)

Tests produit

Prompt studio propre + un prompt de scène complexe

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Table des matières

1. Aperçu de Qwen‑Image‑2512 : ce que ce modèle texte vers image peut faire

Qu'est-ce que l'Entraînement LoRA Qwen Image 2512 (et ce que « bon » signifie)

Choisissez votre objectif : Personnage vs Style vs Produit/Concept

Personnage / ressemblance

Style

Produit / concept

2. Options d'environnement : AI Toolkit local vs AI Toolkit cloud sur RunComfy

2.1 AI Toolkit local (votre propre GPU)

2.2 AI Toolkit cloud sur RunComfy (H100 / H200)

3. Matériel et exigences VRAM pour l'Entraînement LoRA Qwen Image 2512

3.1 Planification matérielle : niveaux de VRAM et quand ARA compte

3.2 ARA expliqué : ce que c'est, quand l'utiliser et comment cela affecte l'entraînement

Ce qu'est ARA

Quand utiliser ARA pour Qwen 2512

Comment ARA affecte l'entraînement (compromis)

4. Construire un dataset pour Qwen 2512 entraînement LoRA

4.1 Conception du dataset : quoi collecter pour chaque objectif

Règles universelles

Dataset personnage (15–50 images)

Dataset style (30–200 images)

Dataset produit / concept (20–80 images)

4.2 Légendes et triggers : modèles pour Personnage / Style / Produit

4.2.1 La règle clé des légendes

4.2.2 Modèles de légendes pour personnage

4.2.3 Modèles de légendes pour style

4.2.4 Modèles de légendes pour produit/concept

5. Étape par étape : Entraînement LoRA Qwen Image 2512 dans AI Toolkit

5.1 Étape 0 – Choisissez votre objectif (Personnage vs Style vs Produit)

5.2 Étape 1 – Créer des datasets dans AI Toolkit

5.3 Étape 2 – Créer un nouveau Job

5.3.1 Panneau JOB – Training Name, GPU ID, Trigger Word

5.3.2 Panneau MODEL – Model Architecture, Name or Path, Options

5.3.3 Panneau QUANTIZATION – Transformer, Text Encoder

5.3.4 Panneau TARGET – Target Type, Linear Rank

5.3.5 Panneau SAVE – Data Type, Save Every, Max Step Saves to Keep

5.3.6 Panneau TRAINING – hyperparamètres principaux

Steps : valeurs recommandées pour Personnage vs Style vs Produit

Optimisations Text Encoder (côté droit de TRAINING)

Régularisation (côté droit de TRAINING)

5.3.7 Panneau ADVANCED – Options vitesse et stabilité

5.3.8 Panneau DATASETS – Target Dataset, Default Caption, Settings, Resolutions

5.3.9 Panneau SAMPLE – aperçus d'entraînement

5.4 Étape 3 – Lancer l'entraînement et surveiller

6. Configurations recommandées d'Entraînement LoRA Qwen Image 2512 par niveau de VRAM

7. Problèmes courants d'AI-Toolkit LoRA Qwen Image 2512 et comment les résoudre

7.1 La quantification échoue au démarrage (ARA / mismatch dtype sur Qwen-Image-2512)

7.2 L'identité du personnage devient générique quand batch size > 1

7.3 La ressemblance ne « se fixe jamais » (mauvais comportement de timestep)

7.4 Les visages deviennent « frits » ou cireux aux checkpoints tardifs

7.5 Le LoRA de style est incohérent ou agit comme un « filtre universel »

8. Utiliser votre LoRA Qwen 2512 après l'entraînement

Plus de guides d'entraînement LoRA avec AI Toolkit