AI Toolkit LoRA Training Guides

Entraînement LoRA Qwen 2512 (Qwen-Image-2512) avec Ostris AI Toolkit

Ce tutoriel montre comment entraîner des LoRAs Qwen-Image-2512 avec Ostris AI Toolkit. Il couvre les meilleurs réglages par défaut pour les LoRAs de personnage, de style et de produit/concept, la mise en place des datasets et des triggers, quand utiliser ARA + Low VRAM (par ex. sur des GPUs 24GB), le suivi via des samples et le dépannage des problèmes courants.

Train Diffusion Models with Ostris AI Toolkit

Faites défiler horizontalement pour voir le formulaire complet

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Qwen‑Image‑2512 (souvent abrégé en Qwen 2512) est un grand modèle de base texte vers image qui peut être affiné avec de petits adaptateurs pour apprendre de manière fiable un personnage (ressemblance), un style ou un produit/concept. Ce guide vous montre comment réaliser un Entraînement LoRA Qwen Image 2512 pratique avec Ostris AI Toolkit, avec des valeurs par défaut stables et des solutions aux problèmes courants.

À la fin de ce guide d'Entraînement LoRA Qwen Image 2512, vous serez capable de :

  • Choisir les bons paramètres par défaut pour les LoRAs personnage vs style vs produit sur Qwen-Image-2512.
  • Planifier les besoins en VRAM et décider quand ARA vaut la peine.
  • Construire des datasets, légendes et triggers qui évitent les modes d'échec courants (surapprentissage/bleeding).
  • Exécuter un smoke test court, puis fixer les étapes et paramètres avec confiance.
Cet article fait partie de la série Formation LoRA Qwen-Image-2512 avec AI-Toolkit. Si vous êtes nouveau sur Ostris AI Toolkit, commencez par l'introduction à la formation LoRA avec AI Toolkit avant de plonger dans ce guide pour former une LoRA Qwen Image 2512.

Table des matières


1. Aperçu de Qwen‑Image‑2512 : ce que ce modèle texte vers image peut faire

Qu'est-ce que l'Entraînement LoRA Qwen Image 2512 (et ce que « bon » signifie)

Dans l'Entraînement LoRA Qwen Image 2512, vous ne remplacez pas le modèle de base—vous ajoutez un petit adaptateur qui l'oriente vers une identité, un style ou un concept de produit spécifique.

Un LoRA fort a trois qualités :

  • Force : il change clairement les sorties quand il est actif
  • Contrôle : il s'active uniquement quand vous le voulez
  • Généralisation : il fonctionne sur de nouveaux prompts, pas seulement sur vos images d'entraînement

Choisissez votre objectif : Personnage vs Style vs Produit/Concept

Votre objectif détermine les meilleurs paramètres par défaut pour la conception du dataset et les réglages d'entraînement lors de la Formation LoRA Qwen-Image-2512.

Personnage / ressemblance

  • Idéal pour : une personne spécifique, personnage, ressemblance avec une célébrité, visage/identité cohérent
  • Risques principaux : bleeding d'identité (affecte d'autres personnes), visages surcuits, surapprentissage rapide
  • Nécessite : stratégie de timestep plus serrée, étapes soignées, généralement un trigger, souvent DOP

Style

  • Idéal pour : un look/grade, style d'illustration, style d'éclairage, langage de texture
  • Risques principaux : devenir un « filtre universel », perte de fidélité au prompt
  • Nécessite : plus de variété, souvent moins de répétitions/image que personnage, trigger optionnel

Produit / concept

  • Idéal pour : un produit spécifique (chaussure, bouteille), emballage avec logo, un nouveau concept d'objet
  • Risques principaux : dérive de forme, matériaux incohérents, géométrie instable
  • Nécessite : cadrage cohérent + légendes propres ; trigger généralement recommandé
Si vous n'êtes pas sûr, commencez l'Entraînement LoRA Qwen Image 2512 comme smoke test (exécution courte), puis fixez les étapes finales une fois que vous voyez à quelle vitesse votre dataset « s'imprime ».

2. Options d'environnement : AI Toolkit local vs AI Toolkit cloud sur RunComfy

Pour la Formation LoRA Qwen-Image-2512, vous pouvez utiliser les deux mêmes environnements que les autres workflows LoRA AI Toolkit :

  • AI Toolkit local sur votre propre GPU
  • AI Toolkit cloud sur RunComfy avec de grandes GPUs (H100 / H200)

L'interface d'entraînement, les paramètres et le workflow sont identiques dans les deux cas. La seule différence est où se trouve la GPU et combien de VRAM vous avez disponible.


2.1 AI Toolkit local (votre propre GPU)

Installez AI Toolkit depuis le dépôt GitHub AI Toolkit, puis lancez l'interface Web. L'entraînement local est un bon choix si :

  • Vous avez déjà une GPU NVIDIA (typiquement 24GB de VRAM ou plus pour un entraînement confortable à 1024)
  • Vous êtes à l'aise avec la gestion de CUDA, des drivers, de l'espace disque et des jobs de longue durée

2.2 AI Toolkit cloud sur RunComfy (H100 / H200)

Avec l'AI Toolkit cloud sur RunComfy, l'AI-Toolkit LoRA Qwen Image 2512 s'exécute entièrement dans le navigateur :

  • Vous n'installez rien localement
  • Vous ouvrez un navigateur, vous connectez et arrivez directement dans l'interface d'entraînement AI Toolkit
  • Vous pouvez sélectionner de grandes GPUs comme H100 (80GB) ou H200 (141GB) lors du lancement d'un job
  • Vous obtenez un workspace persistant où les datasets, configs et checkpoints sont sauvegardés et peuvent être réutilisés entre les sessions

Cet environnement est particulièrement utile pour l'Entraînement LoRA Qwen Image 2512 quand :

  • Vous voulez une itération plus rapide à 1024×1024 sans astuces mémoire agressives
  • Vous voulez expérimenter avec des rangs LoRA plus grands, plus de buckets ou des tailles de batch plus élevées
  • Vous ne voulez pas passer du temps à déboguer des problèmes CUDA ou de drivers

👉 Ouvrez ici : AI Toolkit cloud sur RunComfy


3. Matériel et exigences VRAM pour l'Entraînement LoRA Qwen Image 2512

3.1 Planification matérielle : niveaux de VRAM et quand ARA compte

Qwen 2512 est grand. Pour un Entraînement LoRA Qwen Image 2512 pratique, pensez en niveaux :

  • 24GB VRAM (courant) : faisable, mais vous avez typiquement besoin de quantification bas bit + ARA pour l'entraînement à 1024
  • 40–48GB VRAM : entraînement confortable à 1024 avec moins de compromis
  • 80GB+ VRAM : configuration la plus simple, itération la plus rapide, moins besoin d'optimiser la mémoire

Si vous êtes en dessous de 24GB : vous pouvez parfois entraîner à plus basse résolution (ex. 768) avec des tactiques mémoire agressives, mais attendez-vous à des exécutions plus lentes et une stabilité plus délicate.


3.2 ARA expliqué : ce que c'est, quand l'utiliser et comment cela affecte l'entraînement

Ce qu'est ARA

ARA (Accuracy Recovery Adapter) est un mécanisme de récupération utilisé avec une quantification très bas bit (couramment 3-bit ou 4-bit). Le modèle de base s'exécute quantifié pour économiser la VRAM, tandis qu'ARA aide à récupérer la précision perdue par la quantification.

Quand utiliser ARA pour Qwen 2512

Utilisez ARA si vous voulez l'un de ces éléments :

  • Entraîner Qwen 2512 à 1024×1024 sur 24GB
  • Moins de problèmes OOM
  • Convergence stable sans offload CPU lourd

Comment ARA affecte l'entraînement (compromis)

Avantages

  • Rend l'entraînement à 1024 viable sur les GPUs grand public
  • Améliore souvent la stabilité par rapport à la quantification « simple bas bit »

Inconvénients

  • Ajoute des parties mobiles supplémentaires (la compatibilité outils/versions compte)
  • Si la quantification échoue, vous devrez peut-être ajuster le mode de quantification ou mettre à jour votre environnement

Guide pratique pour l'Entraînement LoRA Qwen Image 2512

  • Commencez avec ARA 3-bit sur 24GB
  • Si des erreurs de quantification surviennent, essayez ARA 4-bit
  • Si les problèmes persistent, utilisez temporairement un mode de quantification de plus haute précision pour valider le reste de votre pipeline, puis revenez à ARA

4. Construire un dataset pour Qwen 2512 entraînement LoRA

4.1 Conception du dataset : quoi collecter pour chaque objectif

La plupart des échecs de l'Entraînement LoRA Qwen Image 2512 sont des échecs de dataset déguisés.

Règles universelles

  • Convertissez tout en RGB (évitez niveaux de gris/CMJN)
  • Supprimez les images cassées/corrompues
  • Évitez les quasi-doublons sauf si vous voulez intentionnellement que cette prise domine
  • Gardez la résolution cohérente quand possible (ou utilisez un petit ensemble de buckets)

Dataset personnage (15–50 images)

Visez :

  • 30–60% gros plans / tête et épaules
  • 30–50% plans moyens
  • 10–20% corps entier (optionnel mais aide à la généralisation vêtements/pose)

Gardez l'éclairage et les arrière-plans suffisamment variés pour que « l'identité » soit le signal cohérent.

Dataset style (30–200 images)

Visez :

  • Large variété de sujets (personnes, objets, environnements)
  • Composition et situations de couleur variées
  • Indices de style cohérents (pinceau, ombrage, palette, grain de film, etc.)

Les LoRAs de style dans le Qwen 2512 entraînement LoRA généralisent mieux quand le style est le seul facteur cohérent.

Dataset produit / concept (20–80 images)

Visez :

  • Angles et cadrage cohérents (face/côté/45 degrés)
  • Échelle du produit cohérente dans le cadre (évitez les différences de zoom extrêmes)
  • Multiples conditions d'éclairage si le matériau compte (mat vs brillant)
  • Arrière-plans propres aident au début (vous pouvez ajouter des scènes complexes après)

4.2 Légendes et triggers : modèles pour Personnage / Style / Produit

Vous pouvez entraîner Qwen 2512 avec trigger seul ou avec courtes légendes cohérentes.

4.2.1 La règle clé des légendes

Si une caractéristique apparaît dans de nombreuses images d'entraînement mais que vous ne la mentionnez jamais dans les légendes, le modèle peut apprendre que le trigger signifie implicitement cette caractéristique—il essaiera donc de la reproduire chaque fois que vous utilisez le trigger.

C'est une raison courante pour laquelle un LoRA « force » une coupe de cheveux, une tenue, une couleur d'arrière-plan ou un style de caméra chaque fois qu'il s'active.

4.2.2 Modèles de légendes pour personnage

Recommandé : utilisez un trigger. Gardez les légendes courtes.

  • Trigger seul :

    [trigger]

  • Courte légende :

    portrait photo of [trigger], studio lighting, sharp focus

    photo of [trigger], natural skin texture, realistic

Évitez de sur-décrire les parties du visage (yeux, nez, etc.). Laissez le modèle apprendre l'identité des images.

4.2.3 Modèles de légendes pour style

Le trigger est optionnel. Si vous en utilisez un, cela vous donne un interrupteur marche/arrêt.

  • Sans trigger, courte légende :

    in a watercolor illustration style, soft edges, pastel palette

  • Trigger + courte légende :

    [trigger], watercolor illustration, pastel palette, soft edges

Pour le style, les légendes doivent décrire les attributs de style, pas le contenu de la scène.

4.2.4 Modèles de légendes pour produit/concept

Le trigger est fortement recommandé pour le contrôle.

  • Simple :

    product photo of [trigger], clean background, studio lighting

  • Si le produit a des caractéristiques définissantes :

    product photo of [trigger], transparent bottle, blue label, studio lighting

Évitez les longues légendes. Pour les produits, une formulation cohérente améliore la stabilité de la géométrie.


5. Étape par étape : Entraînement LoRA Qwen Image 2512 dans AI Toolkit

Cette section suit le même flux que l'interface d'entraînement AI Toolkit. Créez d'abord vos datasets, puis configurez un nouveau job panneau par panneau.

5.1 Étape 0 – Choisissez votre objectif (Personnage vs Style vs Produit)

Avant de toucher aux paramètres, décidez ce que vous entraînez. Cela détermine les meilleurs paramètres par défaut pour les légendes, étapes et régularisation.

  • Personnage / ressemblance : cohérence d'identité la plus forte (visage/apparence). Plus grand risque de bleeding et surapprentissage rapide.
  • Style : look visuel cohérent (palette/texture/éclairage). Plus grand risque de devenir un « filtre universel ».
  • Produit / concept : identité d'objet stable et géométrie. Plus grand risque de dérive forme/matériau.

Si vous n'êtes pas sûr, exécutez d'abord un smoke test court (voir TRAINING + SAMPLE ci-dessous), puis fixez les étapes une fois que vous voyez à quelle vitesse votre dataset « s'imprime ».


5.2 Étape 1 – Créer des datasets dans AI Toolkit

Dans l'interface AI Toolkit, ouvrez l'onglet Datasets.

Créez au moins un dataset (exemple de nom) :

  • my_dataset_2512

Téléchargez vos images dans ce dataset.

Règles de qualité du dataset (tous objectifs)

  • Convertissez tout en RGB (évitez niveaux de gris/CMJN).
  • Supprimez les fichiers cassés/corrompus.
  • Évitez les quasi-doublons sauf si vous voulez intentionnellement que ce look/pose domine.

Tailles de dataset suggérées

  • Personnage : 15–50 images
  • Style : 30–200 images (plus de variété aide)
  • Produit : 20–80 images (cadrage cohérent aide)

5.3 Étape 2 – Créer un nouveau Job

Ouvrez l'onglet New Job. Configurez chaque panneau dans l'ordre où ils apparaissent.


5.3.1 Panneau JOB – Training Name, GPU ID, Trigger Word

  • Training Name

    Choisissez un nom clair que vous reconnaîtrez plus tard (ex. qwen_2512_character_v1, qwen_2512_style_v1, qwen_2512_product_v1).

  • GPU ID – sur une installation locale, choisissez la GPU de votre machine. Dans l'AI Toolkit cloud sur RunComfy, laissez GPU ID à la valeur par défaut. Le type de machine réel (H100 / H200) est choisi plus tard quand vous démarrez le job depuis la Training Queue.
  • Trigger Word

    Utilisation recommandée selon votre objectif :

    • Personnage : fortement recommandé (vous donne un contrôle marche/arrêt propre et aide à prévenir le bleeding).
    • Style : optionnel (utilisez-le si vous voulez un « style appelable » au lieu de toujours actif).
    • Produit : fortement recommandé (aide à garder le concept appris contrôlable).

Si vous utilisez un trigger, vos légendes peuvent inclure un placeholder comme [trigger] et suivre des modèles cohérents (voir ci-dessous).


5.3.2 Panneau MODEL – Model Architecture, Name or Path, Options

  • Model Architecture

    Sélectionnez Qwen-Image-2512.

  • Name or Path

    Utilisez Qwen/Qwen-Image-2512. Dans la plupart des builds AI Toolkit, sélectionner Qwen‑Image‑2512 remplira automatiquement cette valeur.

    Si vous la remplacez, utilisez le format ID de repo Hugging Face : org-or-user/model-name (optionnellement org-or-user/model-name@revision).

  • Options
    • Low VRAM : activez pour les GPUs 24GB lors de la Formation LoRA Qwen-Image-2512.
    • Layer Offloading : traitez cela comme dernier recours si vous avez encore des OOM après quantification, rang plus bas et moins de buckets.

Ordre d'offloading (meilleures pratiques) :

1) ARA + Low VRAM

2) Réduire le rang

3) Réduire les buckets de résolution

4) Réduire la fréquence/résolution d'échantillonnage

5) Puis activer Layer Offloading


5.3.3 Panneau QUANTIZATION – Transformer, Text Encoder

C'est là que la plupart des exécutions d'Entraînement LoRA Qwen Image 2512 sur 24GB réussissent ou échouent.

  • Baseline 24GB (recommandé pour l'entraînement à 1024)
    • Quantifiez le Transformer et utilisez ARA (3-bit d'abord, 4-bit si nécessaire).
    • Quantifiez le Text Encoder en float8 si vous avez besoin de marge VRAM supplémentaire.
  • GPUs à grande VRAM

    Vous pouvez réduire la quantification ou la désactiver pour simplicité si l'entraînement est stable et assez rapide.

Si la quantification échoue (erreurs dtype/quantize), traitez-le d'abord comme un problème de compatibilité d'outils :

  • basculez entre ARA 3-bit ↔ 4-bit,
  • mettez à jour AI Toolkit/dépendances,
  • ou utilisez temporairement un mode de plus haute précision pour valider le reste de votre configuration de job, puis revenez à ARA.

5.3.4 Panneau TARGET – Target Type, Linear Rank

  • Target Type : choisissez LoRA.
  • Linear Rank

    Points de départ recommandés par objectif :

    • Personnage : 32
    • Style : 16–32
    • Produit : 32

Règles générales :

  • Si OOM → réduisez le rang avant de toucher à autre chose.
  • Si underfitting → ajustez d'abord timesteps/steps/LR, puis envisagez d'augmenter le rang.
  • Si overfitting → réduisez répétitions/étapes, réduisez rang, ajoutez variété, envisagez DOP.

5.3.5 Panneau SAVE – Data Type, Save Every, Max Step Saves to Keep

  • Data Type : BF16 (valeur par défaut stable).
  • Save Every : 250 (bonne cadence de checkpoints).
  • Max Step Saves to Keep : 4 (garde l'utilisation disque sous contrôle).

5.3.6 Panneau TRAINING – hyperparamètres principaux

Ce sont les valeurs par défaut avec lesquelles la plupart des exécutions commencent :

  • Batch Size : 1
  • Gradient Accumulation : 1
  • Optimizer : AdamW8Bit
  • Learning Rate : 0.0001
  • Weight Decay : 0.0001
  • Timestep Type : Weighted
  • Timestep Bias : Balanced
  • Loss Type : Mean Squared Error
  • Use EMA : OFF (pour les LoRAs Qwen 2512)

Guide Timestep Type par objectif

  • Personnage : Weighted est une baseline sûre ; si la ressemblance ne se fixe pas ou semble incohérente, essayez un réglage de timestep plus favorable à l'identité (améliore souvent l'empreinte du personnage).
  • Style : Weighted fonctionne généralement ; augmentez la variété avant d'augmenter les étapes.
  • Produit : Weighted est une baseline stable ; si la géométrie dérive, réduisez d'abord les répétitions ou resserrez les légendes/trigger.
Steps : valeurs recommandées pour Personnage vs Style vs Produit

Les steps ne doivent pas être un seul nombre magique. Une méthode plus fiable sont les répétitions par image :

  • répétitions ≈ (steps × batch_size × grad_accum) ÷ num_images
  • avec batch_size=1 et grad_accum=1 : steps ≈ répétitions × num_images

Si vous augmentez gradient accumulation à 2 ou 4, réduisez les steps proportionnellement.

Répétitions par image pour personnage (ressemblance)

  • Smoke test : 30–50
  • Sweet spot typique : 50–90
  • Push haute ressemblance : 90–120 (surveillez le bleeding)

Exemples (batch=1, accum=1) :

Images 30–50 rép. 50–90 rép. 90–120 rép.
15 450–750 750–1350 1350–1800
25 750–1250 1250–2250 2250–3000
40 1200–2000 2000–3600 3600–4800

Répétitions par image pour style

  • Smoke test : 15–30
  • Sweet spot typique : 25–60
  • Limite supérieure : 60–80 (seulement avec datasets grands et divers)

Exemples (batch=1, accum=1) :

Images 15–30 rép. 25–60 rép. 60–80 rép.
30 450–900 750–1800 1800–2400
100 1500–3000 2500–6000 6000–8000

Répétitions par image pour produit / concept

  • Smoke test : 20–40
  • Sweet spot typique : 30–70
  • Push haute fidélité : 70–90 (seulement si forme/matériau est encore en underfitting)

Exemples (batch=1, accum=1) :

Images 20–40 rép. 30–70 rép. 70–90 rép.
20 400–800 600–1400 1400–1800
50 1000–2000 1500–3500 3500–4500
80 1600–3200 2400–5600 5600–7200

Optimisations Text Encoder (côté droit de TRAINING)
  • Unload TE

    Utilisez seulement pour les workflows trigger-seul où vous voulez minimiser l'utilisation VRAM et ne dépendez pas des légendes par image.

  • Cache Text Embeddings

    Activez seulement si :

    • les légendes sont statiques,
    • caption dropout est OFF,
    • DOP est OFF.

Si vous utilisez caption dropout ou DOP, gardez-le OFF.


Régularisation (côté droit de TRAINING)

Differential Output Preservation (DOP) peut aider à prévenir le bleeding.

  • Ce que fait DOP

    Encourage le LoRA à se comporter comme un delta contrôlé :

    • effet fort quand le trigger est présent,
    • effet minimal quand le trigger est absent.
  • Quand activer DOP
    • Personnage : généralement oui (surtout pour un comportement propre trigger marche/arrêt).
    • Style : optionnel (utilisez-le si vous voulez un style appelable).
    • Produit : recommandé si l'identité du produit se propage partout.

Règle de compatibilité clé pour l'Entraînement LoRA Qwen Image 2512

Si DOP est ON, ne cachez pas les text embeddings.

Blank Prompt Preservation

Laissez OFF sauf si vous avez une raison spécifique de préserver le comportement pour les prompts vides.


5.3.7 Panneau ADVANCED – Options vitesse et stabilité

  • Do Differential Guidance

    Réglage optionnel pour augmenter le « signal d'apprentissage ». Si vous l'activez, commencez conservativement (valeur moyenne) et augmentez seulement si l'apprentissage semble trop lent.

  • Latent caching

    Dans la section DATASETS vous pouvez activer Cache Latents (recommandé pour la vitesse si vous avez assez de disque et voulez des itérations plus rapides).


5.3.8 Panneau DATASETS – Target Dataset, Default Caption, Settings, Resolutions

Dans Dataset 1 :

  • Target Dataset

    Choisissez le dataset que vous avez téléchargé (ex. my_dataset_2512).

  • Default Caption

    Choisissez selon votre stratégie de légendes :

    • trigger seul : laissez vide ou juste [trigger]
    • courtes légendes : utilisez un modèle cohérent pour tout le dataset

Modèles de légendes :

  • Personnage : portrait photo of [trigger], studio lighting, sharp focus
  • Style : [trigger], watercolor illustration, pastel palette, soft edges (trigger optionnel)
  • Produit : product photo of [trigger], clean background, studio lighting

Règle clé des légendes

Si une caractéristique apparaît dans de nombreuses images d'entraînement mais que vous ne la mentionnez jamais dans les légendes, le modèle peut apprendre que le trigger signifie implicitement cette caractéristique—il essaiera donc de la reproduire chaque fois que vous utilisez le trigger.

  • Caption Dropout Rate

    0.05 est un point de départ courant quand vous ne cachez pas les text embeddings.

    Si vous activez le cache des text embeddings, mettez dropout à 0.

  • Settings
    • Cache Latents : recommandé pour la vitesse (surtout sur grands datasets).
    • Is Regularization : utilisez seulement si ce dataset est un dataset de régularisation.
    • Flip X / Flip Y : OFF par défaut. Activez seulement si les retournements miroir sont sûrs pour votre sujet/produit (note : retourner peut casser texte/logos).
  • Resolutions

    Commencez simple :

    • Personnage : 1024 seulement (empreinte propre), ajoutez 768 plus tard si nécessaire
    • Style : 768 + 1024 si le dataset mélange les tailles
    • Produit : 1024 seulement au début, ajoutez un autre bucket une fois que la forme est stable

5.3.9 Panneau SAMPLE – aperçus d'entraînement

L'échantillonnage est votre système d'alerte précoce pour l'Entraînement LoRA Qwen Image 2512.

Valeurs par défaut recommandées :

  • Sample Every : 250
  • Sampler : FlowMatch (correspond à l'entraînement)
  • Guidance Scale : 4
  • Sample Steps : 25
  • Width/Height : correspond à votre bucket principal d'entraînement (souvent 1024×1024)
  • Seed : 42
  • Walk Seed : optionnel (plus de variété dans les aperçus)

Signaux d'arrêt précoce

  • Personnage : la ressemblance atteint un pic puis se surcuit ; le bleeding d'identité commence ; la fidélité au prompt baisse.
  • Style : devient un « filtre universel » ; des textures répétitives apparaissent ; les prompts ne sont plus respectés.
  • Produit : la géométrie se déforme après amélioration ; les labels/logos deviennent trop assertifs ; les matériaux se dégradent.

5.4 Étape 3 – Lancer l'entraînement et surveiller

Après avoir configuré le job, allez dans la Training Queue, sélectionnez votre job et démarrez l'entraînement.

Surveillez deux choses :

  • Utilisation VRAM (surtout avec GPUs 24GB)
  • Images échantillons (elles vous disent quand arrêter et quel checkpoint est le meilleur)

La plupart des utilisateurs obtiennent de meilleurs résultats de Qwen 2512 entraînement LoRA en sélectionnant le meilleur checkpoint de l'échantillonnage (souvent plus tôt) plutôt qu'en terminant toujours les étapes maximales.


6. Configurations recommandées d'Entraînement LoRA Qwen Image 2512 par niveau de VRAM

Qwen 2512 est grand. Pour un Qwen 2512 entraînement LoRA pratique, pensez en niveaux :

  • 24GB VRAM (courant) : faisable, mais vous avez typiquement besoin de quantification bas bit + ARA pour l'entraînement à 1024
  • 40–48GB VRAM : entraînement confortable à 1024 avec moins de compromis
  • 80GB+ VRAM : configuration la plus simple, itération la plus rapide, moins besoin d'optimiser la mémoire

Si vous êtes en dessous de 24GB : vous pouvez parfois entraîner à plus basse résolution (ex. 768) avec des tactiques mémoire agressives, mais attendez-vous à des exécutions plus lentes et une stabilité plus délicate.

Utilisez ARA si vous voulez l'un de ces éléments :

  • Entraîner Qwen 2512 à 1024×1024 sur 24GB
  • Moins de problèmes OOM
  • Convergence stable sans offload CPU lourd

7. Problèmes courants d'AI-Toolkit LoRA Qwen Image 2512 et comment les résoudre

7.1 La quantification échoue au démarrage (ARA / mismatch dtype sur Qwen-Image-2512)

Symptômes

  • L'entraînement s'arrête immédiatement pendant le démarrage.
  • Erreurs comme « Failed to quantize … Expected dtype … ».

Pourquoi cela arrive

  • Le mode ARA ou quantification sélectionné n'est pas totalement compatible avec le build actuel d'AI Toolkit ou l'environnement.

Solution (ordre le plus rapide)

  1. Mettez à jour AI Toolkit et les dépendances vers une version connue pour supporter Qwen-Image-2512.
  2. Changez de mode ARA :
    • Si ARA 3-bit échoue → essayez ARA 4-bit.
    • Si ARA 4-bit échoue → essayez ARA 3-bit.
  3. Utilisez temporairement un mode de quantification de plus haute précision pour confirmer que le reste de la configuration d'entraînement fonctionne, puis revenez à ARA.

7.2 L'identité du personnage devient générique quand batch size > 1

Symptômes

  • Les échantillons précoces semblent prometteurs, mais le LoRA final semble « moyenné ».
  • Le personnage ne ressemble plus à une personne spécifique.

Pourquoi cela arrive

  • Les batches plus grands peuvent encourager la sur-généralisation dans la Formation LoRA Qwen-Image-2512 pour les personnages.

Solution

  • Préférez Batch Size = 1 et Gradient Accumulation = 1.
  • Si vous avez besoin d'un batch effectif plus grand, augmentez Gradient Accumulation au lieu de Batch Size et surveillez les échantillons de près.

7.3 La ressemblance ne « se fixe jamais » (mauvais comportement de timestep)

Symptômes

  • Les vêtements, la pose ou l'ambiance sont corrects, mais le visage ou l'identité est incohérent.
  • Les résultats varient beaucoup entre les prompts.

Pourquoi cela arrive

  • Pour les personnages réalistes, Qwen-Image-2512 répond souvent mieux au comportement timestep de type sigmoid qu'aux timesteps pondérés.

Solution

  • Pour les LoRAs personnage (et souvent produit), changez Timestep Type à sigmoid.
  • Évaluez les échantillons tôt ; n'attendez pas la fin de l'entraînement.

7.4 Les visages deviennent « frits » ou cireux aux checkpoints tardifs

Symptômes

  • Un checkpoint a l'air super, mais les suivants semblent sur-accentués, plastiques ou instables.
  • Le bleeding d'identité augmente rapidement.

Pourquoi cela arrive

  • Les LoRAs de personnage dans l'Entraînement LoRA Qwen Image 2512 peuvent se dégrader rapidement une fois que vous dépassez environ ~100 répétitions par image.

Solution

  1. Sélectionnez un checkpoint plus tôt (souvent la meilleure solution).
  2. Réduisez le total de répétitions/étapes et restez plus proche de la plage recommandée.
  3. Si nécessaire, réduisez le rang LoRA ou ajoutez plus de variété au dataset avant d'augmenter les étapes.

7.5 Le LoRA de style est incohérent ou agit comme un « filtre universel »

Symptômes

  • Parfois le style apparaît, parfois non.
  • Ou il écrase toujours le contenu du prompt.

Pourquoi cela arrive

  • Les LoRAs de style ont souvent besoin de plus de largeur de dataset et d'un entraînement global plus long que les LoRAs de personnage.

Solution

  • Ajoutez plus d'exemples de style diversifiés (personnes, objets, environnements).
  • Gardez les répétitions par image raisonnables et augmentez le signal total via plus d'images plutôt que des répétitions extrêmes.
  • Échantillonnez souvent pour éviter que le style ne devienne un filtre global brutal.

8. Utiliser votre LoRA Qwen 2512 après l'entraînement

Une fois l'entraînement terminé, vous pouvez utiliser votre LoRA Qwen 2512 de deux façons simples :

  • Model playground – ouvrez le Qwen‑Image‑2512 LoRA playground et collez l'URL de votre LoRA entraîné pour voir rapidement comment il se comporte sur le modèle de base.
  • Workflows ComfyUI – démarrez une instance ComfyUI et construisez votre propre workflow ou chargez-en un comme Qwen Image 2512, ajoutez un nœud chargeur LoRA, mettez-y votre LoRA, et ajustez le poids LoRA et autres paramètres pour un contrôle plus détaillé.

Tester votre LoRA Qwen 2512 en inférence

Tests personnage

  • Prompt portrait gros plan
  • Prompt plan moyen
  • Prompt corps entier

Tests style

  • Multiples catégories de sujets (humain/objet/environnement)

Tests produit

  • Prompt studio propre + un prompt de scène complexe

Plus de guides d'entraînement LoRA avec AI Toolkit

Ready to start training?