AI Toolkit LoRA Training Guides

Entraînement LoRA Wan 2.2 T2V 14B Text-to-Video avec Ostris AI Toolkit

Cet article montre comment entraîner des LoRAs Wan 2.2 T2V 14B (text-to-video) avec Ostris AI Toolkit, des GPUs 24GB jusqu’aux serveurs cloud H100/H200. Il explique les experts high-noise et low-noise de Wan, la création de datasets T2V pour personnage, style et mouvement, et le réglage de Multi-stage, Timestep Type/Bias, quantification ARA 4-bit et nombre de frames pour des vidéos longues et stables.

Train Diffusion Models with Ostris AI Toolkit

Faites défiler horizontalement pour voir le formulaire complet

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Wan 2.2 T2V 14B Entraînement LoRA texte vers vidéo vous permet de générer des clips riches de 5 secondes avec un mouvement fort, des détails et un contrôle de caméra à partir de simples prompts textuels. À la fin de ce guide, vous serez capable de :

  • Entraîner des Wan 2.2 T2V 14B LoRAs avec AI Toolkit pour des personnages cohérents, des styles marqués et des comportements de mouvement/caméra.
  • Choisir entre l'entraînement local sur un GPU NVIDIA 24GB+ (avec quantification ARA 4 bits) et l'entraînement cloud sur GPUs H100/H200, et comprendre ce que chaque niveau peut gérer de manière réaliste.
  • Comprendre comment les experts high-noise et low-noise de Wan interagissent avec Multi-stage, Timestep Type/Bias, Num Frames et la résolution, pour contrôler où le LoRA injecte des changements.
  • Configurer AI Toolkit panneau par panneau (JOB, MODEL, QUANTIZATION, MULTISTAGE, TARGET, SAVE, TRAINING, DATASETS, SAMPLE) pour adapter la même recette à différents objectifs LoRA et matériels.
Cet article fait partie de la série d'entraînement LoRA AI Toolkit. Si vous débutez avec Ostris AI Toolkit, commencez par la présentation de l'entraînement LoRA AI Toolkit avant de plonger dans ce guide.

Table des matières


1. Vue d'ensemble de Wan 2.2 T2V 14B pour l'entraînement LoRA

Wan 2.2 est une famille de modèles ouverts texte/vidéo avec trois variantes principales : un modèle texte/image vers vidéo de 5B et deux modèles 14B (T2V et I2V). (Wan 2.2 GitHub). Ce guide cible le modèle 14B texte vers vidéo Wan2.2‑T2V‑A14B.

Architecture dual-transformer "high noise / low noise"

Sous le capot, Wan 2.2 14B utilise un backbone Mixture-of-Experts texte vers vidéo pour le Wan 2.2 T2V 14B Entraînement LoRA texte vers vidéo :

  • High-noise : transformer de ~14B paramètres qui gère la partie très bruitée du début du débruitage (composition grossière, mouvement global, caméra).
  • Low-noise : transformer de ~14B paramètres qui affine les frames relativement propres vers la fin (détails, texture, identité).

Ensemble, le modèle a environ 27B paramètres, mais à chaque étape de diffusion, seul un expert (≈14B paramètres) est actif. Les timesteps sont divisés autour de t ≈ 875 sur 1000 dans le schedule de bruit : environ 1000→875 vont à l'expert high-noise et 875→0 vont à l'expert low-noise, avec un décalage interne pour maintenir une couverture équilibrée sur la trajectoire.

Pour apprendre comment entraîner un LoRA pour Wan 2.2, cela signifie :

  • Vous voudrez généralement entraîner les deux experts pour que votre LoRA fonctionne sur toute la chaîne de débruitage – composition/mouvement et détails/identité.
  • Sur les plus petits GPUs, il est coûteux de garder les deux transformers en VRAM et de les échanger à chaque étape, c'est pourquoi AI Toolkit expose un panneau Multi-stage et des options Low VRAM + quantification ARA + "Switch Every N steps" pour échanger vitesse contre VRAM.

2. Où entraîner les Wan 2.2 T2V LoRAs (local vs cloud)

Vous pouvez suivre ce tutoriel dans deux environnements ; l'interface AI Toolkit est la même.

Option A – AI Toolkit local (votre propre GPU)

  • Installez AI Toolkit depuis GitHub dépôt AI Toolkit et lancez l'interface web. C'est le mieux si vous êtes à l'aise avec CUDA/drivers et avez déjà un GPU NVIDIA 24GB+ (RTX 4090 / 5090 / A6000, etc.).
  • Parce que Wan 2.2 14B est lourd, les Macs et GPUs sous 24GB ne sont généralement adaptés que pour de petits LoRAs image uniquement à résolution 512 (Num Frames = 1). Pour un sérieux Wan 2.2 T2V 14B Entraînement LoRA texte vers vidéo, vous avez vraiment besoin de 24GB+ et d'une quantification agressive.

Option B – AI Toolkit cloud sur RunComfy (H100 / H200)

  • Ouvrez le AI Toolkit cloud sur RunComfy et connectez-vous. Vous arrivez directement dans l'interface AI Toolkit avec toutes les dépendances préinstallées.
  • Pour le Wan 2.2 T2V 14B Entraînement LoRA texte vers vidéo, choisissez une machine H100 (80GB) ou H200 (141GB) quand vous démarrez le job pour pouvoir entraîner des vidéos longues à plus haute résolution.

Avantages de l'utilisation du cloud :

  • Zéro configuration – CUDA, drivers et poids du modèle sont déjà configurés.
  • VRAM énorme – vous pouvez exécuter des LoRAs de 33–81 frames à résolution 768–1024 avec des tailles de batch raisonnables sans combattre les erreurs OOM.
  • Workspace persistant – vos datasets, jobs et checkpoints LoRA vivent dans votre compte RunComfy, vous pouvez donc reprendre ou itérer plus tard.

3. Attentes matériel et VRAM pour les Wan 2.2 T2V LoRAs

Wan 2.2 14B est beaucoup plus lourd que les modèles d'image ou Wan 2.1 :

  • Les workflows T2V officiels à 1024×1024 et 81 frames peuvent causer des OOM même sur des GPUs grand public haut de gamme si vous ne quantifiez pas.
  • L'entraînement LoRA longue séquence à 1024² / 81 frames peut prendre de nombreuses heures même sur des cartes serveur 48–96GB, surtout à 2–4k étapes.
  • La configuration exemple officielle AI Toolkit pour ce modèle (train_lora_wan22_14b_24gb.yaml) est optimisée pour GPUs 24GB et utilise la quantification ARA 4 bits avec Num Frames = 1 (image uniquement) comme valeur par défaut sécurisée.

Un modèle mental raisonnable par niveau de VRAM pour le Fine-tuning LoRA Wan 2.2 T2V :

Niveau GPUs exemples Ce qui est confortable
24GB "grand public" 4090 / 5090 / A6000 LoRAs image uniquement (Num Frames = 1) à 512–768 px, avec ARA 4 bits et Low VRAM = ON. Les LoRAs vidéo courts (33–41 frames @ 512) sont possibles mais lents.
48–64GB "prosumer" dual 4090, certains GPUs serveur LoRAs vidéo 33–41 frames à 768–1024 px avec ARA 4 bits et offloading minimal. Bon équilibre vitesse, capacité et qualité.
80–141GB "cloud" H100 / H200 sur RunComfy Entraînement 81 frames à 1024², Batch Size 1–2, peu ou pas d'offloading, avec float8 ou ARA 4 bits. Idéal pour les LoRAs vidéo longue séquence sérieux.

4. Construction d'un dataset Wan 2.2 T2V LoRA

Les Wan T2V LoRAs peuvent être entraînés sur :

  • Images – traitées comme des "vidéos" de 1 frame (Num Frames = 1).
  • Clips vidéo – la vraie force du modèle T2V ; vous travaillerez généralement avec des clips courts de 3–8s.

4.1 Décidez quel type de LoRA vous entraînez

Pensez en termes de trois grandes familles et concevez votre dataset en conséquence :

  1. LoRA de personnage (visage / corps / tenue)

    Objectif : garder les capacités générales de Wan mais injecter une nouvelle personne, avatar ou tenue que vous pouvez adresser via un trigger. Utilisez 10–30 images de haute qualité ou clips courts de la même personne, avec des poses, arrière-plans et éclairages variés. Évitez les filtres lourds ou la stylisation qui combat le modèle de base. Incluez un token trigger unique dans les légendes (ex. "zxq-person"), plus une description riche des vêtements, éclairage et cadrage pour que le LoRA apprenne le concept proprement.

  2. LoRA de style (look & feel)

    Objectif : garder le contenu flexible mais imposer un style visuel (pellicule, look anime, pictural, etc.). Utilisez 10–40 images ou clips qui partagent le même look – couleurs cohérentes, contraste, sensation de caméra – mais avec des sujets et scènes divers. Les légendes doivent insister sur les mots de style, ex. "peinture à l'huile, empâtement épais, éclairage orange chaud, haut contraste" plutôt que d'énumérer des objets exacts.

  3. LoRA de mouvement / caméra

    Objectif : enseigner à Wan des comportements temporels (orbites, panoramiques, dollies, boucles type sprite, etc.). Utilisez 10–30 clips courts (~5s) qui montrent le mouvement cible, idéalement le même type de mouvement à travers différents sujets et environnements. Les légendes doivent mentionner explicitement le mot-clé de mouvement, comme "orbite 180 autour du sujet", "animation d'attaque en défilement latéral", ou "dolly zoom lent vers le personnage" pour que le modèle sache quel comportement vous intéresse.


4.2 Résolution et ratio d'aspect

Wan 2.2 14B T2V est construit pour des frames classe carrée 1024×1024. Les exemples officiels utilisent 1024² ou des variantes proches, avec bucketing interne pour les résolutions plus basses.

Pour le Wan 2.2 T2V 14B Entraînement LoRA texte vers vidéo :

  • Sur GPUs 24GB, préférez les buckets de résolution 512 ou 768 et décochez 1024 dans le panneau DATASETS pour économiser la VRAM.
  • Sur GPUs 48GB+ ou H100/H200, vous pouvez activer les buckets 768 et 1024 pour obtenir des résultats plus nets, surtout pour les LoRAs de personnage et de style.

AI Toolkit réduira l'échelle et classera vos vidéos dans les résolutions sélectionnées ; vous devez principalement vous assurer que vos clips sources sont de haute qualité et ne sont pas en letterbox avec d'énormes barres noires.


4.3 Durée des clips vidéo et Num Frames

Wan 2.2 a été pré-entraîné sur environ des clips de 5 secondes à 16 FPS, donnant environ 81 frames par séquence d'entraînement (suivant un pattern 4k+1).

Le champ Num Frames d'AI Toolkit dans le panneau DATASETS contrôle combien de frames sont échantillonnées de chaque vidéo :

  • Pour les images, définissez Num Frames = 1 – chaque image est traitée comme une vidéo de 1 frame.
  • Pour les vidéos, de bons choix sont :
    • 81 – "fidélité complète" ; correspond au pré-entraînement mais est très gourmand en VRAM.
    • 41 – environ la moitié des frames et approximativement la moitié de la VRAM/temps ; un bon compromis pour les plus gros GPUs.
    • 33 – une option agressive et économe en VRAM pour l'entraînement local 24GB combiné avec une résolution de 512 px.

Les frames sont échantillonnées uniformément sur chaque clip, donc vous n'avez pas besoin que chaque vidéo fasse exactement 5 secondes. Ce qui compte est que le mouvement utile occupe le clip : coupez les longues intros/outros statiques pour que presque chaque frame échantillonnée contienne un signal de mouvement ou d'identité significatif.

Les nombres de frames sont typiquement choisis pour suivre le pattern "4n+1" spécifique à Wan (ex. 9, 13, 17, 21, 33, 41, 81). Respecter ces valeurs tend à produire un comportement temporel plus stable car cela correspond au windowing interne du modèle.


4.4 Stratégie de légendes

Les légendes par clip importent plus pour les LoRAs vidéo que pour les simples LoRAs image, surtout pour le mouvement et le style.

  • Pour les LoRAs image / personnage, visez 10–30 images ou clips courts, chacun avec une légende incluant votre trigger plus une description, par exemple :

    "portrait de [trigger], plan moyen, éclairage studio, portant une veste en cuir, objectif 35mm".

    Au moment de l'entraînement, AI Toolkit remplacera [trigger] par le Trigger Word réel du panneau JOB si vous utilisez ce pattern.

  • Pour les LoRAs de mouvement, assurez-vous que le mot de mouvement apparaît et est cohérent entre les clips, ex. :

    "orbite 180 autour d'un château médiéval",

    "animation d'attaque en défilement latéral d'un ours en peluche brandissant une épée".

Pour l'instant, assurez-vous simplement que chaque image ou clip a soit une bonne légende .txt par fichier, soit que vous définirez une Default Caption utile dans le panneau DATASETS. Dans la section TRAINING, nous déciderons si nous fonctionnons en mode basé sur les légendes (utilisant ces légendes directement) ou en mode Trigger Word uniquement sur les configurations haute VRAM.


5. Étape par étape : entraîner un Wan 2.2 T2V 14B LoRA dans AI Toolkit

Dans cette section, nous parcourons panneau par panneau l'interface AI Toolkit pour un LoRA vidéo sur Wan 2.2 T2V 14B.

Hypothèses de base pour ce guide :

  • Vous entraînez un LoRA vidéo (Num Frames = 33) à résolution 512 ou 768.
  • Vous êtes sur un GPU 24–32GB ou exécutez une configuration équivalente sur RunComfy avec des astuces Low VRAM.
  • Votre dataset est un dossier dataset Wan T2V avec vidéos + légendes.

Plus tard, nous ajouterons des notes pour H100/H200 et les niveaux VRAM plus élevés.


5.1 Panneau JOB – métadonnées de base du job

Définissez les métadonnées de haut niveau pour retrouver votre job plus tard :

  • Job Name – un nom concis comme wan22_t2v_char_zxq_v1 ou wan22_t2v_style_neon_v1. Incluez modèle, tâche et un identifiant court.
  • Output Directory – où AI Toolkit écrira les checkpoints et logs, ex. ./output/wan22_t2v_char_zxq_v1.
  • GPU ID – sur une installation locale, cela pointe vers votre GPU physique. Sur le cloud AI Toolkit RunComfy, vous pouvez laisser la valeur par défaut ; le type de machine réel (H100/H200) est choisi plus tard dans la Training Queue.
  • Trigger Word (optionnel) – si vous prévoyez d'utiliser un workflow trigger word, définissez-le sur votre token (par exemple zxqperson). Dans les légendes, vous pouvez écrire [trigger] et AI Toolkit le remplacera par votre Trigger Word au chargement. Gardez-le court et unique pour qu'il ne entre pas en collision avec des tokens existants.

5.2 Panneau MODEL – modèle de base Wan 2.2 T2V

Configurez le modèle de base et les options liées à la VRAM pour le ComfyUI Wan 2.2 LoRA texte vidéo :

  • Model Architecture – choisissez Wan 2.2 T2V 14B (ou étiquette équivalente dans votre build).
  • Name or Path – l'id modèle Hugging Face (repo id) pour le checkpoint de base, par exemple : ai-toolkit/Wan2.2-T2V-A14B-Diffusers-bf16.

    Dans la plupart des builds AI Toolkit, sélectionner Wan 2.2 T2V 14B remplira automatiquement cette valeur ; laissez-la telle quelle sauf si vous avez une raison de la changer.

    Si vous la remplacez, utilisez le format repo id Hugging Face : org-or-user/model-name (optionnellement org-or-user/model-name@revision).

  • Low VRAM – sur GPUs 24–32GB, définissez Low VRAM = ON pour qu'AI Toolkit puisse utiliser des stratégies extra de checkpointing/offload qui rendent l'entraînement possible. Sur H100/H200 ou 48GB+, vous pouvez définir Low VRAM = OFF pour une vitesse maximale.
  • Layer Offloading – si votre build expose cela, vous pouvez le laisser OFF sur 24GB+ sauf si vous avez encore des OOM. Sur les configurations extrêmement serrées, cela peut streamer certaines couches vers la RAM CPU, au prix d'étapes notablement plus lentes.

5.3 Panneau QUANTIZATION – ARA 4 bits + text encoder float8

La quantification est ce qui rend le Wan 2.2 T2V 14B Entraînement LoRA texte vers vidéo praticable sur du matériel grand public.

  • Transformer – définissez sur 4bit with ARA. C'est une quantification 4 bits avec un Accuracy Recovery Adapter ; l'utilisation VRAM est proche du 4 bits pur, mais la qualité est beaucoup plus proche de bf16.
  • Text Encoder – définissez sur float8 (ou qfloat8). Cela réduit la VRAM et le calcul pour le text encoder avec un impact négligeable sur la qualité d'entraînement LoRA.

Sur GPUs 24–32GB, cette combinaison est la raison principale pour laquelle l'entraînement LoRA vidéo est possible du tout.

Sur H100/H200 / GPUs 48GB+ :

  • Vous pouvez garder 4bit with ARA et dépenser la VRAM supplémentaire sur une résolution plus haute, plus de frames, ou un rank LoRA plus élevé, ce qui donne souvent un meilleur retour.
  • Si vous préférez une pile plus simple, vous pouvez basculer le Transformer sur une option float8 pure tout en gardant le Text Encoder à float8. Revenir entièrement au bf16 partout n'est généralement pas nécessaire.

5.4 Panneau MULTISTAGE – entraîner les experts high-noise et low-noise

Ce panneau expose l'architecture dual-expert (transformer high-noise vs low-noise) et comment les étapes d'entraînement sont réparties entre eux.

  • Stages to Train – pour la plupart des LoRAs, définissez High Noise = ON et Low Noise = ON. Cela signifie que les deux experts sont mis à jour pendant l'entraînement pour que le LoRA affecte à la fois la composition/mouvement précoce et les détails/identité tardifs.
  • Switch Every – sur GPUs 24–32GB avec Low VRAM = ON, définissez Switch Every = 10. Cela dit à AI Toolkit combien d'étapes passer sur un expert avant de basculer vers l'autre. Par exemple, avec Steps = 3000 :
    • Étapes 1–10 → expert high-noise
    • Étapes 11–20 → expert low-noise
    • …répéter jusqu'à la fin de l'entraînement.

Pourquoi c'est important :

  • Avec Low VRAM = ON, AI Toolkit garde typiquement un seul expert en mémoire GPU à la fois. Quand il bascule, il décharge un transformer de ~14B paramètres et charge l'autre.
  • Si vous définissez Switch Every = 1, vous forcez un chargement/déchargement de poids énormes à chaque étape, ce qui est extrêmement lent.
  • Avec Switch Every = 10, vous obtenez toujours approximativement une couverture 50/50 high/low noise, mais ne basculez que toutes les 10 étapes au lieu de chaque étape, ce qui est bien plus efficace.

Conseils par type de LoRA :

  • Pour les LoRAs vidéo de personnage ou de style, gardez les deux High Noise et Low Noise ON ; composition et détails comptent tous les deux.
  • Pour les LoRAs de mouvement / caméra, le high noise est crucial pour le mouvement global. Commencez avec les deux étapes ON puis expérimentez plus tard avec l'entraînement high-noise uniquement si vous voulez un comportement très ciblé.

Sur H100/H200 :

  • Vous pouvez définir Switch Every = 1, puisque les deux experts peuvent rester résidents en VRAM et l'overhead de bascule est négligeable.

5.5 Panneau TARGET – rank et capacité du LoRA

Ce panneau contrôle quel type d'adaptateur vous entraînez et combien de capacité il a.

  • Target Type – définissez sur LoRA.
  • Linear Rank – une bonne valeur par défaut est 16 pour Wan 2.2 T2V :
    • Rank 16 garde le LoRA petit et rapide à entraîner.
    • C'est généralement suffisant pour les LoRAs de personnage, style et mouvement à résolution 512–768.

Si vous avez un dataset très divers (beaucoup de sujets, styles ou mouvements) et assez de VRAM :

  • Vous pouvez augmenter Linear Rank à 32 pour donner au LoRA plus de pouvoir expressif.
  • Évitez d'aller au-delà de 64 sauf si vous savez que vous avez besoin de tant de capacité ; les ranks très élevés peuvent sur-apprendre et rendre le LoRA plus difficile à contrôler.

Sur H100/H200, commencer à Rank 16 et monter à 32 pour des LoRAs complexes tout-en-un est une plage raisonnable.


5.6 Panneau SAVE – planning des checkpoints

Configurez la fréquence de sauvegarde des checkpoints LoRA pendant l'entraînement :

  • Data Type – définissez sur BF16. Cela correspond à la façon dont Wan 2.2 est généralement exécuté et est stable pour les poids LoRA.
  • Save Every – définissez sur 250 étapes. Pour un run de 3000 étapes, cela donne 12 checkpoints répartis sur l'entraînement.
  • Max Step Saves to Keep – définissez sur 4 ou 6 pour ne pas perdre les checkpoints précoces qui pourraient être meilleurs que le dernier.

En pratique, vous utilisez rarement le tout dernier checkpoint ; beaucoup d'utilisateurs préfèrent quelque chose dans la plage 2000–3000 étapes après avoir comparé les échantillons.

Sur H100/H200 :

  • Si vous exécutez très longtemps (ex. 5000–6000 étapes pour un gros dataset), gardez Save Every = 250 et augmentez Max Step Saves to Keep, ou définissez Save Every = 500 pour limiter le nombre de checkpoints.

5.7 Panneau TRAINING – hyperparamètres core et mode text encoder

Nous définissons maintenant les hyperparamètres d'entraînement core, puis choisissons comment gérer le text encoder et la régularisation optionnelle.

5.7.1 Paramètres d'entraînement core

Pour un LoRA vidéo polyvalent sur Wan 2.2 T2V :

  • Batch Size – sur 24–32GB, définissez Batch Size = 1. Pour T2V, cela consomme déjà beaucoup de VRAM. Sur H100/H200, vous pouvez pousser à 2 si vous avez assez de marge.
  • Gradient Accumulation – commencez avec 1. Si la VRAM est serrée mais que vous voulez un batch effectif plus grand, vous pouvez le définir à 2–4 ; la taille de batch effective est Batch Size × Gradient Accumulation.
  • Steps – plages typiques :
    • Petit LoRA de mouvement focalisé avec ~10–20 clips : 1500–2500 étapes.
    • LoRA de personnage ou style avec 20–50 clips : 2000–3000 étapes.
    • Les très gros datasets peuvent aller plus haut, mais il est souvent mieux d'améliorer la qualité des données que d'ajouter plus d'étapes.
  • Optimizer – définissez Optimizer = AdamW8Bit. Adam 8 bits réduit significativement la VRAM tout en se comportant de façon similaire à AdamW standard.
  • Learning Rate – définissez Learning Rate = 0.0001 comme valeur par défaut solide. Si l'entraînement semble instable ou les échantillons oscillent sauvagement entre les étapes, baissez à 0.00005. Si l'entraînement semble plafonner tôt, envisagez d'augmenter les étapes plutôt que de pousser le Learning Rate plus haut.
  • Loss Type – gardez Mean Squared Error (MSE). Cela correspond à la perte d'entraînement originale de Wan et est le choix standard.

Wan 2.2 utilise un flow-matching noise scheduler, qu'AI Toolkit gère en interne. Dans le panneau SAMPLE, vous devriez aussi utiliser un sampler compatible FlowMatch pour que les aperçus correspondent à la configuration d'entraînement.


5.7.2 Timestep Type et Timestep Bias – où le LoRA se concentre

Ces deux champs contrôlent quels timesteps sont mis en avant pendant l'entraînement et comment les mises à jour sont distribuées sur la chaîne de diffusion.

  • Timestep Type – contrôle la distribution des timesteps :
    • Linear – échantillonne les timesteps uniformément sur le schedule ; une valeur par défaut neutre et sûre.
    • Sigmoid / autres patterns formés – biaise l'entraînement vers le bruit moyen/bas ; parfois utile pour les personnages et styles détaillés.
    • Shift / Weighted – accentue davantage des régions spécifiques du schedule de bruit, souvent combiné avec Timestep Bias.
  • Timestep Bias – dit à AI Toolkit quelle partie de la trajectoire accentuer :
    • Balanced – les mises à jour se répartissent à peu près également entre high et low noise.
    • Favor High Noise – biaise vers les étapes précoces et bruitées, accentuant composition, layout et mouvement global.
    • Favor Low Noise – biaise vers les étapes tardives et propres, accentuant identité, texture et micro-détails.

Combinaisons recommandées pour le Fine-tuning LoRA Wan 2.2 T2V :

  • LoRA de mouvement / caméra – définissez Timestep Type = Linear et Timestep Bias = Balanced comme valeur par défaut sûre.

    Si vous voulez un LoRA de mouvement pur qui fixe vraiment les trajectoires de caméra, vous pouvez pousser vers Timestep Bias = Favor High Noise, puisque l'expert high-noise est là où Wan 2.2 décide du layout et du mouvement.

  • LoRA de style – définissez Timestep Type = Linear ou Shift et Timestep Bias = Favor High Noise.

    Le style, l'étalonnage couleur et le "film stock" vivent principalement dans la partie high-noise / précoce de la trajectoire, donc favoriser high noise permet au LoRA de réécrire le ton global tout en laissant les détails de fin d'étape principalement au modèle de base.

  • LoRA de personnage – définissez Timestep Type = Sigmoid (ou Linear) et Timestep Bias = Balanced.

    L'identité et la ressemblance s'appuient davantage sur l'expert low-noise, mais vous voulez toujours une certaine influence sur la composition et l'éclairage. Pour les LoRAs très axés sur l'identité, vous pouvez expérimenter en favorisant légèrement les étapes low-noise, mais Balanced est la valeur par défaut la plus sûre.


5.7.3 EMA (Exponential Moving Average)

  • Use EMA – pour les LoRAs, EMA est optionnel et ajoute un overhead supplémentaire. La plupart des utilisateurs le laissent OFF pour les LoRAs Wan 2.2 et réservent EMA pour l'entraînement de modèle complet. Il est sûr d'ignorer EMA sauf si vous savez que vous voulez assembler des poids plus lisses.

5.7.4 Optimisations Text Encoder – mode légende vs trigger-word

Ces interrupteurs contrôlent si le text encoder reste chargé et si les embeddings sont mis en cache.

  • Unload TE – si défini ON, AI Toolkit retirera le text encoder de la VRAM entre les étapes et s'appuiera sur des embeddings statiques (ex. un Trigger Word), désactivant effectivement le captioning dynamique pendant l'entraînement. Cela économise la VRAM mais signifie que les légendes ne seront pas ré-encodées à chaque étape.
  • Cache Text Embeddings – quand défini ON, AI Toolkit exécute le text encoder une fois par légende, met en cache les embeddings, puis libère en toute sécurité le text encoder de la VRAM. C'est hautement recommandé pour l'entraînement basé sur les légendes en VRAM contrainte, car cela évite de ré-encoder à chaque étape mais utilise toujours vos légendes par clip.

Patterns typiques :

  • Pour l'entraînement basé sur les légendes 24–32GB, définissez Cache Text Embeddings = ON et laissez Unload TE = OFF. Cela vous donne un entraînement efficace avec les informations complètes de légende.
  • Pour l'entraînement Trigger Word uniquement sur très haute VRAM (H100/H200), vous pouvez définir Unload TE = ON et vous appuyer sur un seul token trigger au lieu de légendes complètes.

5.7.5 Differential Output Preservation (DOP)

Differential Output Preservation est une régularisation optionnelle qui encourage le LoRA à se comporter comme un edit résiduel pur du modèle de base :

  • AI Toolkit rend deux prédictions :
    • une avec le modèle de base (sans LoRA), et
    • une avec le LoRA activé.
  • Il pénalise les différences entre ces sorties sauf là où vous voulez explicitement du changement (via votre Trigger Word et légendes).

Champs clés :

  • Differential Output Preservation – interrupteur principal.
  • DOP Loss Multiplier – force de la perte de régularisation.
  • DOP Preservation Class – un token de classe comme person, scene, ou landscape qui décrit ce qui doit être préservé.

Utilisation :

  • Pour les LoRAs de style et personnage, DOP peut aider à garder intact l'excellent réalisme de base de Wan pendant que le LoRA ajoute une modification contrôlée. Une recette simple :
    • Differential Output Preservation = ON
    • DOP Loss Multiplier = 1
    • DOP Preservation Class = person pour les LoRAs de personnage, ou scene / landscape pour les LoRAs de style larges si disponible.
  • Pour les LoRAs de mouvement / caméra, vous n'avez généralement pas besoin de DOP ; le changement de comportement est déjà localisé, et DOP double approximativement le calcul.

Note importante de compatibilité :

  • DOP fonctionne en réécrivant les prompts à chaque étape (échangeant votre Trigger Word avec la Preservation Class dans une des branches). À cause de cela, DOP requiert que le text encoder ré-encode les prompts à chaque étape, et n'est pas compatible avec Cache Text Embeddings.
  • Si vous activez DOP ON :
    • vous devez définir un Trigger Word dans le panneau JOB,
    • et vous devez garder Cache Text Embeddings = OFF pour que le text encoder reste actif et puisse ré-encoder les prompts modifiés à chaque étape.

Sur H100/H200, le coût de calcul supplémentaire de DOP est généralement acceptable pour des LoRAs de personnage et de style de haute qualité.


5.8 Panneau ADVANCED – Differential Guidance (optionnel)

Si votre build expose un panneau ADVANCED avec :

  • Do Differential Guidance
  • Differential Guidance Scale

vous pouvez le traiter comme une astuce supplémentaire spécifique à AI-Toolkit :

  • Activer Do Differential Guidance = ON avec Scale = 3 dit au modèle de se concentrer davantage sur la différence entre les prédictions de base et modifiées par LoRA, similaire dans l'esprit à DOP mais implémenté comme un terme de guidance.
  • Cela peut faire converger plus vite les edits ciblés (ex. "style contour néon" ou "comportement caméra orbite") sans augmenter le Learning Rate.
  • Si les échantillons semblent instables ou trop nets tôt dans l'entraînement, vous pouvez baisser le scale à 2. Si l'apprentissage semble très lent, vous pouvez expérimenter avec 4.

La plupart des utilisateurs peuvent laisser cela OFF en toute sécurité pour leurs premiers LoRAs Wan 2.2 et expérimenter une fois à l'aise.


5.9 Panneau DATASETS – connecter votre dataset Wan T2V

Chaque bloc Dataset correspond à une entrée dans la liste interne datasets:.

Pour un seul dataset Wan T2V :

  • Target Dataset – sélectionnez votre dossier dataset Wan T2V (ex. wan_orbit_clips ou wan_char_zxq_clips) contenant vos vidéos et légendes.
  • LoRA Weight – définissez sur 1 sauf si vous mélangez plusieurs datasets et voulez les rééquilibrer.
  • Default Caption – utilisé seulement quand les clips individuels n'ont pas de légende .txt. Par exemple :
    • Personnage/style : "portrait de zxqperson, zxqstyle, éclairage cinématographique".
    • Mouvement : "orbite 360 autour du sujet, zxq_orbit".
  • Caption Dropout Rate – une valeur comme 0.05 supprime les légendes pour 5% des échantillons pour que le modèle fasse aussi attention aux visuels au lieu de sur-apprendre les formulations.

    Si vous comptez beaucoup sur Cache Text Embeddings, soyez conservateur ici ; le caption dropout est plus efficace quand le text encoder est actif et les légendes peuvent varier.

  • Settings → Cache Latents – pour les LoRAs vidéo c'est généralement OFF parce que mettre en cache les latents VAE pour beaucoup de frames est lourd sur le disque et la RAM. Gardez plutôt vos vidéos sources de haute qualité.
  • Settings → Is Regularization – laissez OFF sauf si vous avez un dataset de régularisation dédié.
  • Flipping (Flip X / Flip Y) – pour la plupart des LoRAs vidéo gardez les deux OFF :
    • les flips horizontaux peuvent casser la sémantique de mouvement gauche/droite et l'asymétrie du personnage,
    • les flips verticaux sont rarement appropriés pour des séquences du monde réel.
  • Resolutions – activez les résolutions dans lesquelles vous voulez qu'AI Toolkit classe :
    • Sur 24–32GB, activez 512, optionnellement 768 si la VRAM le permet, et désactivez 1024+.
    • Sur H100/H200, vous pouvez activer 768 et 1024 pour correspondre au point d'opération préféré du modèle.
  • Num Frames – définissez Num Frames = 33 pour la recette de base LoRA vidéo 24–32GB.

    33 suit la règle 4n+1 (4·8+1), réduit approximativement de moitié le coût vs l'entraînement complet 81 frames tout en donnant un pattern temporel clair.

AI Toolkit échantillonnera 33 frames uniformément sur la durée de chaque clip ; vous devez juste couper les clips pour que le mouvement qui vous intéresse occupe la majeure partie du clip.

Sur H100/H200, vous pouvez pousser Num Frames à 41 ou 81, et combiner cela avec des buckets 768–1024 px et Rank 16–32 pour des LoRAs longue séquence très forts.


5.10 Panneau SAMPLE – prévisualiser votre LoRA

Le panneau SAMPLE sert à générer des vidéos d'aperçu pendant ou après l'entraînement.

Paramètres utiles :

  • Num Frames – faites correspondre approximativement à la valeur d'entraînement (ex. 33 ou 41) pour que le comportement soit prévisible.
  • Sampler / Scheduler – utilisez un sampler compatible FlowMatch qui s'aligne avec le schedule de bruit du modèle.
  • Prompt / Negative Prompt – utilisez le même Trigger Word et concepts sur lesquels vous avez entraîné pour juger rapidement si le LoRA fait la bonne chose.
  • Guidance Scale – pendant les aperçus d'entraînement, des valeurs modérées (ex. 2–4) sont bien ; rappelez-vous que vous pourriez utiliser des valeurs différentes dans vos workflows d'inférence normaux plus tard.

Générez des échantillons à plusieurs checkpoints (ex. tous les 250–500 étapes) et gardez ceux qui équilibrent visuellement force et stabilité.


6. Paramètres d'entraînement Wan 2.2 T2V 14B LoRA

Cette section résume des recettes pratiques pour les trois types principaux de LoRA.

6.1 LoRA vidéo de personnage (identité / avatar)

Objectif : préserver le visage, corps et identité générale d'un personnage à travers de nombreux prompts et scènes.

Dataset :

  • 10–30 clips courts ou images du personnage, avec poses, arrière-plans et éclairages variés.
  • Les légendes incluent un Trigger Word et classe, par exemple :

    "portrait de [trigger], jeune femme, vêtements décontractés, éclairage studio".

Paramètres clés pour le Wan 2.2 T2V 14B Entraînement LoRA texte vers vidéo :

  • Num Frames – 33 sur 24GB ; 41 ou 81 sur H100/H200.
  • Resolutions – 512 ou 768 ; ajoutez 1024 sur haute VRAM.
  • Multi-stage – High Noise = ON, Low Noise = ON, Switch Every = 10 (local) ou 1 (cloud).
  • Timestep Type / Bias – Linear (ou Sigmoid) avec Balanced bias, pour capturer à la fois composition et détail d'identité low-noise.
  • Linear Rank – 16 (24GB) ou 16–32 (H100/H200) pour une identité plus nuancée.
  • DOP – optionnellement activer pour les LoRAs de personnage quand vous voulez préserver le réalisme de base :
    • Differential Output Preservation = ON
    • DOP Loss Multiplier = 1
    • DOP Preservation Class = person
    • Cache Text Embeddings = OFF (requis pour que DOP fonctionne)
  • Steps – 2000–3000, vérifiant les échantillons tous les 250–500 étapes.

6.2 LoRA vidéo de style (look film / anime / étalonnage couleur)

Objectif : imposer un style visuel fort tout en gardant le contenu flexible.

Dataset :

  • 10–40 images ou clips qui partagent le même style à travers différents sujets et scènes.
  • Les légendes décrivent le look (ex. pellicule, coup de pinceau, palette) plutôt que les objets exacts.

Paramètres clés pour comment entraîner un LoRA pour Wan 2.2 :

  • Num Frames – 33–41 pour la plupart des cas d'usage ; 81 sur gros GPUs pour clips de 5s.
  • Resolutions – 512–768 sur 24GB ; 768–1024 sur haute VRAM.
  • Multi-stage – High Noise = ON, Low Noise = ON, Switch Every = 10 (local) ou 1 (cloud).
  • Timestep Type / Bias – Linear ou Shift avec Timestep Bias = Favor High Noise, pour que le LoRA puisse réécrire la couleur globale et le contraste là où la composition est encore fluide.
  • Linear Rank – 16 pour styles simples ; 16–32 pour looks complexes, cinématographiques.
  • DOP – recommandé pour les LoRAs de style quand vous voulez préserver le réalisme de base :
    • Differential Output Preservation = ON
    • DOP Loss Multiplier = 1
    • DOP Preservation Class = scene / landscape ou similaire
    • Cache Text Embeddings = OFF
  • Steps – 1500–2500, s'arrêtant quand le style semble fort mais pas surchargé.

6.3 LoRA de mouvement / caméra (orbites, panoramiques, mouvements dolly)

Objectif : apprendre de nouveaux mouvements de caméra ou patterns de mouvement que vous pouvez appliquer à beaucoup de sujets.

Dataset :

  • 10–30 clips de 3–8s, chacun montrant le mouvement cible.
  • Gardez le mouvement cohérent (ex. tous sont orbite 180 ou tous sont défilement latéral), mais variez sujets et scènes.
  • Les légendes déclarent explicitement le mot-clé de mouvement ("orbite 180 autour du sujet", "animation d'attaque en défilement latéral").

Paramètres clés pour le ComfyUI Wan 2.2 LoRA texte vidéo :

  • Num Frames – 33 sur 24GB, 41–81 sur GPUs plus gros.
  • Resolutions – 512 (et 768 si VRAM le permet).
  • Multi-stage – High Noise = ON, Low Noise = ON, Switch Every = 10 (local) ou 1 (cloud).
  • Timestep Type / Bias – Linear avec Timestep Bias = Balanced, pour que la composition précoce et le raffinement ultérieur voient les mises à jour ; le mouvement s'appuie intrinsèquement sur le high noise.
  • Linear Rank – Rank 16 suffit généralement ; le mouvement concerne plus le comportement que les petits détails.
  • DOP – généralement garder OFF ; le mouvement est déjà localisé et DOP double les passes forward.
  • Steps – 1500–2500 ; surveillez les aperçus pour vous assurer que le mouvement généralise au-delà de vos clips d'entraînement.

7. Exporter et utiliser votre Wan T2V LoRA

Une fois l'entraînement terminé, vous pouvez utiliser votre Wan 2.2 T2V 14B LoRA de deux façons simples :

  • Model playground – ouvrez le Wan 2.2 T2V 14B LoRA playground et collez l'URL de votre LoRA entraîné pour voir rapidement comment il se comporte sur le modèle de base.
  • Workflows ComfyUI – démarrez une instance ComfyUI et construisez votre propre workflow, ajoutez votre LoRA et ajustez le poids du LoRA et autres paramètres pour un contrôle plus détaillé.

Autres guides d'entraînement LoRA AI Toolkit

Ready to start training?