Wan 2.2 I2V 14B entraînement LoRA image-to-vidéo transforme une seule image en clips de 5 secondes avec mouvement contrôlable, mouvements de caméra et cohérence temporelle. À la fin de ce guide, vous serez capable de :
- Concevoir des datasets Wan I2V LoRA pour des cas d'usage de mouvement, style et personnage (et savoir combien de clips vous avez réellement besoin).
- Comprendre comment les experts dual high-noise / low-noise de Wan, les paramètres de timestep, Num Frames et résolution interagissent pendant l'entraînement.
- Configurer les panneaux AI Toolkit (JOB, MODEL, QUANTIZATION, MULTISTAGE, TARGET, TRAINING, DATASETS, SAMPLE) pour des exécutions stables sur 24GB et pour des configurations cloud plus importantes H100/H200.
Cet article fait partie de la série d'entraînement LoRA AI Toolkit. Si vous êtes nouveau sur Ostris AI Toolkit, commencez par la vue d'ensemble de l'entraînement LoRA AI Toolkit avant de plonger dans ce guide.
Table des matières
- 1. Qu'est-ce qui rend Wan 2.2 I2V 14B spécial ?
- 2. Où exécuter WAN 2.2 - Entraînement LORA i2v
- 3. Conception de dataset pour Wan I2V LoRAs
- 4. Spécificités de Wan 2.2 I2V à comprendre
- 5. Comment entraîner un LoRA pour Wan 2.2 étape par étape avec AI Toolkit
- 6. AI Toolkit entraînement LoRA Wan 2.2 I2V : paramètres pour mouvement, style et personnage
- 7. Dépannage des problèmes courants de Wan I2V LoRA
- 8. Exporter et utiliser votre Wan I2V LoRA
1. Qu'est-ce qui rend Wan 2.2 I2V 14B spécial ?
Wan 2.2 I2V 14B ("A14B") est la variante image-to-vidéo de Wan 2.2. Architecturalement, c'est un transformer dual Mixture-of-Experts (MoE). Il y a deux transformers séparés de 14B paramètres. Le transformer high-noise gère les premiers timesteps très bruités et est responsable de la composition globale, trajectoire de mouvement et mouvement de caméra. Le transformer low-noise gère les derniers timesteps propres et est responsable des détails fins, de l'identité et de la texture.
Au moment de l'inférence, le pipeline divise les timesteps autour d'une limite à environ 875/1000 du schedule de bruit et les dirige vers le transformer high-noise ou low-noise. En pratique, chaque expert gère environ la moitié du processus de débruitage. Wan 2.2 I2V génère jusqu'à 81 frames à 16 FPS, soit environ 5 secondes de vidéo.
Pour le Wan 2.2 I2V 14B entraînement LoRA image-to-vidéo, cela a trois conséquences clés. Vous pouvez choisir d'entraîner une ou les deux étapes. Vous pouvez orienter l'entraînement vers la composition et le mouvement (high noise) ou vers l'identité et le détail (low noise). Et parce que vous traitez des séquences de frames, le nombre de frames, la résolution, la VRAM et les paramètres de quantification/offloading comptent beaucoup plus que pour un modèle d'image seul.
AI Toolkit expose ces contrôles principalement via les panneaux MULTISTAGE, TRAINING, TARGET et DATASETS.
2. Où exécuter WAN 2.2 - Entraînement LORA i2v
Vous pouvez exécuter ce workflow d'entraînement LoRA Wan 2.2 I2V soit sur le cloud AI Toolkit sur RunComfy soit sur une installation locale AI Toolkit. L'interface et les panneaux sont les mêmes ; seul le matériel change.
2.1 RunComfy Cloud AI Toolkit (recommandé pour les premières exécutions)
Si vous ne voulez pas gérer CUDA, les drivers ou les téléchargements de gros modèles, utilisez le cloud AI Toolkit sur RunComfy :
Sur cette page, vous obtenez l'interface AI Toolkit préinstallée dans le navigateur. Vous pouvez télécharger des datasets, configurer des jobs exactement comme dans ce guide et lancer l'entraînement sur un GPU H100 (80 GB) ou H200 (141 GB). C'est la façon la plus simple de reproduire le tutoriel de manière fiable sans toucher à la configuration locale.
2.2 AI Toolkit Local
Si vous préférez exécuter localement : installez le dépôt AI Toolkit en suivant le README (Python + PyTorch pour l'entraînement et Node pour l'interface), puis lancez l'interface (npm run build_and_start dans ui/). Ouvrez http://localhost:8675 et vous verrez les mêmes panneaux que dans les captures d'écran et descriptions ici.
3. Conception de dataset pour Wan I2V LoRAs
Wan 2.2 I2V est entraîné sur des paires clip vidéo + légende. Chaque échantillon d'entraînement est une séquence de frames plus du texte. Dans AI Toolkit, vous n'avez pas besoin de couper manuellement chaque clip à la même longueur. À la place, vous configurez Num Frames dans le panneau DATASETS et le data loader échantillonnera uniformément ce nombre de frames de chaque vidéo, gérant automatiquement les clips de différentes durées.
3.1 Décidez quel type de LoRA vous entraînez
Comment vous réglez les hyperparamètres dépend fortement de votre objectif :
- LoRA de mouvement/caméra se concentre sur des patterns comme "orbite 360 autour du sujet", "dolly zoom lent", "tremblement caméra à la main" ou des beats d'action spécifiques.
- LoRA de style fait ressembler les vidéos à une pellicule particulière, un style anime ou un look pictural, tout en gardant le mouvement de base et la composition de scène de Wan.
- LoRA de personnage essaie de préserver un personnage ou visage spécifique de manière cohérente à travers de nombreuses scènes et mouvements.
Wan 2.2 I2V peut faire les trois. Les LoRAs de mouvement s'appuient davantage sur l'étape high-noise, tandis que les LoRAs de style et personnage s'appuient davantage sur l'étape low-noise plus des visuels très cohérents.
3.2 Clips vidéo et recadrage
Utilisez de vrais clips vidéo (.mp4, .mov, etc.), pas des GIFs. La longueur des clips peut varier (par exemple 5–30 secondes). AI Toolkit échantillonnera uniformément les frames d'entraînement le long de chaque clip selon votre paramètre Num Frames.
La seule chose que vous devez toujours faire manuellement est de recadrer et découper chaque clip pour que le mouvement qui vous intéresse commence rapidement et qu'il n'y ait pas beaucoup de "temps mort" au début ou à la fin. Pour les LoRAs de mouvement en particulier, vous voulez que le mouvement occupe presque tout le clip — par exemple, l'orbite complète, le dolly complet ou le geste complet.
3.3 De combien de clips avez-vous besoin ?
En règle générale :
- Une LoRA de mouvement simple qui enseigne un seul type de mouvement de caméra s'entraîne généralement bien avec 10–30 clips courts (~3–8s) où le mouvement cible est très clair et occupe la majeure partie du frame.
- Une LoRA de style nécessite typiquement 10–40 images ou clips qui couvrent différentes scènes, éclairages et sujets, mais partagent tous le même look et traitement des couleurs.
- Une LoRA de personnage sur I2V se comporte plus comme une LoRA d'image. Au minimum, visez 10–30 clips courts du même personnage, avec des poses, échelles, angles et arrière-plans variés ; si vous pouvez confortablement atteindre 20–40 clips, la ressemblance et la robustesse s'améliorent généralement.
3.4 Légendes pour clips I2V
Chaque fichier vidéo peut optionnellement avoir une légende .txt avec le même nom de base (par exemple castle_orbit.mp4 et castle_orbit.txt). AI Toolkit supporte aussi une Default Caption qui est utilisée quand un clip n'a pas de fichier de légende dédié.
Bons patterns de légende :
- Pour une LoRA de mouvement, encodez le mouvement explicitement dans le texte, par exemple :
orbit 360 around the subject,orbit 180 around the subjectouslow dolly in toward the character. - Pour une LoRA de style, décrivez le look, pas le contenu de la scène, par exemple :
grainy 16mm film look, high contrast, warm tint. - Pour une LoRA de personnage, incluez un mot déclencheur plus une classe, par exemple :
frung, young woman, casual clothing(oùfrungest votre token déclencheur).
Vous pouvez aussi combiner un Trigger Word défini dans le panneau JOB avec des légendes contenant [trigger]. AI Toolkit remplacera [trigger] par votre chaîne de déclencheur choisie lors du chargement du dataset pour que vous n'ayez pas à coder en dur le nom du déclencheur dans chaque légende.
4. Spécificités de Wan 2.2 I2V à comprendre
4.1 Transformers High-noise vs Low-noise
Les deux transformers de Wan se comportent grossièrement ainsi :
Le transformer high-noise opère aux timesteps près du début du processus de diffusion (approximativement 1000 jusqu'à ~875). Il établit la composition globale et les formes grossières et décide où vont les objets, comment la caméra bouge et quelle sera la trajectoire du mouvement. Il est critique pour le mouvement et la mise en page.
Le transformer low-noise s'exécute aux timesteps d'environ 875 jusqu'à 0. Il affine les détails, textures, ressemblance faciale et micro-mouvements. Il est critique pour l'identité, la texture et la netteté.
En pratique, entraîner uniquement l'étape high-noise peut enseigner de nouveaux types de mouvement et composition mais tend à sous-entraîner le détail. Entraîner uniquement l'étape low-noise a du mal à changer significativement le mouvement ou la mise en page. Pour la plupart des LoRAs, vous devriez entraîner les deux étapes puis orienter l'emphase via Timestep Bias dans le panneau TRAINING.
4.2 Frames, FPS et vitesse
Wan 2.2 I2V 14B peut générer jusqu'à 81 frames à 16 FPS, soit 5 secondes. En pratique, les nombres valides de frames vidéo suivent la règle "4n+1" (par exemple 9, 13, 17, 21, 33, 41, 81…). Vous pouvez penser aux durées vidéo dans cette famille ; 1 frame est aussi supporté et réduit effectivement I2V à un mode image unique pour l'AI Toolkit entraînement LoRA Wan 2.2 I2V.
Dans AI Toolkit, il y a deux contrôles Num Frames séparés. Num Frames dans le panneau DATASETS contrôle combien de frames par clip sont échantillonnés pour l'entraînement. Num Frames dans le panneau SAMPLE contrôle la longueur de vos vidéos de prévisualisation. Ils n'ont pas besoin de correspondre exactement, mais les garder similaires rend le comportement plus facile à raisonner.
Un bon point de départ pour l'entraînement est 41 frames (environ 2,5 secondes). Sur des GPUs de 80–96 GB (classe H100), vous pouvez aller jusqu'à la configuration complète de 81 frames. Des longueurs plus courtes comme 21 ou 33 frames peuvent être utilisées pour réduire la charge VRAM et le temps par étape sur de petits GPUs, au prix de capturer moins de contexte temporel.
4.3 Résolution et surface de pixels
Les démos officielles de Wan tendent à maintenir la surface effective autour de 480×832 ≈ 400k pixels, et les espaces Hugging Face ajustent les dimensions aux multiples de 16 ou 32.
Pour le Wan 2.2 I2V 14B entraînement LoRA image-to-vidéo avec AI Toolkit :
- Sur un GPU de 24 GB, utilisez des buckets de résolution comme 512 et 768. Évitez 1024×1024 à moins d'être très agressivement quantifié et/ou d'utiliser le layer offloading ; la vidéo à 1024² plus 41–81 frames est lourde.
- Sur des GPUs de 48 GB+ ou H100/H200, vous pouvez ajouter en toute sécurité un bucket 1024 et même utiliser des résolutions cinématographiques widescreen centrées autour de valeurs comme 1024×576, 1024×608 ou 1024×640.
AI Toolkit groupera automatiquement et redimensionnera vos vidéos dans les résolutions sélectionnées lors du chargement du dataset.
5. Comment entraîner un LoRA pour Wan 2.2 étape par étape avec AI Toolkit
Nous supposons que vous avez au moins un GPU de classe 24 GB, donc les paramètres ci-dessous sont une base sûre. Si vous avez une carte plus grosse ou utilisez le cloud AI Toolkit sur RunComfy, certains panneaux incluent aussi des notes brèves sur comment augmenter les paramètres.
5.1 Panneau JOB
Dans le panneau JOB, vous définissez les métadonnées de base et, optionnellement, un token déclencheur.
- Training Name
Utilisez n'importe quel nom descriptif ; il devient le nom du dossier pour les checkpoints et samples. Exemples :
wan_i2v_orbit_v1,wan_i2v_style_neon,wan_i2v_char_frung_v1. - GPU ID
Sur une installation locale, cela pointe vers votre GPU physique. Sur le cloud AI Toolkit RunComfy, vous pouvez laisser cela par défaut ; le type de machine réel (H100/H200) est choisi plus tard dans la Training Queue.
- Trigger Word (optionnel)
Utilisez un déclencheur pour les LoRAs de personnage ou style où vous voulez un token dédié comme
frungouwan_cam_orbit. Si les légendes de votre dataset contiennent[trigger], AI Toolkit substituera automatiquement la valeur de votre Trigger Word dans ces légendes au chargement.Pour les LoRAs de mouvement pur, vous n'avez souvent pas besoin d'un mot déclencheur car le comportement est déjà encodé dans des phrases comme "orbit 360 around the subject". Pour les personnages et styles, il est fortement recommandé d'utiliser un déclencheur pour avoir un interrupteur on/off propre pour votre LoRA plus tard.
5.2 Panneaux MODEL et QUANTIZATION
Ces panneaux contrôlent quel checkpoint du modèle Wan est utilisé et à quel point il est quantifié agressivement.
Panneau MODEL
- Model Architecture
Sélectionnez
Wan 2.2 I2V (14B). - Name or Path
L'identifiant du modèle Hugging Face (ID de repo) pour le checkpoint de base, par exemple :
ai-toolkit/Wan2.2-I2V-A14B-Diffusers-bf16.Dans la plupart des builds AI Toolkit, sélectionner
Wan 2.2 I2V (14B)auto-remplira cette valeur ; laissez-la telle quelle sauf si vous avez une raison de la changer. - Low VRAM
Activez Low VRAM ON pour les GPUs grand public de 24 GB ou toute carte qui pilote aussi votre écran. Sur les cartes de 48 GB+ (incluant H100/H200), vous pouvez souvent le laisser OFF pour la vitesse tant que vous gardez votre charge d'entraînement raisonnable (par exemple buckets 512/768 et ~41 frames). Si vous voyez des OOMs intermittents (souvent causés par le plus grand bucket de résolution) ou vous voulez pousser buckets 1024 et/ou 81 frames, activez Low VRAM ON pour la stabilité.
- Layer Offloading
Ce toggle transfère des parties du modèle vers la RAM CPU au lieu de garder toutes les couches résidentes en VRAM. C'est seulement nécessaire si vous essayez d'exécuter Wan I2V sur un très petit GPU (environ 10–12 GB VRAM) et avez beaucoup de RAM système (64 GB+). Cela peut à peu près doubler le temps par étape mais peut ramener le pic VRAM en dessous de ~9 GB. Pour les GPUs de 24 GB, commencez avec Layer Offloading OFF et activez-le seulement si vous avez encore des erreurs out-of-memory.
Sur gros GPUs / RunComfy :
Sur 48 GB+ ou sur H100/H200, commencez avec Layer Offloading OFF. Gardez Low VRAM OFF si vous voulez la vitesse maximale, mais associez-le avec des buckets conservateurs (512/768) et frames (≈41) d'abord. Si vous poussez 1024/81 et obtenez des pics d'OOM, activez Low VRAM ON (ou supprimez 1024) pour stabiliser l'exécution.
Panneau QUANTIZATION
- Transformer
Sur les GPUs de 24–32 GB, réglez Transformer sur
4bit with ARA. Cela utilise une quantification 4-bit avec un Accuracy Recovery Adapter pour que l'utilisation VRAM soit proche du 4-bit simple tandis que la qualité reste beaucoup plus proche de bf16. - Text Encoder
Réglez Text Encoder sur
float8(ouqfloat8). Cela réduit la VRAM et le calcul pour le text encoder avec un impact négligeable sur la qualité LoRA de Wan 2.2 I2V.
Cela reflète les configs d'exemple officielles AI Toolkit pour les LoRAs vidéo Wan 2.2 et c'est la raison principale pour laquelle l'entraînement est pratique sur les cartes de 24 GB. Si vous rencontrez des problèmes de stabilité ou des ralentissements sévères avec ARA sur une configuration particulière, vous pouvez revenir à qfloat8 pour le Transformer ; cela utilise plus de VRAM mais se comporte très similairement en termes de qualité.
Sur gros GPUs / RunComfy :
Sur une H100/H200 ou carte workstation de 48–96 GB, vous pouvez soit garder 4bit with ARA et dépenser la VRAM supplémentaire sur résolution plus élevée, plus de frames ou un rang LoRA plus élevé, soit passer le Transformer à une option pure float8 / qfloat8 pour une pile plus simple. Revenir complètement à bf16 partout est rarement nécessaire pour le WAN 2.2 - Entraînement LORA i2v.
5.3 Panneau MULTISTAGE (high / low noise)
Le panneau MULTISTAGE vous permet de décider quel(s) expert(s) Wan entraîner et à quelle fréquence le trainer alterne entre eux.
- Stages to Train
Gardez High Noise et Low Noise tous deux sur ON pour la plupart des LoRAs. High noise contrôle la composition et le mouvement ; low noise contrôle le détail et l'identité.
- Switch Every
Cette valeur contrôle combien d'étapes vous exécutez sur un expert avant de passer à l'autre. Avec High Noise = ON, Low Noise = ON, Switch Every = 10 et Steps = 3000, AI Toolkit entraîne :
- Étapes 1–10 sur le transformer high-noise,
- Étapes 11–20 sur le transformer low-noise,
- et répète cette alternance jusqu'à la fin de l'entraînement.
Sur de gros GPUs, vous pouvez utiliser Switch Every = 1 (alterner chaque étape) seulement si les deux experts restent résidents en VRAM (pas de Low VRAM/offload/swap). Si Low VRAM ou tout offloading/swapping est impliqué, chaque switch peut déclencher un chargement/déchargement coûteux, et Switch Every = 1 devient extrêmement lent. Dans ce cas, préférez Switch Every = 10–50 pour réduire l'overhead de swap.
Pour une base de GPU de 24 GB, utilisez :
- High Noise = ON
- Low Noise = ON
- Switch Every =
10-50
Sur gros GPUs / RunComfy :
Si les deux experts restent résidents (Low VRAM OFF, pas d'offloading), vous pouvez régler Switch Every = 1 pour une alternance légèrement plus fluide. Si vous voyez des temps d'étape lents ou du swapping, utilisez 10–50 à la place.
5.4 Panneau TARGET (paramètres réseau LoRA)
Dans le panneau TARGET, vous configurez quel type d'adaptateur vous entraînez et quelle est sa "largeur".
- Target Type
Réglez Target Type sur
LoRA. - Linear Rank
Linear Rank contrôle la capacité LoRA par bloc. Un rang plus élevé augmente la capacité mais aussi l'utilisation VRAM et le risque d'overfitting. Pour Wan 2.2 I2V, les valeurs par défaut pratiques sont :
- LoRAs de mouvement et caméra : Rank 16 est généralement suffisant car elles modifient le comportement plus que les petits détails visuels.
- LoRAs de style : commencez avec Rank 16 ; passez à 32 seulement si le style est complexe et vous avez de la marge VRAM.
- LoRAs de personnage : commencez avec Rank 16 (même sur de gros GPUs). Passez à 32 seulement après avoir confirmé que votre exécution est stable (pas de pics OOM) et vous avez spécifiquement besoin de plus de capacité pour les gros plans de visages haute résolution.
Sur de très gros GPUs, Rank 32 peut aider pour les styles riches et le travail de personnage exigeant, mais ce n'est pas requis pour obtenir une bonne LoRA et cela peut rendre les pics OOM plus probables quand combiné avec de gros buckets et beaucoup de frames.
5.5 Panneau SAVE
Le panneau SAVE contrôle à quelle fréquence les checkpoints sont écrits et dans quelle précision.
- Data Type
Utilisez
BF16ouFP16. Les deux conviennent pour les LoRAs. BF16 est légèrement plus stable numériquement sur les GPUs modernes. - Save Every
Réglez Save Every à environ
250. Cela vous donne un checkpoint tous les 250 pas. - Max Step Saves to Keep
Réglez Max Step Saves to Keep entre
4et6. Cela garde l'utilisation disque sous contrôle tout en vous laissant quelques checkpoints antérieurs comme secours.
Vous n'avez pas à utiliser le dernier checkpoint. Très souvent, les meilleurs samples viennent de quelque part autour de 2000–4000 pas. La configuration du panneau SAMPLE ci-dessous explique comment juger cela.
Si vous désactivez l'échantillonnage en cours d'entraînement (recommandé ci-dessous pour les builds actuels de Wan I2V), gardez quelques checkpoints (par exemple tous les 250 pas) et évaluez-les plus tard avec un workflow d'inférence séparé.
5.6 Panneau TRAINING
Le panneau TRAINING contient la plupart des contrôles importants : taille de batch, taux d'apprentissage, timesteps, loss et gestion du text encoder.
Hyperparamètres principaux
Configurez les paramètres principaux d'entraînement comme ceci pour une LoRA vidéo Wan I2V de 24 GB :
- Batch Size
Commencez avec
1. Les modèles vidéo sont lourds, et 1 est réaliste même sur les cartes de 24 GB. Sur H100/H200, vous pouvez expérimenter plus tard avec des tailles de batch de2–4. - Gradient Accumulation
Laissez Gradient Accumulation à
1initialement. La taille de batch effective est taille de batch fois accumulation de gradient. Vous pouvez l'augmenter à 2 ou 4 si la VRAM est extrêmement limitée et vous voulez un batch effectif légèrement plus grand, mais les gains sont modestes pour la vidéo. - Learning Rate
Commencez avec Learning Rate =
0.0001. C'est la valeur par défaut dans les exemples AI Toolkit et c'est stable pour les LoRAs Wan. Si l'entraînement semble bruité ou si la LoRA dépasse rapidement, vous pouvez réduire à 0.00005 en cours d'exécution et reprendre depuis le dernier checkpoint. - Steps – plages typiques :
- Petite LoRA de mouvement ciblée avec ~10–20 clips : 1500–2500 pas.
- LoRA de personnage ou style avec 20–50 clips : 2000–3000 pas.
- Les très grands datasets peuvent aller plus haut, mais il est généralement préférable d'améliorer la qualité des données (légendes, diversité) que de pousser bien au-delà de 3000–4000 pas.
- 1000 pas : ~12–18 heures
- 1500 pas : ~18–27 heures
- 2000 pas : ~24–36 heures
- 3000 pas : ~35–55 heures
- Weight Decay
Laissez Weight Decay à
0.0001sauf si vous avez une raison spécifique de le changer ; cela fournit une régularisation légère. - Loss Type
Gardez Loss Type comme
Mean Squared Error(MSE). Wan 2.2 utilise un scheduler de bruit flow-matching, et MSE est la loss standard pour cette configuration.
Timesteps et scheduler
- Timestep Type
Pour Wan 2.2 I2V,
Linearest le Timestep Type par défaut et fonctionne bien pour la plupart des types de LoRA. Il répartit les mises à jour uniformément le long du schedule flow-matching et fonctionne bien avec la division entre les experts high-noise et low-noise. - Timestep Bias
Timestep Bias contrôle quelle partie de la trajectoire vous mettez en avant :
- Balanced – les mises à jour sont réparties entre les timesteps high-noise et low-noise ; c'est le défaut sûr pour tous les types de LoRA.
- Favor High Noise – se concentre plus sur les premiers pas bruités où Wan décide de la mise en page globale, du mouvement et de la couleur.
- Favor Low Noise – se concentre plus sur les derniers pas propres où vivent les détails fins et l'identité.
- LoRAs de mouvement/caméra – commencez avec Timestep Type = Linear, Timestep Bias = Balanced. Pour les LoRAs de mouvement de caméra très "pures", vous pouvez expérimenter avec Favor High Noise pour vous appuyer plus fort sur l'expert high-noise.
- LoRAs de style – utilisez Timestep Type = Linear (ou Shift) et Timestep Bias = Favor High Noise, pour que la LoRA réécrive le ton et la couleur globaux tandis que le modèle de base gère encore les détails de fin d'étape.
- LoRAs de personnage – utilisez Timestep Type = Sigmoid (ou Linear) et Timestep Bias = Balanced. L'identité et la ressemblance dépendent plus des pas low-noise, mais garder le bias Balanced laisse les deux experts contribuer ; seulement si vous voulez spécifiquement un focus extra sur le micro-détail devriez-vous essayer un léger bias low-noise.
Sous le capot, Wan 2.2 I2V utilise un scheduler de bruit flow-matching. AI Toolkit configure le scheduler et le sampler correspondant automatiquement pour l'architecture Wan 2.2, donc vous dirigez principalement le comportement via Timestep Type, Timestep Bias et les paramètres Multi-stage ci-dessus.
EMA (Exponential Moving Average)
- Use EMA
Pour les LoRAs, EMA est optionnel et consomme de la VRAM et du temps supplémentaires. La plupart des utilisateurs de LoRA Wan laissent Use EMA OFF et c'est rarement nécessaire sauf si vous faites des fine-tunes de modèle complet.
Optimisations du Text Encoder
En bas du panneau TRAINING se trouvent les paramètres Text Encoder Optimizations. Ils contrôlent à quel point le text encoder est déchargé ou mis en cache agressivement.
- Unload TE
Ce mode décharge les poids du text encoder pour qu'ils ne consomment plus de VRAM entre les pas. Pour les LoRAs Wan 2.2 I2V, vous comptez presque toujours sur des légendes riches par clip, donc vous devriez garder Unload TE OFF dans l'entraînement normal basé sur les légendes. Considérez Unload TE uniquement si vous entraînez délibérément une LoRA très étroite "trigger-only / blank prompt" qui n'utilise pas du tout les légendes du dataset.
- Cache Text Embeddings
Cette option pré-calcule les embeddings de légende une fois et les réutilise, évitant les passes répétées du text encoder. Activez Cache Text Embeddings ON seulement quand vos légendes sont statiques et vous n'utilisez pas de fonctionnalités qui modifient ou randomisent le prompt à chaque pas, comme Differential Output Preservation, réécriture dynamique de
[trigger]dans les légendes, ou quoi que ce soit qui dépend fortement du comportement de caption dropout. Dans ce cas, AI Toolkit encode toutes les légendes d'entraînement une fois, met en cache les embeddings sur disque et peut retirer le text encoder de la VRAM.
Si vous prévoyez d'utiliser DOP, Caption Dropout ou d'autres astuces de prompt dynamiques, gardez Cache Text Embeddings OFF pour que le text encoder puisse ré-encoder le vrai prompt à chaque batch. Les sections Differential Output Preservation et Datasets expliquent ces interactions plus en détail.
Régularisation – Differential Output Preservation (DOP)
La section Regularization expose Differential Output Preservation (DOP), qui aide la LoRA à se comporter comme une modification résiduelle au lieu d'écraser le modèle de base.
DOP compare la sortie du modèle de base (sans LoRA) à la sortie avec LoRA activée et ajoute une pénalité quand la LoRA change des aspects non liés à votre concept cible. Il essaie d'enseigner "ce qui change quand le déclencheur est présent" plutôt que "ré-entraîner tout le modèle".
Pour les LoRAs de mouvement/caméra, vous n'avez généralement pas besoin de DOP, car le comportement de mouvement est déjà assez localisé. Activer DOP double à peu près le calcul en ajoutant des passes forward supplémentaires.
Pour les LoRAs de style et personnage, DOP est souvent très utile pour garder intact le fort réalisme de base de Wan. Une bonne configuration de départ est :
- Differential Output Preservation : ON
- DOP Loss Multiplier :
1 - DOP Preservation Class :
personpour les LoRAs de personnage, ou une classe appropriée commesceneoulandscapepour les LoRAs de style si votre build fournit ces options.
Note importante de compatibilité : Differential Output Preservation réécrit ou augmente le texte du prompt à chaque pas (par exemple en échangeant votre mot déclencheur contre le mot de classe de préservation). À cause de cela, DOP n'est pas compatible avec Cache Text Embeddings. Si vous activez DOP ON, assurez-vous que Cache Text Embeddings est OFF pour que le text encoder voie le prompt mis à jour à chaque batch.
5.7 Panneau ADVANCED (Differential Guidance)
Si votre build AI Toolkit expose le panneau ADVANCED pour ce modèle, il peut inclure Do Differential Guidance et Differential Guidance Scale.
Differential Guidance calcule les prédictions "avec LoRA" vs "sans LoRA" et pousse l'entraînement vers la différence entre elles, similaire en esprit à DOP mais implémenté au niveau du guidance au lieu d'un terme de loss séparé.
Recommandations pratiques :
- Activez Do Differential Guidance ON avec une Differential Guidance Scale autour de
3pour les LoRAs de style édition ciblée (par exemple "faire orbiter la caméra", "appliquer le style néon") où vous voulez que la LoRA se comporte comme un modificateur propre. - Pour les LoRAs de style très larges et lourdes qui réécrivent tout le look, vous pouvez essayer des échelles plus basses (1–2) ou le laisser OFF si la LoRA semble trop faible.
Si vous êtes limité en calcul, vous pouvez laisser Differential Guidance OFF en toute sécurité pour vos premières exécutions et expérimenter plus tard.
5.8 Panneau DATASETS
Chaque bloc de dataset dans AI Toolkit correspond à une entrée dans la liste datasets:, mais dans l'interface vous configurez simplement une ou plusieurs cartes de dataset.
Une configuration typique de dataset unique Wan I2V ressemble à ceci :
- Target Dataset
Choisissez votre dossier de dataset vidéo Wan I2V téléchargé, par exemple
wan_orbit_clips. - Default Caption
Cette légende est utilisée quand un clip n'a pas de fichier de légende
.txt. Exemples :LoRA de mouvement :
orbit 360 around the subjectLoRA de style :
cinematic neon cyberpunk styleLoRA de personnage :
frung, person, portrait(oùfrungest votre token déclencheur). - Caption Dropout Rate
C'est la probabilité que la légende soit abandonnée (remplacée par une légende vide) pour un échantillon d'entraînement. Pour les LoRAs Wan I2V, une petite quantité de dropout encourage le modèle à utiliser à la fois le contexte visuel et le texte. Une plage de départ typique est 0.05–0.10 (5–10%) quand le text encoder reste chargé. Si vous décidez d'activer Cache Text Embeddings dans le panneau TRAINING, il est souvent plus simple de régler Caption Dropout Rate = 0 pour éviter qu'un sous-ensemble de clips n'ait définitivement pas de légende.
- LoRA Weight
Généralement réglé à
1. Vous ne changez cela que quand vous mélangez plusieurs datasets et voulez qu'un dataset compte plus ou moins dans l'entraînement. - Settings → Cache Latents
Gardez ceci OFF pour les datasets vidéo Wan I2V (Num Frames > 1). Beaucoup de builds actuels d'AI Toolkit ne supportent pas la mise en cache des latents pour les datasets multi-frame et échoueront pendant l'initialisation du dataloader avec une erreur comme :
caching latents is not supported for multi-frame datasetsSi vous réglez intentionnellement Num Frames = 1 (entraînement type image), la mise en cache des latents peut fonctionner et accélérer les choses.
- Settings → Is Regularization
Laissez Is Regularization OFF pour votre dataset principal. Si vous ajoutez un dataset de régularisation séparé plus tard, vous régleriez Is Regularization de ce dataset sur ON.
- Flipping
Flip X et Flip Y inversent les frames horizontalement ou verticalement. Pour la plupart des tâches vidéo, vous devriez garder les deux OFF, surtout pour les LoRAs de mouvement où l'inversion peut inverser la sémantique de mouvement gauche/droite ou pour les personnages avec des caractéristiques asymétriques. Pour les LoRAs purement de style, vous pouvez expérimenter avec Flip X pour augmenter la variation.
- Resolutions
Choisissez un ou plusieurs buckets de résolution. Sur un GPU de 24 GB, vous activez typiquement 512 et laissez 768 et 1024 désactivés. Sur 48 GB+ ou H100/H200, commencez avec 512 et 768 pour la stabilité, puis ajoutez 1024 seulement si vous avez une marge VRAM claire et votre exécution est stable (l'entraînement par buckets peut faire monter la VRAM quand il atteint le plus grand bucket). AI Toolkit assignera automatiquement les clips au bucket le plus proche et redimensionnera selon les besoins.
- Num Frames
Réglez Num Frames au nombre de frames par clip que vous voulez échantillonner pour l'entraînement. Un bon point de départ est
41. Sur de très petits GPUs (10–12 GB) avec quantification lourde et offloading, vous pouvez réduire cela à 21 ou même 9 juste pour faire fonctionner l'entraînement, au prix d'un contexte temporel plus court.
Si vous avez besoin de plusieurs datasets (par exemple, un dataset principal de mouvement plus un petit dataset de "style"), vous pouvez tous les ajouter dans le panneau DATASETS et utiliser LoRA Weight plus le flag Is Regularization pour contrôler leur influence relative.
5.9 Panneau SAMPLE (prévisualisations d'entraînement)
Le panneau SAMPLE n'influence pas directement l'entraînement ; il contrôle comment AI Toolkit génère périodiquement des vidéos de prévisualisation pour que vous puissiez choisir le meilleur checkpoint.
Important (exigence Wan I2V) : L'échantillonnage Wan 2.2 I2V est image-to-vidéo. Chaque sample doit inclure une paire prompt + image de contrôle.
Si l'échantillonnage s'exécute pendant l'entraînement (par exemple disable_sampling: false, skip_first_sample: false ou force_first_sample: true) et n'importe quel sample n'a pas ctrl_img, le pas d'échantillonnage de prévisualisation peut échouer et arrêter le job prématurément. Dans beaucoup d'environnements, cela apparaît comme une erreur confuse de mismatch de tensor comme :
RuntimeError: The size of tensor a (36) must match the size of tensor b (16)
Solution : dans samples, assurez-vous que chaque prompt a un ctrl_img correspondant (ils doivent toujours apparaître en paire). Ne laissez pas de lignes de sample avec prompt seulement.
Paramètres d'échantillonnage recommandés (prévisualisations activées)
Si vous voulez des prévisualisations en cours d'entraînement, utilisez ces paramètres :
- Sample Every
Réglez Sample Every à
250. Cela correspond au paramètre Save Every pour que chaque checkpoint ait un ensemble correspondant de vidéos de prévisualisation. - Sampler
Utilisez un sampler compatible avec le scheduler flow-matching de Wan, typiquement affiché comme
FlowMatchou similaire dans votre build. - Width / Height
Sur les GPUs de 24 GB, utilisez quelque chose comme
768 × 768ou un format vertical comme704 × 1280pour les samples. Évitez les vidéos de prévisualisation 1024×1024 sauf si vous êtes à l'aise avec un échantillonnage plus lent ; l'entraînement lui-même ne nécessite pas de prévisualisations 1024². - Guidance Scale
Commencez avec une Guidance Scale autour de
3.5–4, ce qui correspond à beaucoup de configs de démo Wan 2.2. - Sample Steps
Réglez Sample Steps à
25. Plus de pas changent rarement la qualité de mouvement de façon dramatique et augmentent principalement le temps. - Seed / Walk Seed
Réglez un Seed fixe comme
42. Activez Walk Seed ON si vous voulez que chaque prévisualisation ait une seed différente tout en restant groupée près de l'originale. - Num Frames
Réglez Num Frames dans le panneau SAMPLE égal ou proche de votre valeur d'entraînement. Si vous avez entraîné avec 41 frames, échantillonnez avec 41 aussi. Une fois que la LoRA a l'air bien, vous pouvez tester la généralisation en générant des clips plus longs à 81 frames ; l'entraînement à 41 généralise souvent étonnamment bien à l'inférence à 81 frames.
- FPS
Généralement gardez FPS = 16. Changer le FPS n'affecte que la vitesse de lecture, pas le mouvement appris lui-même.
Pour les prompts, ajoutez 2–4 lignes de prompt qui reflètent votre distribution d'entraînement. Pour chaque ligne, attachez une image de contrôle similaire à ce que vous utiliserez en inférence.
6. AI Toolkit entraînement LoRA Wan 2.2 I2V : paramètres pour mouvement, style et personnage
Voici des recettes rapides pour les types courants de LoRA Wan 2.2 I2V. Traitez-les comme des points de départ et ajustez en fonction de l'évaluation des checkpoints (les prévisualisations en cours d'entraînement peuvent être désactivées ; voir le panneau SAMPLE).
6.1 LoRA de mouvement/caméra
Objectif : enseigner à Wan un nouveau mouvement comme orbit 360, orbit 180 ou un swing de caméra spécifique.
Utilisez 10–30 clips courts (~3–8s) où le mouvement cible est très clair et occupe la majeure partie du clip. Les légendes doivent décrire explicitement le mouvement, par exemple orbit 180 around the subject ou orbit 360 around a futuristic city.
Directives de panneau :
- MULTISTAGE : High Noise = ON, Low Noise = ON, Switch Every = 10 (ou 20–50 si Low VRAM/offloading cause un swapping lent).
- TARGET : Linear Rank = 16.
- TRAINING : Learning Rate = 0.0001, Steps ≈ 1500–2500, Timestep Type = Linear, Timestep Bias = Balanced, DOP OFF.
- DATASETS : Resolutions à 512/768, Num Frames = 33–41 (commencez à 41 ; 81 est possible sur H100/H200 mais attendez-vous à ~2× le temps et plus de VRAM), Caption Dropout Rate ≈ 0.05–0.1. Mise en cache des latents OFF pour les datasets multi-frame.
Entraînez avec Save Every = 250. Prévisualisations d'échantillonnage : si vous activez les prévisualisations en cours d'entraînement, réglez Sample Every = 250 et assurez-vous que chaque entrée dans samples inclut à la fois prompt et ctrl_img (l'échantillonnage Wan I2V nécessite l'image de contrôle).
En évaluant les checkpoints, concentrez-vous sur si le mouvement cible est stable à travers différents prompts et scènes ; s'il ne fonctionne que sur des quasi-duplicats de vos clips d'entraînement, préférez améliorer la diversité des données ou augmenter légèrement les pas plutôt que de pousser le bias loin de Balanced.
6.2 LoRA de style (look/grade vidéo)
Objectif : changer le style visuel tout en respectant le mouvement et la composition de base de Wan.
Utilisez 10–40 images ou clips qui partagent tous le même look mais couvrent des scènes et sujets divers, par exemple grainy 16mm film look, high contrast, warm tint.
Directives de panneau :
- MULTISTAGE : High Noise = ON, Low Noise = ON, Switch Every = 10 (ou 20–50 si Low VRAM/offloading cause un swapping lent).
- TARGET : Linear Rank = 16 pour les styles simples ; 16–32 pour les looks complexes ou cinématographiques.
- TRAINING : Learning Rate = 0.0001, Steps ≈ 1500–2500, Timestep Type = Linear (ou Shift), Timestep Bias = Favor High Noise.
- Regularization (DOP) : Differential Output Preservation ON, DOP Loss Multiplier = 1, DOP Preservation Class correspondant à votre sujet dominant (souvent
personouscene), Cache Text Embeddings = OFF. - DATASETS : Resolutions 512/768 sur 24 GB (et 512/768 sur gros GPUs, avec 1024 optionnel seulement après stabilité), Num Frames = 33–41 sur 24 GB (41–81 sur H100/H200 si vous pouvez vous permettre le temps), Caption Dropout Rate autour de 0.05 si Cache Text Embeddings est OFF. Mise en cache des latents OFF pour les datasets multi-frame.
Surveillez si le style s'applique de manière cohérente à travers les scènes et éclairages. S'il commence à dominer le contenu ou faire tout ressembler, essayez de baisser le learning rate en cours d'exécution, revenir à un checkpoint antérieur ou réduire le rang LoRA.
6.3 LoRA de personnage (ressemblance vidéo)
Les LoRAs de personnage sur I2V sont plus difficiles que sur les modèles text-to-image, mais elles sont faisables.
Utilisez 10–30 clips courts du même personnage dans des poses, échelles, angles et arrière-plans variés ; les légendes doivent toujours inclure votre Trigger Word plus une classe, par exemple frung, young woman, casual clothing. Si vous pouvez rassembler 20–40 clips, la robustesse de l'identité s'améliore généralement, mais ce n'est pas strictement requis pour obtenir des résultats utilisables.
Directives de panneau :
- MULTISTAGE : High Noise = ON, Low Noise = ON, Switch Every = 10 (ou 20–50 si Low VRAM/offloading cause un swapping lent).
- TARGET : Linear Rank = 16 sur 24 GB ; 16–32 sur GPUs haute VRAM (utilisez 32 quand vous avez de la marge et vous souciez des gros plans de visages haute résolution).
- TRAINING : Learning Rate = 0.0001, Steps ≈ 2000–3000, Timestep Type = Sigmoid (ou Linear), Timestep Bias = Balanced.
- Regularization (DOP) : Differential Output Preservation ON, DOP Loss Multiplier = 1, DOP Preservation Class =
person. - DATASETS : Commencez avec 512/768 (ajoutez 1024 seulement après stabilité), Num Frames = 33–41 sur 24 GB, ou 41–81 sur H100/H200 (81 est significativement plus lent). Mise en cache des latents OFF pour les datasets multi-frame.
L'expérience de la communauté suggère que l'identité et la ressemblance dépendent plus de l'expert low-noise, mais garder Timestep Bias = Balanced et utiliser un Timestep Type façonné (Sigmoid) donne généralement un meilleur compromis entre ressemblance et stabilité vidéo globale que de biaiser fortement vers low noise.
7. Dépannage des problèmes courants de Wan I2V LoRA
The size of tensor a (36) must match the size of tensor b (16) at non-singleton dimension 1
Pourquoi cela arrive : sur WAN 2.2 14B I2V (arch: wan22_14b_i2v), l'échantillonnage de prévisualisation en cours d'entraînement est image-to-vidéo et nécessite une image de contrôle. Si n'importe quelle entrée dans samples a un prompt mais n'a pas ctrl_img, le pas d'échantillonnage de prévisualisation peut planter et parfois apparaître comme le mismatch de tensor ci-dessus.
Que faire : dans samples, assurez-vous que chaque prompt a un ctrl_img correspondant (ils doivent toujours apparaître en paire). Ne laissez pas de lignes de sample avec prompt seulement.
caching latents is not supported for multi-frame datasets
Cela arrive quand la mise en cache des latents est activée sur un dataset vidéo (Num Frames > 1).
Solution : Dans le panneau DATASETS, réglez Cache Latents / Cache Latents to Disk = OFF pour les datasets vidéo Wan I2V.
Mouvement trop rapide comparé à la source
Cela arrive généralement si vous avez entraîné avec moins de frames par clip que votre paramètre d'inférence. Par exemple, vous pourriez avoir entraîné à 21 ou 41 frames mais vous échantillonnez à 81 frames avec FPS fixé à 16. Le même mouvement est "étiré" différemment.
Vous pouvez corriger cela en baissant FPS dans le panneau SAMPLE (pour la lecture seulement), ou en entraînant et échantillonnant à un Num Frames constant comme 41 pour que le comportement temporel soit plus prévisible.
La caméra ne bouge pas ou la composition change à peine
Si la caméra bouge à peine ou la composition ressemble au modèle de base :
Vérifiez que vous entraînez bien l'étape high-noise et que Timestep Bias n'est pas réglé trop fortement vers les timesteps bas. Assurez-vous que High Noise est ON dans le panneau MULTISTAGE et que Timestep Bias est Favor High pour les LoRAs de mouvement. Vérifiez aussi que les légendes décrivent clairement le mouvement désiré ; Wan ne peut pas apprendre un mouvement qui n'est ni visible ni nommé.
Les détails et visages sont pires que le Wan de base
Si votre LoRA supprime du détail ou empire les visages :
Essayez d'augmenter Linear Rank légèrement (par exemple de 16 à 32) et de favoriser low noise dans le Timestep Bias pour que plus de signal d'entraînement atterrisse sur les timesteps tardifs où vivent l'identité et le détail. Vous pouvez aussi baisser le learning rate et reprendre depuis un checkpoint antérieur.
La LoRA surappend et ne fonctionne que sur des scènes similaires à l'entraînement
Si la LoRA n'a l'air correcte que sur des scènes très similaires aux données d'entraînement :
Réduisez le nombre total de Steps (par exemple de 5000 à 3000), augmentez la diversité du dataset et envisagez d'activer Differential Output Preservation s'il est actuellement désactivé. Si DOP est déjà ON et l'effet est toujours trop étroit, baissez légèrement le rang LoRA et/ou le learning rate.
Erreurs VRAM out-of-memory
Si l'entraînement manque fréquemment de VRAM :
Réduisez n'importe quelle combinaison de :
- buckets de résolution (supprimez 1024 et gardez 512/768),
- Num Frames (par exemple de 41 à 21),
- taille de batch (gardez-la à 1 si ce n'est pas déjà le cas).
Activez Low VRAM ON, activez Layer Offloading ON si vous n'avez que 10–12 GB de VRAM et beaucoup de RAM système, et assurez-vous que la quantification est réglée sur float8 pour le transformer et le text encoder dans le panneau QUANTIZATION. Si la VRAM locale n'est toujours pas suffisante, envisagez d'exécuter le même job AI Toolkit sur le cloud RunComfy avec un GPU H100 ou H200, où vous pouvez garder les paramètres beaucoup plus simples.
Si vous voyez des OOM même sur de gros GPUs (par exemple H100), c'est généralement un problème de pic de bucket :
- Supprimez le bucket 1024 jusqu'à ce que l'exécution soit stable, puis réajoutez-le après.
- Réduisez Num Frames (41 → 33 → 21).
- Gardez Layer Offloading OFF sauf si vous en avez vraiment besoin (cela peut rendre les exécutions plus lentes et plus sujettes au swap).
- Si du swapping est impliqué, augmentez MULTISTAGE Switch Every (10–50) pour éviter l'overhead de chargement/déchargement par pas.
- Préférez une quantification plus agressive pour la mémoire : Transformer 4bit with ARA (ou qfloat8 si ARA est instable) et Text Encoder float8/qfloat8.
L'entraînement est beaucoup plus lent que prévu (dizaines de secondes par pas)
L'entraînement LoRA Wan 2.2 I2V est lent par nature : chaque pas traite beaucoup de frames, et entraîner les deux experts signifie que vous avez souvent besoin de plus de pas au total pour donner à chaque étape assez de mises à jour.
Vérification de réalité (attentes de temps typiques) : avec 41 frames et buckets mixtes 512/768/1024, 3000 pas sur une H100 représente généralement des dizaines d'heures (souvent ~35–55 heures). L'échantillonnage à 81 frames représente environ ~2× ce calcul/temps. Sur des GPUs plus petits (surtout avec quantification + offloading), voir des dizaines de secondes par pas peut être normal.
Si cela semble déraisonnablement lent ou continue à ralentir au fil du temps :
- Réduisez Num Frames (41 → 33 → 21).
- Supprimez le bucket 1024 (restez à 512/768).
- Évitez Layer Offloading sauf si vous en avez vraiment besoin.
- Si Low VRAM/offload/swapping est activé, n'utilisez pas Switch Every = 1 ; utilisez 10–50.
- Si les prévisualisations sont activées, gardez l'échantillonnage peu fréquent (par exemple Sample Every = 250) pour que l'échantillonnage n'interrompe pas l'entraînement trop souvent.
8. Exporter et utiliser votre Wan I2V LoRA
Une fois l'entraînement terminé, vous pouvez utiliser votre Wan 2.2 I2V 14B LoRA de deux façons simples :
- Model playground – ouvrez le Wan 2.2 I2V 14B LoRA playground et collez l'URL de votre LoRA entraînée pour voir rapidement comment elle se comporte sur le modèle de base.
- Workflows ComfyUI – démarrez une instance ComfyUI, construisez un workflow, branchez votre LoRA et affinez son poids et autres paramètres pour un contrôle plus détaillé.
Plus de guides d'entraînement LoRA AI Toolkit
- Wan 2.2 T2V 14B entraînement LoRA text-to-vidéo
- FLUX.2 dev entraînement LoRA avec AI Toolkit
- Z-Image Turbo entraînement LoRA avec AI Toolkit (8-step Turbo)
- Qwen-Image-Edit-2511 entraînement LoRA avec AI Toolkit (édition multi-image)
- Qwen-Image-Edit-2509 entraînement LoRA avec AI Toolkit (édition multi-image)
- Qwen Image 2512 entraînement LoRA
- LTX-2 entraînement LoRA avec AI Toolkit
Ready to start training?

