ComfyUI>Workflows>Wan 2.2 Animate V2 | Générateur de vidéos de pose réalistes

Wan 2.2 Animate V2 | Générateur de vidéos de pose réalistes

Workflow Name: RunComfy/Wan-2-2-Animate-V2

Workflow ID: 0000...1300

Ce flux de travail amélioré vous permet de transformer des images de référence et des vidéos de pose en animations réalistes de corps entier. Avec un réalisme amélioré et une fluidité de mouvement accrue, il capture précisément les expressions et la dynamique corporelle. La cohérence temporelle améliorée garantit des résultats cinématographiques à chaque fois. Idéal pour les animateurs, les conteurs et les créateurs de contenu recherchant un mouvement naturel. Vous pouvez créer des scènes de danse, des rendus de performances ou des clips de personnages réalistes de manière efficace. Expérimentez un contrôle de mouvement plus fluide et des rendus de haute fidélité comme jamais auparavant.

Flux de travail de génération de vidéos basé sur la pose Wan 2.2 Animate V2 pour ComfyUI

Wan 2.2 Animate V2 est un flux de travail de génération de vidéos basé sur la pose qui transforme une seule image de référence plus une vidéo de pose de conduite en une animation réaliste préservant l'identité. Il s'appuie sur la première version avec une fidélité plus élevée, un mouvement plus fluide et une meilleure cohérence temporelle, tout en suivant de près le mouvement du corps entier et les expressions de la vidéo source.

Ce flux de travail ComfyUI est conçu pour les créateurs qui souhaitent des résultats rapides et fiables pour l'animation de personnages, les clips de danse et la narration axée sur la performance. Il combine un prétraitement robuste (pose, visage et masquage du sujet) avec la famille de modèles Wan 2.2 et des LoRAs optionnels, vous permettant de régler le style, l'éclairage et la gestion de l'arrière-plan en toute confiance.

Modèles clés dans le flux de travail ComfyUI Wan 2.2 Animate V2

Wan 2.2 Animate 14B. Modèle de diffusion vidéo principal qui synthétise des cadres temporellement cohérents à partir d'encodages multimodaux. Poids : Kijai/WanVideo_comfy_fp8_scaled (Wan22Animate).
Wan 2.1 VAE. Décodeur/encodeur vidéo latent utilisé par la famille Wan pour reconstruire des cadres RVB avec une perte minimale. Poids : Wan2_1_VAE_bf16.safetensors.
UMT5‑XXL encodeur de texte. Encode les invites qui guident l'apparence, la scène et les cinématiques. Poids : umt5‑xxl‑enc‑bf16.safetensors.
CLIP Vision (ViT‑H/14). Extrait des caractéristiques préservant l'identité de l'image de référence. Article : CLIP.
ViTPose Whole‑Body (ONNX). Estime les points clés denses du corps qui pilotent le transfert de mouvement. Modèles : ViTPose‑L WholeBody et ViTPose‑H WholeBody. Article : ViTPose.
Détecteur YOLOv10. Fournit des boîtes de personnes pour stabiliser la détection de pose et la segmentation. Exemple : yolov10m.onnx.
Segment Anything 2. Masques de sujet de haute qualité pour la préservation de l'arrière-plan, le compositing ou les aperçus d'éclairage. Dépôt : facebookresearch/segment-anything-2.
LoRAs optionnels pour le style et le transport de la lumière. Utile pour le rééclairage et le détail de texture dans les rendus Wan 2.2 Animate V2. Exemples : Lightx2v et Wan22_relight.

Comment utiliser le flux de travail ComfyUI Wan 2.2 Animate V2

À un niveau élevé, le pipeline extrait des indices de pose et de visage de la vidéo de conduite, encode l'identité à partir d'une seule image de référence, isole éventuellement le sujet avec un masque SAM 2, puis synthétise une vidéo qui correspond au mouvement tout en préservant l'identité. Le flux de travail est organisé en quatre groupes qui collaborent pour produire le résultat final et deux sorties de commodité pour une QA rapide (aperçus de pose et de masque).

Image de référence

Ce groupe charge votre image portrait ou corps entier, la redimensionne à la résolution cible et la rend disponible dans tout le graphe. L'image redimensionnée est stockée et réutilisée par Get_reference_image et prévisualisée pour que vous puissiez rapidement évaluer le cadrage. Les caractéristiques d'identité sont encodées par WanVideoClipVisionEncode (CLIP Vision) (#70), et la même image alimente WanVideoAnimateEmbeds (#62) en tant que ref_images pour une meilleure préservation de l'identité. Fournissez une référence claire et bien éclairée qui correspond au type de sujet dans la vidéo de conduite pour de meilleurs résultats. Un espace pour la tête et des occlusions minimales aident Wan 2.2 Animate V2 à se verrouiller sur la structure du visage et les vêtements.

Prétraitement

La vidéo de conduite est chargée avec VHS_LoadVideo (#191), qui expose les cadres, l'audio, le nombre de cadres et les fps source pour une utilisation ultérieure. Les indices de pose et de visage sont extraits par OnnxDetectionModelLoader (#178) et PoseAndFaceDetection (#172), puis visualisés avec DrawViTPose (#173) pour que vous puissiez confirmer la qualité du suivi. L'isolation du sujet est gérée par Sam2Segmentation (#104), suivie de GrowMaskWithBlur (#182) et BlockifyMask (#108) pour produire un masque propre et stable ; un assistant DrawMaskOnImage (#99) prévisualise le matte. Le groupe standardise également la largeur, la hauteur et le nombre de cadres de la vidéo de conduite, afin que Wan 2.2 Animate V2 puisse correspondre aux paramètres spatiaux et temporels sans tâtonner. Les vérifications rapides exportent sous forme de courtes vidéos: une superposition de pose et un aperçu de masque pour une validation sans coup férir.

Modèles

WanVideoVAELoader (#38) charge le VAE Wan et WanVideoModelLoader (#22) charge l'épine dorsale Wan 2.2 Animate. Les LoRAs optionnels sont choisis dans WanVideoLoraSelectMulti (#171) et appliqués via WanVideoSetLoRAs (#48); WanVideoBlockSwap (#51) peut être activé via WanVideoSetBlockSwap (#50) pour des ajustements architecturaux qui affectent le style et la fidélité. Les invites sont encodées par WanVideoTextEncodeCached (#65), tandis que WanVideoClipVisionEncode (#70) transforme l'image de référence en encodages d'identité robustes. WanVideoAnimateEmbeds (#62) fusionne les caractéristiques CLIP, l'image de référence, les images de pose, les recadrages de visage, les cadres d'arrière-plan optionnels, le masque SAM 2 et la résolution et le nombre de cadres choisis en un seul encodage d'animation. Ce flux alimente WanVideoSampler (#27), qui synthétise une vidéo latente cohérente avec votre invite, votre identité et vos indices de mouvement, et WanVideoDecode (#28) convertit les latents en cadres RVB.

Collage de résultats

Pour aider à comparer les résultats, le flux de travail assemble un simple côte à côte : la vidéo générée à côté d'une bande verticale qui montre l'image de référence, les recadrages de visage, la superposition de pose et un cadre de la vidéo de conduite. ImageConcatMulti (#77, #66) construit le collage visuel, puis VHS_VideoCombine (#30) rend un mp4 "Compare". La sortie finale propre est rendue par VHS_VideoCombine (#189), qui transporte également l'audio de la conduite pour des coupes de révision rapides. Ces exportations facilitent l'évaluation de la façon dont Wan 2.2 Animate V2 a suivi le mouvement, préservé l'identité et maintenu l'arrière-plan souhaité.

Nœuds clés dans le flux de travail ComfyUI Wan 2.2 Animate V2

VHS_LoadVideo (#191)
Charge la vidéo de conduite et expose les cadres, l'audio et les métadonnées utilisés dans tout le graphe. Gardez le sujet entièrement visible avec un flou de mouvement minimal pour un suivi des points clés plus fort. Si vous souhaitez des tests plus courts, limitez le nombre de cadres chargés; gardez les fps source cohérents en aval pour éviter la désynchronisation audio dans la combinaison finale.

PoseAndFaceDetection (#172)
Exécute YOLO et ViTPose pour produire des points clés de corps entier et des recadrages de visage qui guident directement le transfert de mouvement. Alimentez-le avec les images du chargeur et la largeur et la hauteur standardisées; l'entrée facultative retarget_image permet d'adapter les poses à un cadrage différent si nécessaire. Si la superposition de pose semble bruyante, envisagez un modèle ViTPose de meilleure qualité et assurez-vous que le sujet n'est pas fortement occulté. Référence : ComfyUI‑WanAnimatePreprocess.

Sam2Segmentation (#104)
Génère un masque de sujet qui peut préserver l'arrière-plan ou localiser le rééclairage dans Wan 2.2 Animate V2. Vous pouvez utiliser les boîtes de délimitation détectées de PoseAndFaceDetection ou dessiner des points positifs rapides si nécessaire pour affiner le matte. Associez-le à GrowMaskWithBlur pour des bords plus propres sur le mouvement rapide et examinez le résultat avec l'exportation d'aperçu de masque. Référence : Segment Anything 2.

WanVideoClipVisionEncode (#70)
Encode l'image de référence avec CLIP Vision pour capturer des indices d'identité tels que la structure du visage, les cheveux et les vêtements. Vous pouvez faire la moyenne de plusieurs images de référence pour stabiliser l'identité ou utiliser une image négative pour supprimer les traits indésirables. Les recadrages centrés avec un éclairage cohérent aident à produire des encodages plus forts.

WanVideoAnimateEmbeds (#62)
Fusionne les caractéristiques d'identité, les images de pose, les recadrages de visage, les cadres d'arrière-plan optionnels et le masque SAM 2 en un seul encodage d'animation. Alignez width, height et num_frames avec votre vidéo de conduite pour moins d'artefacts. Si vous voyez un dérive de l'arrière-plan, fournissez des cadres d'arrière-plan propres et un masque solide; si le visage dérive, assurez-vous que les recadrages de visage sont présents et bien éclairés.

WanVideoSampler (#27)
Produit les latents vidéo réels guidés par votre invite, vos LoRAs et l'encodage d'animation. Pour les longs clips, choisissez entre une stratégie de fenêtre coulissante ou les options de contexte du modèle; adaptez le fenêtrage à la longueur du clip pour équilibrer la netteté du mouvement et la cohérence à long terme. Ajustez le planificateur et la force de guidage pour échanger fidélité, adhérence au style et fluidité du mouvement, et envisagez d'activer le swap de bloc si votre pile de LoRA en bénéficie.

Extras optionnels

Commencez avec un clip de conduite propre : une caméra stable, un éclairage simple et une occlusion minimale donnent à Wan 2.2 Animate V2 les meilleures chances de suivre le mouvement proprement.
Utilisez une référence qui correspond à la tenue et au cadrage cibles; évitez les angles extrêmes ou les filtres lourds qui entrent en conflit avec votre invite ou vos LoRAs.
Préservez ou remplacez les arrière-plans avec le masque SAM 2; lors de la composition, gardez les bords suffisamment doux pour éviter l'effet de halo sur les mouvements rapides.
Gardez les fps cohérents du chargement à l'exportation pour maintenir la synchronisation des lèvres et l'alignement du rythme lors de la conservation de l'audio.
Pour une itération rapide, testez d'abord un court segment, puis étendez la plage de cadres une fois que la pose, l'identité et l'éclairage semblent corrects.

Ressources utiles utilisées dans ce flux de travail :

Nœuds de prétraitement : kijai/ComfyUI‑WanAnimatePreprocess
Modèles ViTPose ONNX : ViTPose‑L, Modèle ViTPose‑H et données
Détecteur YOLOv10 : yolov10m.onnx
Poids Wan 2.2 Animate 14B : Wan22Animate
LoRAs : Lightx2v, Wan22_relight

Remerciements

Ce flux de travail met en œuvre et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement le flux de travail de Benji’s AI Playground et l'équipe Wan pour le modèle Wan 2.2 Animate V2 pour leurs contributions et leur maintenance. Pour des détails autorisés, veuillez vous référer à la documentation et aux dépôts originaux liés ci-dessous.

Ressources

Équipe Wan/Wan 2.2 Animate V2
- Docs / Notes de version : YouTube @Benji’s AI Playground

Remarque : L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

Wan 2.2 | Leader Open-Source en Génération Vidéo

Disponible maintenant ! Meilleure précision + mouvement plus fluide.

Wan 2.2 FLF2V | Génération de Vidéo Premier-Dernier Cadre

Générez des vidéos fluides à partir d'un cadre de début et de fin en utilisant Wan 2.2 FLF2V.

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Rapide

Configuration Dual Light LoRA, 4X plus rapide.

Wan 2.2 Lightning T2V I2V | 4 Étapes Ultra Rapide

Wan 2.2 maintenant 20x plus rapide ! T2V + I2V en 4 étapes.

Wan2.2 Animate | Photo en vidéo réaliste

Transformez des images en personnages vivants et animés avec un mouvement naturel du corps et du visage.

Hunyuan3D-2 | Générateur d'actifs 3D à la pointe

Générez des actifs 3D texturés précis à partir d'images avec la technologie IA de pointe.

Style Argile avec Unsampling

Convertissez votre vidéo en style argile en utilisant la méthode Unsampling.

ControlNet Tile + 4x UltraSharp | Outil d'upscale d'image/vidéo

Utilisez ControlNet Tile, 4xUltraSharp et l'interpolation de frames pour un résultat haute résolution.

Support

Ressources

Légal

RunComfy

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Playground, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.