Wan 2.2 Animate V2 est un flux de travail de génération de vidéos basé sur les poses qui transforme une seule image de référence plus une vidéo de pose motrice en une animation réaliste préservant l'identité. Il s'appuie sur la première version avec une fidélité plus élevée, un mouvement plus fluide et une meilleure cohérence temporelle, tout en suivant de près le mouvement et les expressions du corps entier à partir de la vidéo source.
Ce flux de travail ComfyUI est conçu pour les créateurs souhaitant des résultats rapides et fiables pour l'animation de personnages, les clips de danse et la narration axée sur la performance. Il combine un prétraitement robuste (pose, visage et masquage du sujet) avec la famille de modèles Wan 2.2 et des LoRAs optionnels, vous permettant de régler le style, l'éclairage et la gestion de l'arrière-plan en toute confiance.
À un niveau élevé, le pipeline extrait des indices de pose et de visage de la vidéo motrice, encode l'identité à partir d'une seule image de référence, isole éventuellement le sujet avec un masque SAM 2, puis synthétise une vidéo qui correspond au mouvement tout en préservant l'identité. Le flux de travail est organisé en quatre groupes qui collaborent pour produire le résultat final et deux sorties de commodité pour un QA rapide (aperçus de pose et de masque).
Ce groupe charge votre portrait ou image de corps entier, le redimensionne à la résolution cible et le rend disponible à travers le graphe. L'image redimensionnée est stockée et réutilisée par Get_reference_image
et prévisualisée pour que vous puissiez rapidement évaluer le cadrage. Les caractéristiques d'identité sont encodées par WanVideoClipVisionEncode
(CLIP Vision
) (#70), et la même image alimente WanVideoAnimateEmbeds
(#62) en tant que ref_images
pour une préservation d'identité plus forte. Fournissez une référence claire et bien éclairée qui correspond au type de sujet dans la vidéo motrice pour de meilleurs résultats. Un espace libre et des occultations minimales aident Wan 2.2 Animate V2 à verrouiller la structure du visage et les vêtements.
La vidéo motrice est chargée avec VHS_LoadVideo
(#191), qui expose les images, l'audio, le nombre d'images et la source fps pour une utilisation ultérieure. Les indices de pose et de visage sont extraits par OnnxDetectionModelLoader
(#178) et PoseAndFaceDetection
(#172), puis visualisés avec DrawViTPose
(#173) pour que vous puissiez confirmer la qualité du suivi. L'isolation du sujet est gérée par Sam2Segmentation
(#104), suivie par GrowMaskWithBlur
(#182) et BlockifyMask
(#108) pour produire un masque propre et stable ; un assistant DrawMaskOnImage
(#99) prévisualise le matte. Le groupe standardise également la largeur, la hauteur et le nombre d'images de la vidéo motrice, de sorte que Wan 2.2 Animate V2 peut correspondre aux paramètres spatiaux et temporels sans tâtonnements. Des vérifications rapides exportent sous forme de courtes vidéos : une superposition de pose et un aperçu de masque pour une validation à zéro coup.
WanVideoVAELoader
(#38) charge le Wan VAE et WanVideoModelLoader
(#22) charge la colonne vertébrale Wan 2.2 Animate. Les LoRAs optionnels sont choisis dans WanVideoLoraSelectMulti
(#171) et appliqués via WanVideoSetLoRAs
(#48) ; WanVideoBlockSwap
(#51) peut être activé via WanVideoSetBlockSwap
(#50) pour des ajustements architecturaux qui affectent le style et la fidélité. Les invites sont encodées par WanVideoTextEncodeCached
(#65), tandis que WanVideoClipVisionEncode
(#70) transforme l'image de référence en intégrations d'identité robustes. WanVideoAnimateEmbeds
(#62) fusionne les caractéristiques CLIP, l'image de référence, les images de pose, les recadrages de visage, les images d'arrière-plan optionnelles, le masque SAM 2, et la résolution et le nombre d'images choisis en une seule intégration d'animation. Ce flux alimente WanVideoSampler
(#27), qui synthétise une vidéo latente cohérente avec votre invite, votre identité et vos indices de mouvement, et WanVideoDecode
(#28) convertit les latents en images RGB.
Pour aider à comparer les sorties, le flux de travail assemble un simple côte à côte : la vidéo générée à côté d'une bande verticale qui montre l'image de référence, les recadrages de visage, la superposition de pose et une image de la vidéo motrice. ImageConcatMulti
(#77, #66) construit le collage visuel, puis VHS_VideoCombine
(#30) rend un mp4 "Compare". La sortie finale propre est rendue par VHS_VideoCombine
(#189), qui transporte également l'audio de la vidéo motrice pour des coupures de révision rapide. Ces exportations facilitent le jugement de la façon dont Wan 2.2 Animate V2 a suivi le mouvement, préservé l'identité et maintenu l'arrière-plan prévu.
VHS_LoadVideo
(#191)
Charge la vidéo motrice et expose les images, l'audio et les métadonnées utilisées à travers le graphe. Gardez le sujet entièrement visible avec un flou de mouvement minimal pour un suivi de points clés plus fort. Si vous voulez des tests plus courts, limitez le nombre d'images chargées ; gardez la source fps cohérente en aval pour éviter la désynchronisation de l'audio dans la combinaison finale.
PoseAndFaceDetection
(#172)
Exécute YOLO et ViTPose pour produire des points clés du corps entier et des recadrages de visage qui guident directement le transfert de mouvement. Alimentez-le avec les images du chargeur et la largeur et la hauteur standardisées ; l'entrée retarget_image
optionnelle permet d'adapter les poses à un cadrage différent si nécessaire. Si la superposition de pose semble bruyante, envisagez un modèle ViTPose de meilleure qualité et assurez-vous que le sujet n'est pas fortement occulté. Référence : ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation
(#104)
Génère un masque de sujet qui peut préserver l'arrière-plan ou localiser le rééclairage dans Wan 2.2 Animate V2. Vous pouvez utiliser les boîtes de détection détectées à partir de PoseAndFaceDetection
ou dessiner rapidement des points positifs si nécessaire pour affiner le matte. Associez-le à GrowMaskWithBlur
pour des bords plus propres sur les mouvements rapides et examinez le résultat avec l'exportation d'aperçu du masque. Référence : Segment Anything 2.
WanVideoClipVisionEncode
(#70)
Encode l'image de référence avec CLIP Vision pour capturer les indices d'identité comme la structure faciale, les cheveux et les vêtements. Vous pouvez moyenner plusieurs images de référence pour stabiliser l'identité ou utiliser une image négative pour supprimer les traits indésirables. Les recadrages centrés avec un éclairage cohérent aident à produire des intégrations plus fortes.
WanVideoAnimateEmbeds
(#62)
Fusionne les caractéristiques d'identité, les images de pose, les recadrages de visage, les images d'arrière-plan optionnelles et le masque SAM 2 en une seule intégration d'animation. Alignez width
, height
et num_frames
avec votre vidéo motrice pour moins d'artefacts. Si vous voyez une dérive de l'arrière-plan, fournissez des images d'arrière-plan propres et un masque solide ; si le visage dérive, assurez-vous que les recadrages de visage sont présents et bien éclairés.
WanVideoSampler
(#27)
Produit les latents vidéo réels guidés par votre invite, LoRAs et l'intégration d'animation. Pour les clips longs, choisissez entre une stratégie de fenêtre glissante ou les options de contexte du modèle ; adaptez la fenêtrage à la longueur du clip pour équilibrer la netteté du mouvement et la cohérence à long terme. Ajustez le planificateur et la force de guidage pour échanger la fidélité, l'adhérence au style et la fluidité du mouvement, et envisagez d'activer le swap de bloc si votre pile LoRA en bénéficie.
Ressources utiles utilisées dans ce flux de travail :
Ce flux de travail implémente et s'appuie sur les travaux et ressources suivants. Nous remercions sincèrement le workflow de Benji’s AI Playground et l'équipe Wan pour le modèle Wan 2.2 Animate V2 pour leurs contributions et leur maintenance. Pour des détails autorisés, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.
Remarque : L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.
RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Playground, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.