Wan 2.2 Animate V2 est un flux de travail de génération de vidéos basé sur la pose qui transforme une seule image de référence plus une vidéo de pose de conduite en une animation réaliste préservant l'identité. Il s'appuie sur la première version avec une fidélité plus élevée, un mouvement plus fluide et une meilleure cohérence temporelle, tout en suivant de près le mouvement du corps entier et les expressions de la vidéo source.
Ce flux de travail ComfyUI est conçu pour les créateurs qui souhaitent des résultats rapides et fiables pour l'animation de personnages, les clips de danse et la narration axée sur la performance. Il combine un prétraitement robuste (pose, visage et masquage du sujet) avec la famille de modèles Wan 2.2 et des LoRAs optionnels, vous permettant de régler le style, l'éclairage et la gestion de l'arrière-plan en toute confiance.
À un niveau élevé, le pipeline extrait des indices de pose et de visage de la vidéo de conduite, encode l'identité à partir d'une seule image de référence, isole éventuellement le sujet avec un masque SAM 2, puis synthétise une vidéo qui correspond au mouvement tout en préservant l'identité. Le flux de travail est organisé en quatre groupes qui collaborent pour produire le résultat final et deux sorties de commodité pour une QA rapide (aperçus de pose et de masque).
Ce groupe charge votre image portrait ou corps entier, la redimensionne à la résolution cible et la rend disponible dans tout le graphe. L'image redimensionnée est stockée et réutilisée par Get_reference_image et prévisualisée pour que vous puissiez rapidement évaluer le cadrage. Les caractéristiques d'identité sont encodées par WanVideoClipVisionEncode (CLIP Vision) (#70), et la même image alimente WanVideoAnimateEmbeds (#62) en tant que ref_images pour une meilleure préservation de l'identité. Fournissez une référence claire et bien éclairée qui correspond au type de sujet dans la vidéo de conduite pour de meilleurs résultats. Un espace pour la tête et des occlusions minimales aident Wan 2.2 Animate V2 à se verrouiller sur la structure du visage et les vêtements.
La vidéo de conduite est chargée avec VHS_LoadVideo (#191), qui expose les cadres, l'audio, le nombre de cadres et les fps source pour une utilisation ultérieure. Les indices de pose et de visage sont extraits par OnnxDetectionModelLoader (#178) et PoseAndFaceDetection (#172), puis visualisés avec DrawViTPose (#173) pour que vous puissiez confirmer la qualité du suivi. L'isolation du sujet est gérée par Sam2Segmentation (#104), suivie de GrowMaskWithBlur (#182) et BlockifyMask (#108) pour produire un masque propre et stable ; un assistant DrawMaskOnImage (#99) prévisualise le matte. Le groupe standardise également la largeur, la hauteur et le nombre de cadres de la vidéo de conduite, afin que Wan 2.2 Animate V2 puisse correspondre aux paramètres spatiaux et temporels sans tâtonner. Les vérifications rapides exportent sous forme de courtes vidéos: une superposition de pose et un aperçu de masque pour une validation sans coup férir.
WanVideoVAELoader (#38) charge le VAE Wan et WanVideoModelLoader (#22) charge l'épine dorsale Wan 2.2 Animate. Les LoRAs optionnels sont choisis dans WanVideoLoraSelectMulti (#171) et appliqués via WanVideoSetLoRAs (#48); WanVideoBlockSwap (#51) peut être activé via WanVideoSetBlockSwap (#50) pour des ajustements architecturaux qui affectent le style et la fidélité. Les invites sont encodées par WanVideoTextEncodeCached (#65), tandis que WanVideoClipVisionEncode (#70) transforme l'image de référence en encodages d'identité robustes. WanVideoAnimateEmbeds (#62) fusionne les caractéristiques CLIP, l'image de référence, les images de pose, les recadrages de visage, les cadres d'arrière-plan optionnels, le masque SAM 2 et la résolution et le nombre de cadres choisis en un seul encodage d'animation. Ce flux alimente WanVideoSampler (#27), qui synthétise une vidéo latente cohérente avec votre invite, votre identité et vos indices de mouvement, et WanVideoDecode (#28) convertit les latents en cadres RVB.
Pour aider à comparer les résultats, le flux de travail assemble un simple côte à côte : la vidéo générée à côté d'une bande verticale qui montre l'image de référence, les recadrages de visage, la superposition de pose et un cadre de la vidéo de conduite. ImageConcatMulti (#77, #66) construit le collage visuel, puis VHS_VideoCombine (#30) rend un mp4 "Compare". La sortie finale propre est rendue par VHS_VideoCombine (#189), qui transporte également l'audio de la conduite pour des coupes de révision rapides. Ces exportations facilitent l'évaluation de la façon dont Wan 2.2 Animate V2 a suivi le mouvement, préservé l'identité et maintenu l'arrière-plan souhaité.
VHS_LoadVideo (#191)
Charge la vidéo de conduite et expose les cadres, l'audio et les métadonnées utilisés dans tout le graphe. Gardez le sujet entièrement visible avec un flou de mouvement minimal pour un suivi des points clés plus fort. Si vous souhaitez des tests plus courts, limitez le nombre de cadres chargés; gardez les fps source cohérents en aval pour éviter la désynchronisation audio dans la combinaison finale.
PoseAndFaceDetection (#172)
Exécute YOLO et ViTPose pour produire des points clés de corps entier et des recadrages de visage qui guident directement le transfert de mouvement. Alimentez-le avec les images du chargeur et la largeur et la hauteur standardisées; l'entrée facultative retarget_image permet d'adapter les poses à un cadrage différent si nécessaire. Si la superposition de pose semble bruyante, envisagez un modèle ViTPose de meilleure qualité et assurez-vous que le sujet n'est pas fortement occulté. Référence : ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation (#104)
Génère un masque de sujet qui peut préserver l'arrière-plan ou localiser le rééclairage dans Wan 2.2 Animate V2. Vous pouvez utiliser les boîtes de délimitation détectées de PoseAndFaceDetection ou dessiner des points positifs rapides si nécessaire pour affiner le matte. Associez-le à GrowMaskWithBlur pour des bords plus propres sur le mouvement rapide et examinez le résultat avec l'exportation d'aperçu de masque. Référence : Segment Anything 2.
WanVideoClipVisionEncode (#70)
Encode l'image de référence avec CLIP Vision pour capturer des indices d'identité tels que la structure du visage, les cheveux et les vêtements. Vous pouvez faire la moyenne de plusieurs images de référence pour stabiliser l'identité ou utiliser une image négative pour supprimer les traits indésirables. Les recadrages centrés avec un éclairage cohérent aident à produire des encodages plus forts.
WanVideoAnimateEmbeds (#62)
Fusionne les caractéristiques d'identité, les images de pose, les recadrages de visage, les cadres d'arrière-plan optionnels et le masque SAM 2 en un seul encodage d'animation. Alignez width, height et num_frames avec votre vidéo de conduite pour moins d'artefacts. Si vous voyez un dérive de l'arrière-plan, fournissez des cadres d'arrière-plan propres et un masque solide; si le visage dérive, assurez-vous que les recadrages de visage sont présents et bien éclairés.
WanVideoSampler (#27)
Produit les latents vidéo réels guidés par votre invite, vos LoRAs et l'encodage d'animation. Pour les longs clips, choisissez entre une stratégie de fenêtre coulissante ou les options de contexte du modèle; adaptez le fenêtrage à la longueur du clip pour équilibrer la netteté du mouvement et la cohérence à long terme. Ajustez le planificateur et la force de guidage pour échanger fidélité, adhérence au style et fluidité du mouvement, et envisagez d'activer le swap de bloc si votre pile de LoRA en bénéficie.
Ressources utiles utilisées dans ce flux de travail :
Ce flux de travail met en œuvre et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement le flux de travail de Benji’s AI Playground et l'équipe Wan pour le modèle Wan 2.2 Animate V2 pour leurs contributions et leur maintenance. Pour des détails autorisés, veuillez vous référer à la documentation et aux dépôts originaux liés ci-dessous.
Remarque : L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.
RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Playground, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.