Wan 2.2 Animate : Échange de Personnages & Synchronisation Labiale

Tutoriel de Workflow

Wan 2.2 Animate : Échange de Personnages & Synchronisation Labiale

Échangez n'importe quel intervenant à l'écran par votre propre personnage tout en gardant les mouvements, expressions et formes de bouche alignés avec l'audio original. Ce workflow ComfyUI, construit autour de Wan 2.2 Animate : Échange de Personnages & Synchronisation Labiale, détecte la pose corporelle et les cadres faciaux à partir d'une vidéo d'entrée, les réoriente vers une image de référence unique et rend un résultat cohérent, synchrone avec le discours.

Le workflow convient aux éditeurs, créateurs et chercheurs qui souhaitent un remplacement de personnage fiable pour des interviews, bandes démo, VTubing, diaporamas ou courts métrages doublés. Fournissez un clip source et une image de référence propre ; le pipeline recrée la pose et l'articulation labiale sur le nouveau personnage et mélange la bande sonore originale dans l'export final.

Modèles clés dans le workflow Comfyui Wan 2.2 Animate : Échange de Personnages & Synchronisation Labiale

Wan 2.2 Animate 14B (FP8 scaled) : le générateur vidéo principal qui synthétise le personnage réorienté à travers les cadres en utilisant les signaux de pose, de visage et de contexte. Model hub
Wan 2.1 VAE (bf16) : encode/décode les latents vidéo utilisés par Wan lors de l'échantillonnage et de la sortie. Weights
UMT5‑XXL Text Encoder (bf16) : construit des embeddings de texte pour un léger guidage ou des descripteurs de plans. Weights
CLIP Vision H : extrait des caractéristiques d'image robustes du portrait de référence pour préserver l'identité. Weights
Lightx2v I2V 14B LoRA : améliore la stabilité et la fidélité image-à-vidéo lors de l'utilisation de cadres de référence. LoRA
Wan22 Relight LoRA : aide à maintenir un éclairage et une ombre uniformes tout au long du plan. LoRA
YOLOv10m (ONNX) : détection rapide de personnes/visages utilisée avant l'estimation de pose. Model
ViTPose WholeBody Large (ONNX) : points clés squelettiques de haute qualité pour le transfert de mouvement du corps entier. Model
Segment Anything 2.1 : segmentation pour des masques de premier plan propres qui guident le remplacement. Repo

Comment utiliser le workflow Comfyui Wan 2.2 Animate : Échange de Personnages & Synchronisation Labiale

Le graphique se déplace à travers sept groupes : charger les entrées, construire une référence, prétraiter la pose/visage et les masques, charger les modèles de génération, exécuter le remplacement de personnage, prévisualiser les diagnostics, puis exporter avec l'audio.

Charger la vidéo

Importez votre clip source avec VHS_LoadVideo (#63). Le nœud expose une largeur/hauteur optionnelle pour le redimensionnement et sort les cadres vidéo, l'audio et le nombre de cadres pour une utilisation en aval. Gardez le clip coupé près de la partie parlée si vous voulez un traitement plus rapide. L'audio est transmis à l'exportateur pour que la vidéo finale reste alignée avec la bande sonore originale.

Image de référence

Fournissez un portrait propre et unique du personnage cible. L'image est redimensionnée avec ImageResizeKJv2 (#64) pour correspondre à votre résolution de travail et est stockée comme référence canonique utilisée par CLIP Vision et le générateur. Privilégiez une image nette, orientée vers l'avant sous un éclairage similaire à votre plan source pour réduire la dérive de couleur et d'éclairage.

Prétraitement

OnnxDetectionModelLoader (#178) charge YOLO et ViTPose, puis PoseAndFaceDetection (#172) analyse chaque cadre pour produire des points clés du corps entier et des recadrages de visage par cadre. Sam2Segmentation (#104) crée un masque de premier plan en utilisant soit des boîtes de délimitation détectées soit des points de cadre clé ; si un indice échoue, passez à l'autre pour une meilleure séparation. Le masque est affiné avec GrowMaskWithBlur (#182) et bloqué avec BlockifyMask (#108) pour donner au générateur une région de sujet stable et sans ambiguïté. Des superpositions optionnelles (DrawViTPose (#173) et DrawMaskOnImage (#99)) vous aident à vérifier visuellement la couverture de pose et la qualité du masque avant la génération.

Modèles

WanVideoModelLoader (#22) charge Wan 2.2 Animate 14B, et WanVideoVAELoader (#38) fournit le VAE. Les caractéristiques d'identité du portrait de référence sont encodées par CLIPVisionLoader (#71) et WanVideoClipVisionEncode (#70). Le style et la stabilité sont ajustés avec WanVideoLoraSelectMulti (#171), tandis que WanVideoSetLoRAs (#48) et WanVideoSetBlockSwap (#50) appliquent les LoRAs et les paramètres de blocage au modèle ; ces outils proviennent de la bibliothèque wrapper Wan. Voir ComfyUI‑WanVideoWrapper pour les détails de l'implémentation.

Remplacement de personnage

WanVideoTextEncodeCached (#65) accepte une invite descriptive courte si vous souhaitez influencer l'apparence ou l'ambiance du plan. WanVideoAnimateEmbeds (#62) fusionne l'image de référence, la pose par cadre, les recadrages de visage, l'arrière-plan et le masque en embeddings d'image qui préservent l'identité tout en correspondant au mouvement et aux formes de bouche. WanVideoSampler (#27) rend ensuite les cadres ; son planificateur et ses étapes contrôlent le compromis netteté-mouvement. Les cadres décodés de WanVideoDecode (#28) sont remis aux inspecteurs de taille/compte pour que vous puissiez confirmer les dimensions avant l'exportation.

Collage de résultats

Pour un contrôle qualité rapide, le workflow concatène les entrées clés avec ImageConcatMulti (#77, #66) pour former une simple bande de comparaison de la référence, des recadrages de visage, de la visualisation de pose et d'un cadre brut. Utilisez-le pour vérifier la cohérence des indices d'identité et des formes de bouche juste après un test.

Sortie

VHS_VideoCombine (#30) produit la vidéo finale et mélange l'audio original pour un timing parfait. Des exportateurs supplémentaires sont inclus pour que vous puissiez enregistrer des diagnostics intermédiaires ou des coupes alternatives si nécessaire. Pour de meilleurs résultats sur des clips plus longs, exportez d'abord un test court, puis itérez sur les mélanges LoRA et les masques avant de vous engager dans un rendu complet.

Nœuds clés dans le workflow Comfyui Wan 2.2 Animate : Échange de Personnages & Synchronisation Labiale

VHS_LoadVideo (#63) Charge les cadres et l'audio original en une seule étape. Utilisez-le pour définir une résolution de travail qui correspond à votre budget GPU et pour confirmer le nombre de cadres que les nœuds en aval consommeront. De ComfyUI‑VideoHelperSuite.

PoseAndFaceDetection (#172) Exécute YOLO et ViTPose pour extraire les boîtes de personnes, les points clés du corps entier et les recadrages de visage par cadre. De bons points clés sont la colonne vertébrale d'un transfert de mouvement crédible et sont directement réutilisés pour l'articulation labiale. De ComfyUI‑WanAnimatePreprocess.

Sam2Segmentation (#104) Construit un masque de premier plan autour du sujet en utilisant soit des boîtes de délimitation soit des indices de points de cadre clé. Si les cheveux ou les mains sont manqués, changez le type d'indice ou étendez les paramètres de flou/croissance avant de bloquer. De ComfyUI‑segment‑anything‑2.

WanVideoLoraSelectMulti (#171) Vous permet de mélanger des LoRAs tels que Lightx2v et Wan22 Relight pour équilibrer la stabilité du mouvement, la cohérence de l'éclairage et la force d'identité. Augmentez le poids d'un LoRA pour plus d'influence, mais surveillez la sur-stylisation des visages. De ComfyUI‑WanVideoWrapper.

WanVideoAnimateEmbeds (#62) Combine le portrait de référence, les images de pose, les recadrages de visage, les cadres d'arrière-plan et le masque en une représentation compacte qui conditionne Wan 2.2 Animate. Assurez-vous que width, height et num_frames correspondent à votre exportation prévue pour éviter les artefacts de rééchantillonnage. De ComfyUI‑WanVideoWrapper.

WanVideoSampler (#27) Génère les cadres finaux. Utilisez des étapes plus élevées et un planificateur plus stable lorsque vous avez besoin de détails plus nets, ou un plan plus léger pour des aperçus rapides. Pour les clips très longs, vous pouvez éventuellement introduire des contrôles de fenêtre de contexte en connectant WanVideoContextOptions (#110) pour maintenir la cohérence temporelle à travers les fenêtres.

VHS_VideoCombine (#30) Exporte la vidéo finie et mélange l'audio original pour que les mouvements labiaux restent synchronisés. L'option de découpage à l'audio garde la durée alignée avec la bande sonore. De ComfyUI‑VideoHelperSuite.

Extras optionnels

Utilisez une référence nette et orientée vers l'avant avec des lèvres neutres pour le transfert d'identité le plus propre ; évitez le maquillage lourd ou les occlusions.
Si la segmentation manque les cheveux ou les accessoires, essayez de changer les indices Sam2Segmentation entre les boîtes de délimitation et les points de cadre clé, puis augmentez légèrement le masque avant de le bloquer.
Lightx2v LoRA améliore la stabilité I2V ; Wan22 Relight LoRA aide à faire correspondre l'éclairage incohérent. De petits changements de poids peuvent résoudre le scintillement sans trop cuire un look.
Le changement de bloc peut réduire la dérive d'identité sur les longs plans ; si les visages s'adoucissent avec le temps, activez-le dans WanVideoSetBlockSwap (#50) et retestez.
Gardez la résolution de travail proportionnelle à la source pour éviter la distorsion de l'aspect ; augmentez seulement lorsque l'image de référence est suffisamment détaillée pour le supporter.
Pour des exécutions capables, l'activation de la compilation torch et de l'attention efficace dans les nœuds de wrapper peut accélérer l'échantillonnage ; voir ComfyUI‑WanVideoWrapper pour des conseils.

Ce workflow Wan 2.2 Animate : Échange de Personnages & Synchronisation Labiale offre un transfert de mouvement cohérent et des formes de bouche synchrones avec le discours avec un minimum de configuration, rendant les échanges de personnages de haute qualité rapides et reproductibles à l'intérieur de ComfyUI.

Remerciements

Ce workflow implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement @MDMZ pour avoir construit l'ensemble du workflow, Kijai pour WAN 2.2 Animate et les nœuds ComfyUI associés, Wan-AI pour les actifs Wan2.2-Animate y compris la détection YOLOv10m, et Comfy-Org pour le modèle Wan 2.1 Clip Vision pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation originale et aux référentiels liés ci-dessous.

Ressources

Tutoriel de Workflow
- Youtube : ComfyUI-Tutorial de @MDMZ

Remarque : L'utilisation des modèles, ensembles de données et code référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

Wan 2.2 Lightning T2V I2V | 4 Étapes Ultra Rapide

Wan 2.2 maintenant 20x plus rapide ! T2V + I2V en 4 étapes.

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Rapide

Configuration Dual Light LoRA, 4X plus rapide.

Wan 2.2 FLF2V | Génération de Vidéo Premier-Dernier Cadre

Générez des vidéos fluides à partir d'un cadre de début et de fin en utilisant Wan 2.2 FLF2V.

Wan 2.2 | Leader Open-Source en Génération Vidéo

Disponible maintenant ! Meilleure précision + mouvement plus fluide.

EchoMimic | Animations de Portraits Dirigées par l'Audio

Générez des têtes parlantes réalistes et des gestes corporels synchronisés avec l'audio fourni.

Stable Diffusion 3.5

Stable Diffusion 3.5 (SD3.5) pour une génération d'images de haute qualité et diverse.

Face Detailer | Corriger les visages

Utilisez d'abord Face Detailer pour la restauration faciale, puis le modèle 4x UltraSharp pour un upscaling supérieur.

MMAudio | Vidéo-à-Audio

MMAudio : Modèle vidéo-à-audio avancé pour la génération audio de haute qualité.

Support

Ressources

Légal

RunComfy

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Models, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.

Wan 2.2 Animate | Échange de Personnages & Synchronisation Labiale

Tutoriel de Workflow