Échangez n'importe quel intervenant à l'écran par votre propre personnage tout en gardant les mouvements, expressions et formes de bouche alignés avec l'audio original. Ce workflow ComfyUI, construit autour de Wan 2.2 Animate : Échange de Personnages & Synchronisation Labiale, détecte la pose corporelle et les cadres faciaux à partir d'une vidéo d'entrée, les réoriente vers une image de référence unique et rend un résultat cohérent, synchrone avec le discours.
Le workflow convient aux éditeurs, créateurs et chercheurs qui souhaitent un remplacement de personnage fiable pour des interviews, bandes démo, VTubing, diaporamas ou courts métrages doublés. Fournissez un clip source et une image de référence propre ; le pipeline recrée la pose et l'articulation labiale sur le nouveau personnage et mélange la bande sonore originale dans l'export final.
Le graphique se déplace à travers sept groupes : charger les entrées, construire une référence, prétraiter la pose/visage et les masques, charger les modèles de génération, exécuter le remplacement de personnage, prévisualiser les diagnostics, puis exporter avec l'audio.
Importez votre clip source avec VHS_LoadVideo (#63). Le nœud expose une largeur/hauteur optionnelle pour le redimensionnement et sort les cadres vidéo, l'audio et le nombre de cadres pour une utilisation en aval. Gardez le clip coupé près de la partie parlée si vous voulez un traitement plus rapide. L'audio est transmis à l'exportateur pour que la vidéo finale reste alignée avec la bande sonore originale.
Fournissez un portrait propre et unique du personnage cible. L'image est redimensionnée avec ImageResizeKJv2 (#64) pour correspondre à votre résolution de travail et est stockée comme référence canonique utilisée par CLIP Vision et le générateur. Privilégiez une image nette, orientée vers l'avant sous un éclairage similaire à votre plan source pour réduire la dérive de couleur et d'éclairage.
OnnxDetectionModelLoader (#178) charge YOLO et ViTPose, puis PoseAndFaceDetection (#172) analyse chaque cadre pour produire des points clés du corps entier et des recadrages de visage par cadre. Sam2Segmentation (#104) crée un masque de premier plan en utilisant soit des boîtes de délimitation détectées soit des points de cadre clé ; si un indice échoue, passez à l'autre pour une meilleure séparation. Le masque est affiné avec GrowMaskWithBlur (#182) et bloqué avec BlockifyMask (#108) pour donner au générateur une région de sujet stable et sans ambiguïté. Des superpositions optionnelles (DrawViTPose (#173) et DrawMaskOnImage (#99)) vous aident à vérifier visuellement la couverture de pose et la qualité du masque avant la génération.
WanVideoModelLoader (#22) charge Wan 2.2 Animate 14B, et WanVideoVAELoader (#38) fournit le VAE. Les caractéristiques d'identité du portrait de référence sont encodées par CLIPVisionLoader (#71) et WanVideoClipVisionEncode (#70). Le style et la stabilité sont ajustés avec WanVideoLoraSelectMulti (#171), tandis que WanVideoSetLoRAs (#48) et WanVideoSetBlockSwap (#50) appliquent les LoRAs et les paramètres de blocage au modèle ; ces outils proviennent de la bibliothèque wrapper Wan. Voir ComfyUI‑WanVideoWrapper pour les détails de l'implémentation.
WanVideoTextEncodeCached (#65) accepte une invite descriptive courte si vous souhaitez influencer l'apparence ou l'ambiance du plan. WanVideoAnimateEmbeds (#62) fusionne l'image de référence, la pose par cadre, les recadrages de visage, l'arrière-plan et le masque en embeddings d'image qui préservent l'identité tout en correspondant au mouvement et aux formes de bouche. WanVideoSampler (#27) rend ensuite les cadres ; son planificateur et ses étapes contrôlent le compromis netteté-mouvement. Les cadres décodés de WanVideoDecode (#28) sont remis aux inspecteurs de taille/compte pour que vous puissiez confirmer les dimensions avant l'exportation.
Pour un contrôle qualité rapide, le workflow concatène les entrées clés avec ImageConcatMulti (#77, #66) pour former une simple bande de comparaison de la référence, des recadrages de visage, de la visualisation de pose et d'un cadre brut. Utilisez-le pour vérifier la cohérence des indices d'identité et des formes de bouche juste après un test.
VHS_VideoCombine (#30) produit la vidéo finale et mélange l'audio original pour un timing parfait. Des exportateurs supplémentaires sont inclus pour que vous puissiez enregistrer des diagnostics intermédiaires ou des coupes alternatives si nécessaire. Pour de meilleurs résultats sur des clips plus longs, exportez d'abord un test court, puis itérez sur les mélanges LoRA et les masques avant de vous engager dans un rendu complet.
VHS_LoadVideo (#63)
Charge les cadres et l'audio original en une seule étape. Utilisez-le pour définir une résolution de travail qui correspond à votre budget GPU et pour confirmer le nombre de cadres que les nœuds en aval consommeront. De ComfyUI‑VideoHelperSuite.
PoseAndFaceDetection (#172)
Exécute YOLO et ViTPose pour extraire les boîtes de personnes, les points clés du corps entier et les recadrages de visage par cadre. De bons points clés sont la colonne vertébrale d'un transfert de mouvement crédible et sont directement réutilisés pour l'articulation labiale. De ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation (#104)
Construit un masque de premier plan autour du sujet en utilisant soit des boîtes de délimitation soit des indices de points de cadre clé. Si les cheveux ou les mains sont manqués, changez le type d'indice ou étendez les paramètres de flou/croissance avant de bloquer. De ComfyUI‑segment‑anything‑2.
WanVideoLoraSelectMulti (#171)
Vous permet de mélanger des LoRAs tels que Lightx2v et Wan22 Relight pour équilibrer la stabilité du mouvement, la cohérence de l'éclairage et la force d'identité. Augmentez le poids d'un LoRA pour plus d'influence, mais surveillez la sur-stylisation des visages. De ComfyUI‑WanVideoWrapper.
WanVideoAnimateEmbeds (#62)
Combine le portrait de référence, les images de pose, les recadrages de visage, les cadres d'arrière-plan et le masque en une représentation compacte qui conditionne Wan 2.2 Animate. Assurez-vous que width, height et num_frames correspondent à votre exportation prévue pour éviter les artefacts de rééchantillonnage. De ComfyUI‑WanVideoWrapper.
WanVideoSampler (#27)
Génère les cadres finaux. Utilisez des étapes plus élevées et un planificateur plus stable lorsque vous avez besoin de détails plus nets, ou un plan plus léger pour des aperçus rapides. Pour les clips très longs, vous pouvez éventuellement introduire des contrôles de fenêtre de contexte en connectant WanVideoContextOptions (#110) pour maintenir la cohérence temporelle à travers les fenêtres.
VHS_VideoCombine (#30)
Exporte la vidéo finie et mélange l'audio original pour que les mouvements labiaux restent synchronisés. L'option de découpage à l'audio garde la durée alignée avec la bande sonore. De ComfyUI‑VideoHelperSuite.
Sam2Segmentation entre les boîtes de délimitation et les points de cadre clé, puis augmentez légèrement le masque avant de le bloquer.WanVideoSetBlockSwap (#50) et retestez.Ce workflow Wan 2.2 Animate : Échange de Personnages & Synchronisation Labiale offre un transfert de mouvement cohérent et des formes de bouche synchrones avec le discours avec un minimum de configuration, rendant les échanges de personnages de haute qualité rapides et reproductibles à l'intérieur de ComfyUI.
Ce workflow implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement @MDMZ pour avoir construit l'ensemble du workflow, Kijai pour WAN 2.2 Animate et les nœuds ComfyUI associés, Wan-AI pour les actifs Wan2.2-Animate y compris la détection YOLOv10m, et Comfy-Org pour le modèle Wan 2.1 Clip Vision pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation originale et aux référentiels liés ci-dessous.
Remarque : L'utilisation des modèles, ensembles de données et code référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.
RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Playground, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.