ComfyUI>Workflows>Remplacement de Personnage Vidéo (MoCha) | Outil d'Échange Réaliste

Remplacement de Personnage Vidéo (MoCha) | Outil d'Échange Réaliste

Workflow Name: RunComfy/Video-Character-Replacement-MoCha

Workflow ID: 0000...1304

Avec ce flux de travail, vous pouvez transformer des vidéos existantes en remplaçant des acteurs ou des personnages tout en maintenant le mouvement naturel, l'éclairage et la perspective de la caméra. Conçu pour les créateurs qui ont besoin de réalisme cinématographique, il prend en charge la cartographie détaillée de l'apparence et le mouvement cohérent. Vous pouvez facilement adapter l'identité et l'expression des personnages pour s'adapter à n'importe quelle scène. Idéal pour les conteurs, les artistes visuels et les cinéastes cherchant une efficacité de production assistée par l'IA. Le processus garantit une sortie vidéo riche et réaliste avec un minimum d'effort de montage.

Flux de travail de Remplacement de Personnage Vidéo (MoCha) pour ComfyUI

Ce flux de travail offre un Remplacement de Personnage Vidéo (MoCha) de bout en bout : échangez un interprète dans une vidéo réelle avec un nouveau personnage tout en préservant le mouvement, l'éclairage, la perspective de la caméra et la continuité de la scène. Construit autour de l'aperçu Wan 2.1 MoCha 14B, il aligne une identité de référence à la performance source, puis synthétise un clip édité cohérent et une comparaison côte à côte optionnelle. Il est conçu pour les cinéastes, les artistes VFX et les créateurs d'IA qui ont besoin d'échanges de personnages précis et de haute qualité avec un minimum de nettoyage manuel.

Le pipeline combine un masquage robuste du premier cadre avec Segment Anything 2 (SAM 2), les embeddings d'images sensibles au mouvement de MoCha, l'échantillonnage/décodage WanVideo, et une assistance portrait optionnelle qui améliore la fidélité du visage. Vous fournissez une vidéo source et une ou deux images de référence ; le flux de travail produit une vidéo de remplacement finie plus une comparaison A/B, rendant l'évaluation itérative du Remplacement de Personnage Vidéo (MoCha) rapide et pratique.

Modèles clés dans le flux de travail de Remplacement de Personnage Vidéo (MoCha) pour Comfyui

Wan 2.1 MoCha 14B preview. Générateur vidéo principal pour le remplacement de personnage ; conduit la synthèse temporellement cohérente à partir des embeddings d'images MoCha et des invites textuelles. Poids du modèle distribués au format Comfy de WanVideo par Kijai, y compris les variantes scalées fp8 pour l'efficacité. Hugging Face: Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
MoCha (Orange‑3DV‑Team). Méthode de conditionnement de l'identité/mouvement et implémentation de référence qui a inspiré l'étape d'embedding utilisée ici ; utile pour comprendre la sélection de référence et l'alignement des poses pour le Remplacement de Personnage Vidéo (MoCha). GitHub, Hugging Face
Segment Anything 2 (SAM 2). Segmentation guidée par points de haute qualité pour isoler l'acteur dans le premier cadre ; des masques propres sont cruciaux pour des échanges stables et sans artefacts. GitHub: facebookresearch/segment-anything-2
Qwen‑Image‑Edit 2509 + Lightning LoRA. Assistance d'image unique optionnelle qui génère un portrait propre et rapproché à utiliser comme deuxième référence, améliorant la préservation de l'identité faciale dans les prises de vue difficiles. Hugging Face: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning
Wan 2.1 VAE. VAE vidéo utilisé par les étapes d'échantillonnage/décodage Wan pour un traitement latent efficace. Hugging Face: Kijai/WanVideo_comfy

Comment utiliser le flux de travail de Remplacement de Personnage Vidéo (MoCha) pour Comfyui

Logique générale

Le flux de travail prend un clip source, prépare un masque du premier cadre, et encode vos références de personnage en embeddings d'images MoCha. Wan 2.1 échantillonne ensuite les cadres édités et les décode en vidéo. En parallèle, une petite branche d'édition d'image peut générer un portrait pour agir comme deuxième référence optionnelle pour le détail du visage. Le graphe rend également une comparaison côte à côte pour évaluer rapidement votre résultat de Remplacement de Personnage Vidéo (MoCha).

Vidéo d'entrée

Chargez une vidéo dans "Vidéo d'entrée". Le flux de travail normalise les cadres (recadrage par défaut 1280×720) et préserve automatiquement le taux de trame du clip pour l'exportation finale. Le premier cadre est exposé pour inspection et masquage en aval. Un nœud de prévisualisation montre les cadres d'entrée bruts pour que vous puissiez confirmer le recadrage et l'exposition avant de continuer.

Masque du Premier Cadre

Utilisez l'éditeur de points interactif pour cliquer sur des points positifs sur l'acteur et des points négatifs sur le fond ; SAM 2 convertit ces clics en un masque précis. Une petite étape de croissance et de flou étend le masque pour éviter les halos sur les bords et le mouvement entre les cadres. Le mat résultant est prévisualisé, et le même masque est envoyé à l'étape d'embedding MoCha. Un bon masquage dans ce groupe améliore matériellement la stabilité dans le Remplacement de Personnage Vidéo (MoCha).

ref1

"ref1" est votre image d'identité principale de personnage. Le flux de travail enlève le fond, centre le recadrage, et redimensionne pour correspondre à la résolution de travail de la vidéo. Pour de meilleurs résultats, utilisez une référence avec un fond propre dont la pose correspond approximativement à l'acteur source dans le premier cadre ; l'encodeur MoCha bénéficie d'un point de vue et d'un éclairage similaires.

ref2 (Optionnel)

"ref2" est optionnel mais recommandé pour les visages. Vous pouvez fournir directement un portrait, ou laisser le flux de travail en générer un dans la branche d'échantillonnage ci-dessous. L'image est sans fond et redimensionnée comme ref1. Lorsque présent, ref2 renforce les traits du visage pour que l'identité soit maintenue pendant les mouvements, les occultations et les changements de perspective.

Étape 1 - Charger les modèles

Ce groupe charge le Wan 2.1 VAE et le modèle d'aperçu Wan 2.1 MoCha 14B, plus un WanVideo LoRA optionnel pour la distillation. Ces actifs conduisent l'étape principale d'échantillonnage vidéo. L'ensemble de modèles ici est intensif en VRAM ; un assistant d'échange de blocs est inclus plus tard pour adapter de longues séquences sur des GPU modestes.

Étape 2 - Télécharger l'image pour l'édition

Si vous préférez construire ref2 à partir de votre propre image fixe, déposez-la ici. La branche met l'image à l'échelle et la dirige vers l'encodeur Qwen pour le conditionnement. Vous pouvez ignorer cette branche entière si vous avez déjà un bon portrait de visage.

Étape 4 - Invite

Fournissez un court texte décrivant le portrait en gros plan prévu (par exemple, "Scène suivante : Gros plan du visage du personnage"). Qwen‑Image‑Edit utilise cela pour affiner ou synthétiser une image de visage propre qui devient ref2. Gardez la description simple ; c'est une assistance, pas une restylisation complète.

Scène 2 - Échantillonnage

La branche Qwen exécute un échantillonneur rapide pour générer une seule image de portrait sous le Lightning LoRA. Cette image est décodée, prévisualisée, et, après un léger retrait du fond, envoyée comme ref2. Cette étape améliore souvent la fidélité du visage sans changer votre apparence principale de Remplacement de Personnage Vidéo (MoCha).

Mocha

L'étape MochaEmbeds encode la vidéo source, le masque du premier cadre, et votre/vos image(s) de référence en embeddings d'images MoCha. Les embeddings capturent l'identité, la texture, et les indices d'apparence locale tout en respectant le chemin de mouvement original. Si ref2 existe, il est utilisé pour renforcer le détail du visage ; sinon, ref1 seul porte l'identité.

Modèle Wan

Le chargeur de modèle Wan tire l'aperçu Wan 2.1 MoCha 14B en mémoire et applique (optionnellement) un LoRA. Un outil d'échange de blocs est câblé pour que vous puissiez échanger la vitesse contre la mémoire lorsque nécessaire. Ce choix de modèle détermine la capacité et la cohérence globales du Remplacement de Personnage Vidéo (MoCha).

Échantillonnage Wan

L'échantillonneur consomme le modèle Wan, les embeddings d'images MoCha, et toutes les embeddings textuelles pour générer des cadres latents édités, puis les décode en images. Deux sorties sont produites : la vidéo d'échange finale et une comparaison côte à côte avec les cadres originaux. Le taux de trame est transmis depuis le chargeur pour que le rythme du mouvement corresponde automatiquement à la source.

Nœuds clés dans le flux de travail de Remplacement de Personnage Vidéo (MoCha) pour Comfyui

MochaEmbeds (#302). Encode le clip source, le masque du premier cadre, et les images de référence en embeddings d'images MoCha qui dirigent l'identité et l'apparence. Privilégiez une pose ref1 qui correspond au premier cadre, et incluez ref2 pour un visage propre si vous voyez une dérive. Si les bords scintillent, agrandissez légèrement le masque avant l'embedding pour éviter les fuites de fond.
Sam2Segmentation (#326). Convertit vos clics positifs/négatifs en un masque du premier cadre. Priorisez des bords propres autour des cheveux et des épaules ; ajoutez quelques points négatifs pour exclure les accessoires proches. L'expansion du masque après la segmentation aide à la stabilité lorsque l'acteur bouge.
WanVideoSampler (#314). Conduit le gros du travail de Remplacement de Personnage Vidéo (MoCha) en débruitant les latents en cadres. Plus d'étapes améliorent le détail et la stabilité temporelle ; moins d'étapes accélèrent l'itération. Gardez le planificateur cohérent entre les exécutions lorsque vous comparez des changements de références ou de masques.
WanVideoSetBlockSwap (#344). Lorsque la VRAM est limitée, activez un échange de blocs plus profond pour adapter le chemin Wan 2.1 MoCha 14B sur des GPU plus petits. Attendez-vous à une perte de vitesse ; en retour, vous pouvez conserver la résolution et la longueur de la séquence.
VHS_VideoCombine (#355). Écrit le MP4 final et intègre les métadonnées du flux de travail. Utilisez le même taux de trame que la source (déjà câblé) et une sortie yuv420p pour une large compatibilité des lecteurs.

Extras optionnels

Conseils pour des échanges propres
- Utilisez un ref1 avec un fond uni et une pose proche du premier cadre.
- Gardez ref2 comme un portrait de visage net et frontal pour stabiliser l'identité.
- Si vous voyez des halos sur les bords, étendez et floutez légèrement le masque du premier cadre, puis ré-embed.
- Les scènes lourdes bénéficient de l'assistant d'échange de blocs ; sinon, gardez-le désactivé pour la vitesse.
- Le flux de travail rend une vidéo de comparaison A/B ; utilisez-la pour juger rapidement des changements.
Références utiles
- MoCha par Orange‑3DV‑Team : GitHub, Hugging Face
- Wan 2.1 MoCha 14B (format Comfy) : Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
- Segment Anything 2 : facebookresearch/segment-anything-2
- Qwen Image Edit + Lightning LoRA : Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning

Remerciements

Ce flux de travail implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement le Benji’s AI Playground de "Remplacement de Personnage Vidéo (MoCha)" pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.

Ressources

Auteurs de "Remplacement de Personnage Vidéo (MoCha)"/Remplacement de Personnage Vidéo (MoCha)
- Docs / Notes de version @Benji’s AI Playground : Vidéo YouTube

Note : L'utilisation des modèles, ensembles de données et code référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

Wan 2.1 Video Restyle | Transformation cohérente du style vidéo

Transformez le style de votre vidéo en appliquant la première image restylée à l'aide du flux de travail Wan 2.1 video restyle.

ReActor | Échange rapide de visages

Avec ComfyUI ReActor, vous pouvez facilement échanger les visages d'un ou plusieurs personnages dans des images ou des vidéos.

ReActor | Remplacement de Visage Rapide

Outils professionnels de remplacement de visage pour ComfyUI qui permet un remplacement et une amélioration naturels du visage.

Flux Depth et Canny

Outils Flux officiels - Modèle Flux Depth et Canny ControlNet

Wan 2.1 Control LoRA | Profondeur et Tuile

Améliorez la génération vidéo Wan 2.1 avec des LoRAs légers de profondeur et de tuiles pour une structure et des détails améliorés.

LatentSync| Modèle de Synchronisation Labiale

Technologie avancée de synchronisation labiale pilotée par l'audio.

Trellis | Image to 3D

Trellis est un modèle avancé d'Image à 3D pour la génération d'actifs 3D de haute qualité.

Wan 2.1 Fun | Génération Vidéo ControlNet

Générez des vidéos avec des passes visuelles de style ControlNet comme Profondeur, Canny, et OpenPose.

Support

Ressources

Légal

RunComfy

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Playground, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.