Ce flux de travail offre un Remplacement de Personnage Vidéo (MoCha) de bout en bout : échangez un interprète dans une vidéo réelle avec un nouveau personnage tout en préservant le mouvement, l'éclairage, la perspective de la caméra et la continuité de la scène. Construit autour de l'aperçu Wan 2.1 MoCha 14B, il aligne une identité de référence à la performance source, puis synthétise un clip édité cohérent et une comparaison côte à côte optionnelle. Il est conçu pour les cinéastes, les artistes VFX et les créateurs d'IA qui ont besoin d'échanges de personnages précis et de haute qualité avec un minimum de nettoyage manuel.
Le pipeline combine un masquage robuste du premier cadre avec Segment Anything 2 (SAM 2), les embeddings d'images sensibles au mouvement de MoCha, l'échantillonnage/décodage WanVideo, et une assistance portrait optionnelle qui améliore la fidélité du visage. Vous fournissez une vidéo source et une ou deux images de référence ; le flux de travail produit une vidéo de remplacement finie plus une comparaison A/B, rendant l'évaluation itérative du Remplacement de Personnage Vidéo (MoCha) rapide et pratique.
Wan 2.1 MoCha 14B preview. Générateur vidéo principal pour le remplacement de personnage ; conduit la synthèse temporellement cohérente à partir des embeddings d'images MoCha et des invites textuelles. Poids du modèle distribués au format Comfy de WanVideo par Kijai, y compris les variantes scalées fp8 pour l'efficacité. Hugging Face: Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
MoCha (Orange‑3DV‑Team). Méthode de conditionnement de l'identité/mouvement et implémentation de référence qui a inspiré l'étape d'embedding utilisée ici ; utile pour comprendre la sélection de référence et l'alignement des poses pour le Remplacement de Personnage Vidéo (MoCha). GitHub, Hugging Face
Segment Anything 2 (SAM 2). Segmentation guidée par points de haute qualité pour isoler l'acteur dans le premier cadre ; des masques propres sont cruciaux pour des échanges stables et sans artefacts. GitHub: facebookresearch/segment-anything-2
Qwen‑Image‑Edit 2509 + Lightning LoRA. Assistance d'image unique optionnelle qui génère un portrait propre et rapproché à utiliser comme deuxième référence, améliorant la préservation de l'identité faciale dans les prises de vue difficiles. Hugging Face: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning
Wan 2.1 VAE. VAE vidéo utilisé par les étapes d'échantillonnage/décodage Wan pour un traitement latent efficace. Hugging Face: Kijai/WanVideo_comfy
Logique générale
Vidéo d'entrée
Masque du Premier Cadre
ref1
ref2 (Optionnel)
Étape 1 - Charger les modèles
Étape 2 - Télécharger l'image pour l'édition
Étape 4 - Invite
Scène 2 - Échantillonnage
Mocha
MochaEmbeds encode la vidéo source, le masque du premier cadre, et votre/vos image(s) de référence en embeddings d'images MoCha. Les embeddings capturent l'identité, la texture, et les indices d'apparence locale tout en respectant le chemin de mouvement original. Si ref2 existe, il est utilisé pour renforcer le détail du visage ; sinon, ref1 seul porte l'identité.Modèle Wan
Échantillonnage Wan
MochaEmbeds (#302). Encode le clip source, le masque du premier cadre, et les images de référence en embeddings d'images MoCha qui dirigent l'identité et l'apparence. Privilégiez une pose ref1 qui correspond au premier cadre, et incluez ref2 pour un visage propre si vous voyez une dérive. Si les bords scintillent, agrandissez légèrement le masque avant l'embedding pour éviter les fuites de fond.
Sam2Segmentation (#326). Convertit vos clics positifs/négatifs en un masque du premier cadre. Priorisez des bords propres autour des cheveux et des épaules ; ajoutez quelques points négatifs pour exclure les accessoires proches. L'expansion du masque après la segmentation aide à la stabilité lorsque l'acteur bouge.
WanVideoSampler (#314). Conduit le gros du travail de Remplacement de Personnage Vidéo (MoCha) en débruitant les latents en cadres. Plus d'étapes améliorent le détail et la stabilité temporelle ; moins d'étapes accélèrent l'itération. Gardez le planificateur cohérent entre les exécutions lorsque vous comparez des changements de références ou de masques.
WanVideoSetBlockSwap (#344). Lorsque la VRAM est limitée, activez un échange de blocs plus profond pour adapter le chemin Wan 2.1 MoCha 14B sur des GPU plus petits. Attendez-vous à une perte de vitesse ; en retour, vous pouvez conserver la résolution et la longueur de la séquence.
VHS_VideoCombine (#355). Écrit le MP4 final et intègre les métadonnées du flux de travail. Utilisez le même taux de trame que la source (déjà câblé) et une sortie yuv420p pour une large compatibilité des lecteurs.
Conseils pour des échanges propres
Références utiles
Ce flux de travail implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement le Benji’s AI Playground de "Remplacement de Personnage Vidéo (MoCha)" pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.
Note : L'utilisation des modèles, ensembles de données et code référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.
RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Playground, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.