此工作流提供端到端的视频角色替换 (MoCha):在保留运动、灯光、相机视角和场景连续性的情况下,将真实视频中的表演者替换为新角色。基于Wan 2.1 MoCha 14B预览版本,它将参考身份与源表演对齐,然后合成一个连贯的编辑片段和一个可选的并排比较。它专为需要精确、高质量角色替换且手动清理最少的电影制作人、VFX艺术家和AI创作者设计。
该流程结合了强大的首帧遮罩、Segment Anything 2 (SAM 2)、MoCha的运动感知图像嵌入、WanVideo采样/解码,以及可选的肖像辅助以提高面部保真度。您提供一个源视频和一到两张参考图像;工作流生成一个完成的替换视频加上一个A/B比较,使视频角色替换 (MoCha) 的迭代评估快速且实用。
Wan 2.1 MoCha 14B 预览。核心视频生成器用于角色替换;从MoCha图像嵌入和文本提示中驱动时间一致的合成。模型权重以Kijai的WanVideo Comfy格式分发,包括为了效率的fp8缩放变体。Hugging Face: Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
MoCha (Orange‑3DV‑Team)。身份/运动调节方法和参考实现,启发了此处使用的嵌入阶段;有助于理解参考选择和姿态对齐用于视频角色替换 (MoCha)。GitHub, Hugging Face
Segment Anything 2 (SAM 2)。高质量的点引导分割,以隔离首帧中的演员;干净的遮罩对于稳定、无伪影的替换至关重要。GitHub: facebookresearch/segment-anything-2
Qwen‑Image‑Edit 2509 + Lightning LoRA。可选的单图像辅助,生成一个干净的特写肖像以用作第二参考,改善困难镜头中的面部身份保留。Hugging Face: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning
Wan 2.1 VAE。用于Wan采样器/解码器阶段的视频VAE,以实现高效的潜在处理。Hugging Face: Kijai/WanVideo_comfy
总体逻辑
输入视频
首帧遮罩
ref1
ref2(可选)
步骤1 - 加载模型
步骤2 - 上传图像进行编辑
步骤4 - 提示
场景2 - 采样
Mocha
MochaEmbeds 阶段将源视频、首帧遮罩和您的参考图像编码为MoCha图像嵌入。嵌入捕捉身份、纹理和局部外观线索,同时尊重原始运动路径。如果存在ref2,它用于增强面部细节;否则,仅ref1承载身份。Wan模型
Wan采样
MochaEmbeds (#302)。将源剪辑、首帧遮罩和参考图像编码为MoCha图像嵌入,指导身份和外观。选择与首帧匹配的ref1姿势,并在看到漂移时包括ref2以获得干净的面部。如果边缘闪烁,请在嵌入前略微扩展遮罩以避免背景渗漏。
Sam2Segmentation (#326)。将您的正/负点击转换为首帧遮罩。优先考虑头发和肩膀周围的干净边缘;添加一些负点以排除附近的道具。分割后略微扩展遮罩有助于在演员移动时的稳定性。
WanVideoSampler (#314)。通过将潜在图像去噪为帧来承担视频角色替换 (MoCha) 的重任。更多步骤可以提高细节和时间稳定性;较少步骤可以加快迭代。比较参考或遮罩更改时,保持调度器一致。
WanVideoSetBlockSwap (#344)。当VRAM紧张时,启用更深的块交换以适应较小GPU上的Wan 2.1 MoCha 14B路径。期望一些速度损失;作为回报,您可以保持分辨率和序列长度。
VHS_VideoCombine (#355)。写入最终MP4并嵌入工作流元数据。使用与源相同的帧速率(已连接)和yuv420p输出以实现广泛的播放器兼容性。
干净替换的提示
有用的参考
此工作流实现并基于以下作品和资源构建。我们感谢“视频角色替换 (MoCha)”的Benji’s AI Playground为视频角色替换 (MoCha) 的贡献和维护。有关权威细节,请参考下列原始文档和存储库。
注意:使用参考的模型、数据集和代码需遵循其作者和维护者提供的各自许可和条款。
RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Playground, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。