在保留动作、表情和口型与原始音频对齐的同时,将任意摄像头前的发言者替换为您自己的角色。此ComfyUI工作流程围绕Wan 2.2 Animate: 角色替换与唇同步构建,能够从输入视频中检测身体姿势和面部帧,并将它们重新定位到单一参考图像,呈现一致的、语音同步的结果。
此工作流程适合想要可靠角色替换的编辑、创作者和研究人员,可用于采访、剪辑、VTubing、幻灯片或配音短片。提供一个源片段和一张干净的参考图像;管道在新角色上重建姿势和唇部动作,并将原始音轨混合到最终导出中。
图形通过七个组移动:加载输入,建立参考,预处理姿态/面部和遮罩,加载生成模型,运行角色替换,预览诊断,然后导出带音频。
使用VHS_LoadVideo (#63)导入您的源片段。节点提供可选宽度/高度用于调整大小,并输出视频帧、音频和帧数以供下游使用。如果您希望更快的处理速度,请将剪辑修剪到接近说话部分。音频会传递给导出器,以便最终视频与原始音轨保持一致。
提供目标角色的单个干净肖像。图像通过ImageResizeKJv2 (#64)调整大小以匹配您的工作分辨率,并存储为CLIP Vision和生成器使用的规范参考。优选在与源镜头光照相似的条件下拍摄的清晰、正面图像,以减少颜色和阴影漂移。
OnnxDetectionModelLoader (#178)加载YOLO和ViTPose,然后PoseAndFaceDetection (#172)分析每个帧以生成全身关键点和每帧面部裁剪。Sam2Segmentation (#104)使用检测到的边界框或关键帧点创建前景遮罩;如果一个提示失败,请切换到另一个以获得更好的分离。遮罩通过GrowMaskWithBlur (#182)进行优化,并通过BlockifyMask (#108)进行块化,以为生成器提供稳定、明确的主体区域。可选的叠加层(DrawViTPose (#173)和DrawMaskOnImage (#99))帮助您在生成前目视验证姿态覆盖和遮罩质量。
WanVideoModelLoader (#22)加载Wan 2.2 Animate 14B,WanVideoVAELoader (#38)提供VAE。参考肖像的身份特征由CLIPVisionLoader (#71)和WanVideoClipVisionEncode (#70)编码。样式与稳定性通过WanVideoLoraSelectMulti (#171)进行调整,而WanVideoSetLoRAs (#48)和WanVideoSetBlockSwap (#50)将LoRAs和块交换设置应用于模型;这些工具来自Wan包装库。详情请参见ComfyUI‑WanVideoWrapper。
WanVideoTextEncodeCached (#65)接受简短的描述性提示,如果您希望微调外观或镜头氛围。WanVideoAnimateEmbeds (#62)将参考图像、每帧姿态、面部裁剪、背景和遮罩融合成图像嵌入,以在保持身份的同时匹配动作和口型。随后由WanVideoSampler (#27)渲染帧;其调度器和步骤控制清晰度与动作的权衡。WanVideoDecode (#28)解码后的帧交给尺寸/计数检查器,以便在导出前确认尺寸。
为了快速质量检查,工作流程使用ImageConcatMulti (#77, #66)将关键输入连接成一个简单的比较条,包括参考、面部裁剪、姿态可视化和原始帧。用于在测试通过后进行身份线索和口型的合理性检查。
VHS_VideoCombine (#30)生成最终视频并混合原始音频以确保完美的时间同步。如有需要,附加的导出器可用于保存中间诊断或备用剪辑。对于较长的剪辑,先导出一个简短的测试,然后在提交完整渲染之前迭代LoRA混合和遮罩以获得最佳效果。
VHS_LoadVideo (#63)
一步加载帧和原始音频。使用它来设置符合您的GPU预算的工作分辨率,并确认下游节点将消耗的帧数。来自ComfyUI‑VideoHelperSuite。
PoseAndFaceDetection (#172)
运行YOLO和ViTPose以提取人物框、全身关键点和每帧面部裁剪。良好的关键点是可信运动转移的骨干,并直接用于唇部动作。从ComfyUI‑WanAnimatePreprocess。
Sam2Segmentation (#104)
使用边界框或关键帧点提示在主体周围构建前景遮罩。如果头发或手部被遗漏,请切换提示类型或在块化前扩展模糊/增长设置。从ComfyUI‑segment‑anything‑2。
WanVideoLoraSelectMulti (#171)
允许您混合LoRAs,如Lightx2v和Wan22 Relight,以平衡运动稳定性、光线一致性和身份强度。增加LoRA的权重以获得更多影响,但注意面部过度风格化。从ComfyUI‑WanVideoWrapper。
WanVideoAnimateEmbeds (#62)
将参考肖像、姿态图像、面部裁剪、背景帧和遮罩组合成一个紧凑的表示,条件Wan 2.2 Animate。确保width、height和num_frames与您计划的导出匹配,以避免重采样伪影。从ComfyUI‑WanVideoWrapper。
WanVideoSampler (#27)
生成最终帧。当您需要更清晰的细节时使用更高的步骤和更稳定的调度器,或使用较轻的调度进行快速预览。对于非常长的剪辑,您可以通过接入WanVideoContextOptions (#110)可选引入上下文窗口控件,以在窗口之间保持时间一致性。
VHS_VideoCombine (#30)
导出完成的视频并混合原始音频以保持唇部动作同步。修剪到音频选项使持续时间与音轨保持一致。从ComfyUI‑VideoHelperSuite。
Sam2Segmentation提示,然后在块化前稍微增长遮罩。WanVideoSetBlockSwap (#50)中启用并重新测试。此Wan 2.2 Animate: 角色替换与唇同步工作流程提供一致的运动转移和语音同步的口型,设置简单,使高质量角色替换在ComfyUI中快速而可重复。
此工作流程实施并建立在以下作品和资源之上。我们感谢@MDMZ为整个工作流程的构建,Kijai为WAN 2.2 Animate和相关ComfyUI节点,Wan-AI为Wan2.2-Animate资产包括YOLOv10m检测,和Comfy-Org为Wan 2.1 Clip Vision模型的贡献和维护。有关权威细节,请参阅下文链接的原始文档和仓库。
注意:使用参考的模型、数据集和代码受其作者和维护者提供的相应许可证和条款的约束。
RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Playground, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。