工作流程教程
Wan 2.2 Animate: 角色替换与唇同步
在保留动作、表情和口型与原始音频对齐的同时,将任意摄像头前的发言者替换为您自己的角色。此ComfyUI工作流程围绕Wan 2.2 Animate: 角色替换与唇同步构建,能够从输入视频中检测身体姿势和面部帧,并将它们重新定位到单一参考图像,呈现一致的、语音同步的结果。
此工作流程适合想要可靠角色替换的编辑、创作者和研究人员,可用于采访、剪辑、VTubing、幻灯片或配音短片。提供一个源片段和一张干净的参考图像;管道在新角色上重建姿势和唇部动作,并将原始音轨混合到最终导出中。
Comfyui Wan 2.2 Animate: 角色替换与唇同步工作流程中的关键模型
- Wan 2.2 Animate 14B (FP8 scaled):核心视频生成器,通过姿态、面部和上下文信号在帧之间合成重新定位的角色。模型中心
- Wan 2.1 VAE (bf16):在采样和输出时由Wan使用的视频潜在编码/解码器。权重
- UMT5‑XXL 文本编码器 (bf16):为轻量提示或镜头描述构建文本嵌入。权重
- CLIP Vision H:从参考肖像中提取强大的图像特征以保留身份。权重
- Lightx2v I2V 14B LoRA:在使用参考帧时提高图像到视频的稳定性和保真度。LoRA
- Wan22 Relight LoRA:帮助保持镜头中的一致阴影和重光。LoRA
- YOLOv10m (ONNX):在姿态估计之前使用的快速人脸检测。模型
- ViTPose WholeBody Large (ONNX):用于全身运动转移的高质量骨骼关键点。模型
- Segment Anything 2.1:为指导替换的干净前景遮罩分割。仓库
如何使用Comfyui Wan 2.2 Animate: 角色替换与唇同步工作流程
图形通过七个组移动:加载输入,建立参考,预处理姿态/面部和遮罩,加载生成模型,运行角色替换,预览诊断,然后导出带音频。
加载视频
使用VHS_LoadVideo (#63)导入您的源片段。节点提供可选宽度/高度用于调整大小,并输出视频帧、音频和帧数以供下游使用。如果您希望更快的处理速度,请将剪辑修剪到接近说话部分。音频会传递给导出器,以便最终视频与原始音轨保持一致。
参考图像
提供目标角色的单个干净肖像。图像通过ImageResizeKJv2 (#64)调整大小以匹配您的工作分辨率,并存储为CLIP Vision和生成器使用的规范参考。优选在与源镜头光照相似的条件下拍摄的清晰、正面图像,以减少颜色和阴影漂移。
预处理
OnnxDetectionModelLoader (#178)加载YOLO和ViTPose,然后PoseAndFaceDetection (#172)分析每个帧以生成全身关键点和每帧面部裁剪。Sam2Segmentation (#104)使用检测到的边界框或关键帧点创建前景遮罩;如果一个提示失败,请切换到另一个以获得更好的分离。遮罩通过GrowMaskWithBlur (#182)进行优化,并通过BlockifyMask (#108)进行块化,以为生成器提供稳定、明确的主体区域。可选的叠加层(DrawViTPose (#173)和DrawMaskOnImage (#99))帮助您在生成前目视验证姿态覆盖和遮罩质量。
模型
WanVideoModelLoader (#22)加载Wan 2.2 Animate 14B,WanVideoVAELoader (#38)提供VAE。参考肖像的身份特征由CLIPVisionLoader (#71)和WanVideoClipVisionEncode (#70)编码。样式与稳定性通过WanVideoLoraSelectMulti (#171)进行调整,而WanVideoSetLoRAs (#48)和WanVideoSetBlockSwap (#50)将LoRAs和块交换设置应用于模型;这些工具来自Wan包装库。详情请参见ComfyUI‑WanVideoWrapper。
角色替换
WanVideoTextEncodeCached (#65)接受简短的描述性提示,如果您希望微调外观或镜头氛围。WanVideoAnimateEmbeds (#62)将参考图像、每帧姿态、面部裁剪、背景和遮罩融合成图像嵌入,以在保持身份的同时匹配动作和口型。随后由WanVideoSampler (#27)渲染帧;其调度器和步骤控制清晰度与动作的权衡。WanVideoDecode (#28)解码后的帧交给尺寸/计数检查器,以便在导出前确认尺寸。
结果拼贴
为了快速质量检查,工作流程使用ImageConcatMulti (#77, #66)将关键输入连接成一个简单的比较条,包括参考、面部裁剪、姿态可视化和原始帧。用于在测试通过后进行身份线索和口型的合理性检查。
输出
VHS_VideoCombine (#30)生成最终视频并混合原始音频以确保完美的时间同步。如有需要,附加的导出器可用于保存中间诊断或备用剪辑。对于较长的剪辑,先导出一个简短的测试,然后在提交完整渲染之前迭代LoRA混合和遮罩以获得最佳效果。
Comfyui Wan 2.2 Animate: 角色替换与唇同步工作流程中的关键节点
VHS_LoadVideo (#63) 一步加载帧和原始音频。使用它来设置符合您的GPU预算的工作分辨率,并确认下游节点将消耗的帧数。来自ComfyUI‑VideoHelperSuite。
PoseAndFaceDetection (#172) 运行YOLO和ViTPose以提取人物框、全身关键点和每帧面部裁剪。良好的关键点是可信运动转移的骨干,并直接用于唇部动作。从ComfyUI‑WanAnimatePreprocess。
Sam2Segmentation (#104) 使用边界框或关键帧点提示在主体周围构建前景遮罩。如果头发或手部被遗漏,请切换提示类型或在块化前扩展模糊/增长设置。从ComfyUI‑segment‑anything‑2。
WanVideoLoraSelectMulti (#171) 允许您混合LoRAs,如Lightx2v和Wan22 Relight,以平衡运动稳定性、光线一致性和身份强度。增加LoRA的权重以获得更多影响,但注意面部过度风格化。从ComfyUI‑WanVideoWrapper。
WanVideoAnimateEmbeds (#62) 将参考肖像、姿态图像、面部裁剪、背景帧和遮罩组合成一个紧凑的表示,条件Wan 2.2 Animate。确保width、height和num_frames与您计划的导出匹配,以避免重采样伪影。从ComfyUI‑WanVideoWrapper。
WanVideoSampler (#27) 生成最终帧。当您需要更清晰的细节时使用更高的步骤和更稳定的调度器,或使用较轻的调度进行快速预览。对于非常长的剪辑,您可以通过接入WanVideoContextOptions (#110)可选引入上下文窗口控件,以在窗口之间保持时间一致性。
VHS_VideoCombine (#30) 导出完成的视频并混合原始音频以保持唇部动作同步。修剪到音频选项使持续时间与音轨保持一致。从ComfyUI‑VideoHelperSuite。
可选附加项
- 使用清晰、正面、嘴唇自然的参考以实现最干净的身份传递;避免过浓的化妆或遮挡。
- 如果分割遗漏了头发或配饰,请尝试在边界框和关键帧点之间切换
Sam2Segmentation提示,然后在块化前稍微增长遮罩。 - Lightx2v LoRA提高I2V稳定性;Wan22 Relight LoRA帮助匹配不一致的光照。小的权重变化可以解决闪烁而不需过度烘焙外观。
- 块交换可以减少长镜头中的身份漂移;如果面部随时间变软,请在
WanVideoSetBlockSwap(#50)中启用并重新测试。 - 保持工作分辨率与源成比例以防止纵横比失真;仅当参考图像足够详细时才放大。
- 对于有能力的运行时,启用torch编译和包装节点中的高效注意力可以加快采样速度;见ComfyUI‑WanVideoWrapper了解指导。
此Wan 2.2 Animate: 角色替换与唇同步工作流程提供一致的运动转移和语音同步的口型,设置简单,使高质量角色替换在ComfyUI中快速而可重复。
致谢
此工作流程实施并建立在以下作品和资源之上。我们感谢@MDMZ为整个工作流程的构建,Kijai为WAN 2.2 Animate和相关ComfyUI节点,Wan-AI为Wan2.2-Animate资产包括YOLOv10m检测,和Comfy-Org为Wan 2.1 Clip Vision模型的贡献和维护。有关权威细节,请参阅下文链接的原始文档和仓库。
资源
- 工作流程教程
- Youtube: ComfyUI-Tutorial from @MDMZ
注意:使用参考的模型、数据集和代码受其作者和维护者提供的相应许可证和条款的约束。


