Wan 2.2 Animate V2 是基于姿势的视频生成工作流程,将单个参考图像加上驱动姿势视频转换为逼真、身份保留的动画。它在第一版的基础上,提供更高的保真度、更流畅的运动和更好的时间一致性,同时紧密跟随源视频中的全身运动和表情。
此 ComfyUI 工作流程专为希望快速、可靠地实现角色动画、舞蹈剪辑和表演驱动故事讲述的创作者设计。它结合了强大的预处理(姿势、面部和主题遮罩)与 Wan 2.2 模型家族和可选的 LoRAs,使您可以自信地调整风格、照明和背景处理。
在高层次上,管道从驱动视频中提取姿势和面部提示,从单个参考图像中编码身份,可选地用 SAM 2 遮罩隔离主体,然后合成与运动匹配同时保留身份的视频。工作流程组织成四个组协作以生成最终结果,并提供两个方便的输出用于快速 QA(姿势和遮罩预览)。
此组加载您的肖像或全身图像,将其调整为目标分辨率,并在整个图形中可用。调整大小的图像存储并由 Get_reference_image
使用并预览,以便您快速评估构图。身份特征由 WanVideoClipVisionEncode
(CLIP Vision
) (#70) 编码,并且同一图像作为 ref_images
供 WanVideoAnimateEmbeds
(#62) 使用,以更强的身份保留。提供清晰、光线良好的参考,与驱动视频中的主体类型匹配,以获得最佳效果。头部空间和最小遮挡有助于 Wan 2.2 Animate V2 锁定面部结构和服装。
驱动视频通过 VHS_LoadVideo
(#191) 加载,暴露帧、音频、帧计数和源 fps 以供后续使用。姿势和面部提示由 OnnxDetectionModelLoader
(#178) 和 PoseAndFaceDetection
(#172) 提取,然后通过 DrawViTPose
(#173) 可视化,以便您确认跟踪质量。主体隔离由 Sam2Segmentation
(#104) 处理,然后通过 GrowMaskWithBlur
(#182) 和 BlockifyMask
(#108) 生成干净、稳定的遮罩;一个助手 DrawMaskOnImage
(#99) 预览遮罩。该组还标准化了驱动视频的宽度、高度和帧计数,使 Wan 2.2 Animate V2 可以在不进行猜测的情况下匹配空间和时间设置。快速检查导出为短视频:姿势叠加和遮罩预览用于零样本验证。
WanVideoVAELoader
(#38) 加载 Wan VAE,WanVideoModelLoader
(#22) 加载 Wan 2.2 Animate 主干。可选的 LoRAs 在 WanVideoLoraSelectMulti
(#171) 中选择,并通过 WanVideoSetLoRAs
(#48) 应用;WanVideoBlockSwap
(#51) 可以通过 WanVideoSetBlockSwap
(#50) 启用,以进行影响风格和保真度的架构调整。提示由 WanVideoTextEncodeCached
(#65) 编码,而 WanVideoClipVisionEncode
(#70) 将参考图像转换为强大的身份嵌入。WanVideoAnimateEmbeds
(#62) 将 CLIP 特征、参考图像、姿势图像、面部裁剪、可选背景帧、SAM 2 遮罩以及所选分辨率和帧计数融合为单个动画嵌入。该输入驱动 WanVideoSampler
(#27),生成与您的提示、身份和运动提示一致的潜在视频,WanVideoDecode
(#28) 将潜在内容转换回 RGB 帧。
为了帮助比较输出,工作流程组装了一个简单的并排:生成的视频旁边是一个垂直条,显示参考图像、面部裁剪、姿势叠加和驱动视频中的一帧。ImageConcatMulti
(#77, #66) 构建视觉拼贴,然后 VHS_VideoCombine
(#30) 渲染“比较”mp4。最终的干净输出由 VHS_VideoCombine
(#189) 渲染,还从驱动程序中携带音频以便快速检查剪辑。这些导出使得判断 Wan 2.2 Animate V2 如何跟随运动、保留身份和维护预期背景变得容易。
VHS_LoadVideo
(#191)
加载驱动视频并暴露帧、音频和跨图形使用的元数据。使主体完全可见,尽量减少运动模糊,以实现更强的关键点跟踪。如果您想进行更短的测试,请限制加载的帧数;保持源 fps 在下游一致,以避免在最终合成中音频不同步。
PoseAndFaceDetection
(#172)
运行 YOLO 和 ViTPose 以生成直接指导运动转移的全身关键点和面部裁剪。将来自加载器的图像和标准化的宽度和高度输入;可选的 retarget_image
输入允许在需要时将姿势适应不同的构图。如果姿势叠加看起来嘈杂,请考虑使用更高质量的 ViTPose 模型并确保主体未严重遮挡。参考:ComfyUI‑WanAnimatePreprocess。
Sam2Segmentation
(#104)
生成可以在 Wan 2.2 Animate V2 中保留背景或本地化重新照明的主体遮罩。您可以使用 PoseAndFaceDetection
检测到的边界框或在需要时绘制快速的正点以改进遮罩。将其与 GrowMaskWithBlur
配对,以在快速运动时获得更干净的边缘,并使用遮罩预览导出查看结果。参考:Segment Anything 2。
WanVideoClipVisionEncode
(#70)
使用 CLIP Vision 对参考图像进行编码,以捕捉面部结构、头发和服装等身份线索。您可以平均多个参考图像以稳定身份,或使用负图像抑制不需要的特征。中心裁剪和一致的照明有助于产生更强的嵌入。
WanVideoAnimateEmbeds
(#62)
将身份特征、姿势图像、面部裁剪、可选背景帧和 SAM 2 遮罩融合为单个动画嵌入。将 width
、height
和 num_frames
与您的驱动视频对齐,以减少伪影。如果看到背景漂移,请提供干净的背景帧和坚实的遮罩;如果面部漂移,请确保面部裁剪存在且光线充足。
WanVideoSampler
(#27)
在您的提示、LoRAs 和动画嵌入的指导下生成实际的视频潜在内容。对于长剪辑,在滑动窗口策略或模型的上下文选项之间进行选择;将窗口与剪辑长度匹配,以平衡运动清晰度和长程一致性。调整调度器和指导强度,以权衡保真度、风格一致性和运动流畅性,并考虑启用块交换,如果您的 LoRA 堆栈受益于它。
此工作流程中使用的有用资源:
此工作流程实现并基于以下作品和资源。我们感谢 Benji’s AI Playground 的工作流程和 Wan 团队为 Wan 2.2 Animate V2 模型的贡献和维护。如需权威详细信息,请参阅以下链接的原始文档和仓库。
注意:参考模型、数据集和代码的使用受其作者和维护者提供的各自许可证和条款的约束。
RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Playground, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。