Wan 2.2 Animate V2 是一个基于姿势的视频生成工作流,可将单个参考图像加上驱动姿势视频转化为逼真的、身份保留的动画。它基于第一个版本,具有更高的保真度、更流畅的运动和更好的时间一致性,同时紧密跟随源视频的全身运动和表情。
这个 ComfyUI 工作流是为希望快速、可靠获得角色动画、舞蹈剪辑和表演驱动故事的创作者设计的。它结合了强大的预处理(姿势、面部和主体遮罩)与 Wan 2.2 模型系列和可选的 LoRAs,因此您可以自信地调整风格、光照和背景处理。
在高层次上,管道从驱动视频中提取姿势和面部线索,从单个参考图像编码身份,可选地使用 SAM 2 遮罩隔离主体,然后合成一个匹配运动同时保留身份的视频。工作流分为四组协作产生最终结果,并有两个便捷输出用于快速 QA(姿势和遮罩预览)。
此组加载您的肖像或全身图像,将其调整到目标分辨率,并在整个图表中提供。调整大小后的图像由 Get_reference_image 存储和重用,并预览以便您快速评估框架。身份特征由 WanVideoClipVisionEncode (CLIP Vision) (#70) 编码,同一图像被 WanVideoAnimateEmbeds (#62) 作为 ref_images 供给以增强身份保留。提供与驱动视频中的主体类型匹配的清晰、光线充足的参考,以获得最佳效果。头部空间和最少的遮挡有助于 Wan 2.2 Animate V2 锁定面部结构和服装。
驱动视频由 VHS_LoadVideo (#191) 加载,暴露帧、音频、帧数和源 fps 以供以后使用。姿势和面部线索由 OnnxDetectionModelLoader (#178) 和 PoseAndFaceDetection (#172) 提取,然后通过 DrawViTPose (#173) 可视化,以便您确认跟踪质量。主体隔离由 Sam2Segmentation (#104) 处理,随后是 GrowMaskWithBlur (#182) 和 BlockifyMask (#108) 以生成干净、稳定的遮罩;一个助手 DrawMaskOnImage (#99) 预览了哑光效果。该组还标准化了驱动视频的宽度、高度和帧数,因此 Wan 2.2 Animate V2 可以在无猜测情况下匹配空间和时间设置。快速检查导出为短视频:零次验证的姿势叠加和遮罩预览。
WanVideoVAELoader (#38) 加载 Wan VAE 和 WanVideoModelLoader (#22) 加载 Wan 2.2 Animate 主干。可选 LoRAs 在 WanVideoLoraSelectMulti (#171) 中选择,并通过 WanVideoSetLoRAs (#48) 应用;通过 WanVideoSetBlockSwap (#50) 可以启用 WanVideoBlockSwap (#51) 进行影响风格和保真度的架构调整。提示由 WanVideoTextEncodeCached (#65) 编码,而 WanVideoClipVisionEncode (#70) 将参考图像转化为强大的身份嵌入。WanVideoAnimateEmbeds (#62) 将 CLIP 特征、参考图像、姿势图像、面部裁剪、可选背景帧、SAM 2 遮罩以及选择的分辨率和帧数融合成一个动画嵌入。该馈送驱动 WanVideoSampler (#27),它合成与您的提示、身份和运动线索一致的潜在视频,而 WanVideoDecode (#28) 将潜在视频转换回 RGB 帧。
为了帮助比较输出,工作流组装了一个简单的并排:生成的视频旁边是一个垂直条,显示参考图像、面部裁剪、姿势叠加和驱动视频中的一帧。ImageConcatMulti (#77, #66) 构建视觉拼贴,然后 VHS_VideoCombine (#30) 渲染一个 "Compare" mp4。最终的干净输出由 VHS_VideoCombine (#189) 渲染,它还携带驱动器中的音频以便快速审查剪辑。这些导出使得判断 Wan 2.2 Animate V2 如何跟随运动、保留身份和保持预期背景变得容易。
VHS_LoadVideo (#191)
加载驱动视频并暴露帧、音频和整个图表中使用的元数据。保持主体完全可见,并且运动模糊最小,以便更强的关键点跟踪。如果您想进行更短的测试,请限制加载的帧数;保持源 fps 下游一致,以避免在最终合并中音频不同步。
PoseAndFaceDetection (#172)
运行 YOLO 和 ViTPose 以生成直接指导运动转移的全身关键点和面部裁剪。将其提供给加载器中的图像以及标准化的宽度和高度;可选的 retarget_image 输入允许在需要时将姿势适应不同的框架。如果姿势叠加看起来嘈杂,请考虑使用更高质量的 ViTPose 模型,并确保主体没有严重遮挡。参考:ComfyUI‑WanAnimatePreprocess。
Sam2Segmentation (#104)
生成一个可以在 Wan 2.2 Animate V2 中保留背景或本地化重光的主体遮罩。您可以使用 PoseAndFaceDetection 检测到的边界框,或在需要时绘制快速正点以优化哑光效果。将其与 GrowMaskWithBlur 配对,以在快速运动上获得更干净的边缘,并使用遮罩预览导出查看结果。参考:Segment Anything 2。
WanVideoClipVisionEncode (#70)
使用 CLIP Vision 编码参考图像,以捕捉身份线索如面部结构、头发和服装。您可以平均多个参考图像以稳定身份,或使用负面图像抑制不需要的特征。中心裁剪与一致的光照有助于产生更强的嵌入。
WanVideoAnimateEmbeds (#62)
将身份特征、姿势图像、面部裁剪、可选背景帧和 SAM 2 遮罩融合成一个动画嵌入。将 width、height 和 num_frames 与您的驱动视频对齐,以减少伪影。如果看到背景漂移,请提供干净的背景帧和坚实的遮罩;如果面部漂移,请确保面部裁剪存在且光线良好。
WanVideoSampler (#27)
通过您的提示、LoRAs 和动画嵌入生成实际的视频潜在量。对于长剪辑,在滑动窗口策略和模型的上下文选项之间进行选择;匹配窗口与剪辑长度,以平衡运动清晰度和长程一致性。调整调度器和指导强度,以权衡保真度、风格遵循和运动流畅性,并考虑启用块交换,如果您的 LoRA 堆栈从中受益。
在此工作流中使用的有用资源:
此工作流实现并基于以下作品和资源。我们感谢 Benji’s AI Playground 的工作流和 Wan 团队为 Wan 2.2 Animate V2 模型做出的贡献和维护。有关权威细节,请参阅下面链接的原始文档和仓库。
注意:所引用的模型、数据集和代码的使用受其作者和维护者提供的各自许可证和条款的约束。
RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Playground, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。