Wan 2.2 Animate V2 in ComfyUI | 基于姿势的动画工作流

ComfyUI Wan 2.2 Animate V2 工作流程

Wan 2.2 Animate V2 in ComfyUI | Pose-Driven Animation Workflow

想要运行这个工作流吗？

完全可操作的工作流
没有缺失的节点或模型
无需手动设置
具有惊艳的视觉效果

ComfyUI Wan 2.2 Animate V2 示例

Wan 2.2 Animate V2 基于姿势的视频生成工作流用于 ComfyUI#

Wan 2.2 Animate V2 是一个基于姿势的视频生成工作流，可将单个参考图像加上驱动姿势视频转化为逼真的、身份保留的动画。它基于第一个版本，具有更高的保真度、更流畅的运动和更好的时间一致性，同时紧密跟随源视频的全身运动和表情。

这个 ComfyUI 工作流是为希望快速、可靠获得角色动画、舞蹈剪辑和表演驱动故事的创作者设计的。它结合了强大的预处理（姿势、面部和主体遮罩）与 Wan 2.2 模型系列和可选的 LoRAs，因此您可以自信地调整风格、光照和背景处理。

ComfyUI Wan 2.2 Animate V2 工作流中的关键模型#

Wan 2.2 Animate 14B. 核心视频扩散模型，从多模态嵌入中合成时间一致的帧。权重：Kijai/WanVideo_comfy_fp8_scaled (Wan22Animate)。
Wan 2.1 VAE. Wan 家族使用的潜在视频解码器/编码器，以最小损失重建 RGB 帧。权重：Wan2_1_VAE_bf16.safetensors。
UMT5‑XXL 文本编码器。编码指导外观、场景和电影效果的提示。权重：umt5‑xxl‑enc‑bf16.safetensors。
CLIP Vision (ViT‑H/14). 从参考图像中提取身份保留特征。论文：CLIP。
ViTPose Whole‑Body (ONNX). 估算驱动运动转移的密集身体关键点。模型：ViTPose‑L WholeBody 和 ViTPose‑H WholeBody。论文：ViTPose。
YOLOv10 检测器。提供人物框以稳定姿势检测和分割。示例：yolov10m.onnx。
Segment Anything 2. 高质量的主体遮罩用于背景保留、合成或重光预览。仓库：facebookresearch/segment-anything-2。
可选 LoRAs 用于风格和光传输。适用于 Wan 2.2 Animate V2 输出的重光和纹理细节。示例：Lightx2v 和 Wan22_relight。

如何使用 ComfyUI Wan 2.2 Animate V2 工作流#

在高层次上，管道从驱动视频中提取姿势和面部线索，从单个参考图像编码身份，可选地使用 SAM 2 遮罩隔离主体，然后合成一个匹配运动同时保留身份的视频。工作流分为四组协作产生最终结果，并有两个便捷输出用于快速 QA（姿势和遮罩预览）。

参考图像#

此组加载您的肖像或全身图像，将其调整到目标分辨率，并在整个图表中提供。调整大小后的图像由 Get_reference_image 存储和重用，并预览以便您快速评估框架。身份特征由 WanVideoClipVisionEncode (CLIP Vision) (#70) 编码，同一图像被 WanVideoAnimateEmbeds (#62) 作为 ref_images 供给以增强身份保留。提供与驱动视频中的主体类型匹配的清晰、光线充足的参考，以获得最佳效果。头部空间和最少的遮挡有助于 Wan 2.2 Animate V2 锁定面部结构和服装。

预处理#

驱动视频由 VHS_LoadVideo (#191) 加载，暴露帧、音频、帧数和源 fps 以供以后使用。姿势和面部线索由 OnnxDetectionModelLoader (#178) 和 PoseAndFaceDetection (#172) 提取，然后通过 DrawViTPose (#173) 可视化，以便您确认跟踪质量。主体隔离由 Sam2Segmentation (#104) 处理，随后是 GrowMaskWithBlur (#182) 和 BlockifyMask (#108) 以生成干净、稳定的遮罩；一个助手 DrawMaskOnImage (#99) 预览了哑光效果。该组还标准化了驱动视频的宽度、高度和帧数，因此 Wan 2.2 Animate V2 可以在无猜测情况下匹配空间和时间设置。快速检查导出为短视频：零次验证的姿势叠加和遮罩预览。

模型#

WanVideoVAELoader (#38) 加载 Wan VAE 和 WanVideoModelLoader (#22) 加载 Wan 2.2 Animate 主干。可选 LoRAs 在 WanVideoLoraSelectMulti (#171) 中选择，并通过 WanVideoSetLoRAs (#48) 应用；通过 WanVideoSetBlockSwap (#50) 可以启用 WanVideoBlockSwap (#51) 进行影响风格和保真度的架构调整。提示由 WanVideoTextEncodeCached (#65) 编码，而 WanVideoClipVisionEncode (#70) 将参考图像转化为强大的身份嵌入。WanVideoAnimateEmbeds (#62) 将 CLIP 特征、参考图像、姿势图像、面部裁剪、可选背景帧、SAM 2 遮罩以及选择的分辨率和帧数融合成一个动画嵌入。该馈送驱动 WanVideoSampler (#27)，它合成与您的提示、身份和运动线索一致的潜在视频，而 WanVideoDecode (#28) 将潜在视频转换回 RGB 帧。

结果拼贴#

为了帮助比较输出，工作流组装了一个简单的并排：生成的视频旁边是一个垂直条，显示参考图像、面部裁剪、姿势叠加和驱动视频中的一帧。ImageConcatMulti (#77, #66) 构建视觉拼贴，然后 VHS_VideoCombine (#30) 渲染一个 "Compare" mp4。最终的干净输出由 VHS_VideoCombine (#189) 渲染，它还携带驱动器中的音频以便快速审查剪辑。这些导出使得判断 Wan 2.2 Animate V2 如何跟随运动、保留身份和保持预期背景变得容易。

ComfyUI Wan 2.2 Animate V2 工作流中的关键节点#

VHS_LoadVideo (#191) 加载驱动视频并暴露帧、音频和整个图表中使用的元数据。保持主体完全可见，并且运动模糊最小，以便更强的关键点跟踪。如果您想进行更短的测试，请限制加载的帧数；保持源 fps 下游一致，以避免在最终合并中音频不同步。

PoseAndFaceDetection (#172) 运行 YOLO 和 ViTPose 以生成直接指导运动转移的全身关键点和面部裁剪。将其提供给加载器中的图像以及标准化的宽度和高度；可选的 retarget_image 输入允许在需要时将姿势适应不同的框架。如果姿势叠加看起来嘈杂，请考虑使用更高质量的 ViTPose 模型，并确保主体没有严重遮挡。参考：ComfyUI‑WanAnimatePreprocess。

Sam2Segmentation (#104) 生成一个可以在 Wan 2.2 Animate V2 中保留背景或本地化重光的主体遮罩。您可以使用 PoseAndFaceDetection 检测到的边界框，或在需要时绘制快速正点以优化哑光效果。将其与 GrowMaskWithBlur 配对，以在快速运动上获得更干净的边缘，并使用遮罩预览导出查看结果。参考：Segment Anything 2。

WanVideoClipVisionEncode (#70) 使用 CLIP Vision 编码参考图像，以捕捉身份线索如面部结构、头发和服装。您可以平均多个参考图像以稳定身份，或使用负面图像抑制不需要的特征。中心裁剪与一致的光照有助于产生更强的嵌入。

WanVideoAnimateEmbeds (#62) 将身份特征、姿势图像、面部裁剪、可选背景帧和 SAM 2 遮罩融合成一个动画嵌入。将 width、height 和 num_frames 与您的驱动视频对齐，以减少伪影。如果看到背景漂移，请提供干净的背景帧和坚实的遮罩；如果面部漂移，请确保面部裁剪存在且光线良好。

WanVideoSampler (#27) 通过您的提示、LoRAs 和动画嵌入生成实际的视频潜在量。对于长剪辑，在滑动窗口策略和模型的上下文选项之间进行选择；匹配窗口与剪辑长度，以平衡运动清晰度和长程一致性。调整调度器和指导强度，以权衡保真度、风格遵循和运动流畅性，并考虑启用块交换，如果您的 LoRA 堆栈从中受益。

可选附加功能#

从干净的驱动剪辑开始：稳定的相机、简单的光照和最小的遮挡让 Wan 2.2 Animate V2 有最佳机会干净地跟踪运动。
使用匹配目标服装和框架的参考；避免与您的提示或 LoRAs 冲突的极端角度或重滤镜。
使用 SAM 2 遮罩保留或替换背景；在合成时，保持边缘足够柔软，以避免快速运动中的光晕。
从加载到导出保持 fps 一致，以在携带音频时保持唇同步和节拍对齐。
为了快速迭代，先测试一个短片段，然后在姿势、身份和光照看起来合适后扩展帧范围。

在此工作流中使用的有用资源：

预处理节点：kijai/ComfyUI‑WanAnimatePreprocess
ViTPose ONNX 模型：ViTPose‑L，ViTPose‑H 模型和数据
YOLOv10 检测器：yolov10m.onnx
Wan 2.2 Animate 14B 权重：Wan22Animate
LoRAs：Lightx2v，Wan22_relight

致谢#

此工作流实现并基于以下作品和资源。我们感谢 Benji’s AI Playground 的工作流和 Wan 团队为 Wan 2.2 Animate V2 模型做出的贡献和维护。有关权威细节，请参阅下面链接的原始文档和仓库。

资源#

Wan 团队/Wan 2.2 Animate V2
- 文档 / 发布说明：YouTube @Benji’s AI Playground

注意：所引用的模型、数据集和代码的使用受其作者和维护者提供的各自许可证和条款的约束。

Want More ComfyUI Workflows?

Wan 2.2 | 开源视频生成领导者

现已推出！更高精度 + 更流畅的运动。

Wan 2.2 FLF2V | 首尾帧视频生成

使用 Wan 2.2 FLF2V 从起始和结束帧生成流畅视频。

Wan 2.2 + Lightx2v V2 | 超快速 I2V & T2V

双 Light LoRA 设置，速度提高 4 倍。

Wan 2.2 Lightning T2V I2V | 4步超高速

Wan 2.2 现在快20倍！T2V + I2V 仅需4步。

Wan2.2 动画 | 照片到真实动态视频

将图像转化为栩栩如生的动态角色，具备自然的身体和面部运动。

SVD + IPAdapter V1 | 图像到视频

利用 IPAdapters 进行静态图像生成,并使用 Stable Video Diffusion 进行动态视频生成。

混元视频 | 视频到视频

结合文本提示和源视频生成新视频。

InstantID | 人脸转贴纸

利用 Instant ID 和 IPAdapter 创建可定制的精美面部贴纸。

关注我们

支持

资源

法律

RunComfy

RunComfy 是首选的 ComfyUI 平台，提供 ComfyUI 在线环境和服务，以及 ComfyUI 工作流具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。

Wan 2.2 Animate V2 | 逼真的姿势视频生成器