Wan2.2 动作转移 V7:运动到角色视频工作流程适用于 ComfyUI#
Wan2.2 动作转移 V7 是一个 ComfyUI 视频工作流程,用于将驱动视频中的动作转移到目标角色或图像上,同时保持身份、框架和风格。基于 Wan2.2 动作,结合姿势、面部、CLIP 视觉、Uni3C ControlNet 和堆叠的 Wan LoRA 指导,它生成一个可供编辑或发布的 MP4。
此 Wan2.2 动作转移工作流程非常适合希望获得 RunComfy 准备好的动作转移设置并具有示例输入和一致、可重复结果的创作者。它处理姿势和面部调节、可选的摄像机指导、框架和纵横比工具,以及音频直通,以便您专注于指导表演和外观。
ComfyUI Wan2.2 动作转移工作流程中的关键模型#
- Wan2.2 Animate 14B。核心视频扩散模型,生成由身份、姿势和文本嵌入条件化的动作一致帧。Model card
- Wan Video VAE (Wan 2.1)。高质量的潜在编码/解码视频帧,在 ComfyUI 中平衡细节和速度。Assets
- CLIP Vision 编码器 (ViT‑H/14 via OpenCLIP)。从目标图像中提取身份和构图线索,以保持主体在帧之间的稳定。Repo
- ViTPose Whole‑Body。健壮的身体、手和面部关键点估计,驱动准确的动作转移。Paper
- YOLOv10 检测器。用于在关键点提取和比例映射之前定位身体的人和区域检测。Repo
- SDPose Whole‑Body 提取器。集成用于多策略姿势分析的替代整体身体关键点后端。Repo
- Uni3C ControlNet for video (via WanVideoWrapper)。在渲染过程中稳定摄像机和场景约束的可选结构指导。Repo
如何使用 ComfyUI Wan2.2 动作转移工作流程#
在高层次上,您加载一个目标角色图像和一个驱动视频,工作流程提取姿势和面部信号,用 CLIP 视觉编码身份,可选地应用 Uni3C 摄像机指导和 Wan LoRAs,然后使用 Wan2.2 动作渲染为帧并导出 MP4,带或不带源音频。
输入区域#
在 VHS_LoadVideo (#275) 中加载您的驱动视频,在 LoadImage (#299) 中加载目标角色图像。视频加载器管理帧率上限、可选音频提取和基本选择控制;图像加载器用作身份和框架参考。纵横比工具自动计算您选择的方向的宽度和高度,以便输出匹配 16:9 或 9:16 而不失真。如果您打算保留源音频,请保持连接;导出器将根据配置修剪或填充。
参考图像#
此组准备目标图像以进行身份指导。ImageResizeKJv2 (#225) 将图像对齐到渲染分辨率,CLIPVisionLoader (#178) 加载视觉骨干,WanVideoClipVisionEncode (#189) 生成 CLIP 视觉嵌入。使用干净、光线充足的图像和所需的框架;CLIP 视觉保持主体身份、服装线索和构图,使生成的视频遵循您的外观。
面部和姿势计算#
工作流程支持多种姿势管道以增强鲁棒性。OnnxDetectionModelLoader (#204) 与 PoseAndFaceDetection (#235, #249) 从驱动视频中提取全身姿势和面部裁剪。与此同时,基于 YOLO 的区域检测 (YOLOModelLoader (#327, #387) 与 BBoxYOLO (#324, #379, #395)) 提供给 SDPoseKeypointExtractor (#326, #383, #384) 用于替代关键点。使用 BodyRatioMapperProportionTransfer (#388) 的比例重定向路径在不同身体比例之间适应动作,并通过 BodyRatioMapperSDPoseRender (#391) 渲染干净的姿势图。布尔开关允许您绕过面部指导,以避免面部表达冲突。
模型加载#
WanVideoVAELoader (#277) 和 WanVideoModelLoader (#287) 引入 Wan2.2 动作骨干和 VAE。两个 WanVideoLoraSelectMulti 节点 (#248, #276) 允许您堆叠 LoRAs 以实现风格、速度、重新照明或修复指导,WanVideoSetBlockSwap (#290) 配置内存友好的块交换以处理长片段。WanVideoContextOptions (#270) 设置时间上下文窗口和步幅,使模型能够看到足够的邻近帧以保持稳定而不致于过度平滑动作。
Uni3C 摄像机和结构指导#
当您需要更稳定的摄像机行为或场景约束时,启用 Uni3C 路径。WanVideoUni3C_ControlnetLoader (#345) 加载控制模型,WanVideoEncode (#346) 将帧转换为潜在变量进行条件化处理,WanVideoUni3C_embeds (#344) 生成 Uni3C 嵌入,其强度您可以进行调整。此指导合并到主渲染链中以稳定移动、缩放或大动作场景。
采样与渲染#
WanVideoAnimateEmbeds (#295) 将 CLIP 视觉身份、姿势图和面部裁剪融合到图像嵌入中,同时您可以控制 pose_strength 和 face_strength。主渲染器在两个阶段运行,使用 WanVideoSampler (#222, #367);启用时,开关选择 Uni3C 引导的分支,否则选择标准分支。采样后,WanVideoDecode (#246) 将潜在变量转换为图像,帧选择工具将它们路由到导出。工作流程平衡上下文长度、步幅和内存,以便您可以可靠地渲染长序列。
导出#
包含两个导出器。VideoCombineNode (#330) 提供紧凑的 MP4 导出,可选择修剪到音频。VHS_VideoCombine (#285) 提供更丰富的界面用于帧率、CRF、pix_fmt 和输出命名;它还支持直接音频直通。如果您更喜欢图像序列进行后期处理,压缩实用程序可以压缩所有帧。
批处理工具和助手#
一个小集群管理帧数学、重复和计数,以便参考批次与目标序列长度匹配。实用工具如 ImageFromBatch (#181), ImageBatch (#304), BatchCount+ (#308, #314), 和 easy mathInt (#309) 保持长度同步,以便在整个剪辑中实现平滑条件化。VRAM 卫生节点在繁重步骤之间清除内存,以减少长时间渲染期间的内存不足错误。
ComfyUI Wan2.2 动作转移工作流程中的关键节点#
VHS_LoadVideo(#275)。加载驱动视频并提取音频。测试或迭代时使用帧上限;一旦锁定外观和动作,取消上限以进行全长渲染。如果您希望动作与源视频感觉相同,请保持原始 FPS;如果您需要特定的交付节奏,则强制使用新的 FPS。WanVideoAnimateEmbeds(#295)。将身份 (CLIP 视觉)、姿势和面部信号组合到驱动模型的嵌入中。调整pose_strength以决定动作与源的紧密程度,调整face_strength以优先考虑面部相似性;较低的面部强度可以帮助风格化、动漫或动物角色。WanVideoContextOptions(#270)。配置控制模型考虑的邻近帧数量的时间上下文窗口、步幅和重叠。更大的上下文可实现更平滑的连续性;较短的上下文可以在快速动作中保持清晰的变化。当您更改 FPS 或分辨率时,请保持上下文设置一致。WanVideoUni3C_embeds(#344)。生成可选的摄像机/结构指导。当您看到摄像机晃动或意外缩放时增加strength;如果指导开始与您的创意框架作斗争则减少它。WanVideoLoraSelectMulti(#276)。为风格、速度、重新照明或修复堆叠 Wan LoRAs。以适中的强度开始使用一个 LoRA,然后仅在需要时添加其他 LoRA;合并过多的强 LoRAs 可能会破坏身份。WanVideoSampler(#367)。Wan2.2 动作的主要扩散采样器。调度器、去噪强度和步数相互作用;增加步数提高细节但会耗时,而更高的去噪增加动作重写。如果您使用 Uni3C,在推高步数之前调整其强度。PoseAndFaceDetection(#235)。从驱动视频中提取全身姿势和面部裁剪。除非表演者的面部完全被遮挡,否则请关闭“遮罩/头盔演员”开关;在可见面部上启用它可能会削弱表情。VHS_VideoCombine(#285)。高质量 MP4 导出器,带音频支持。使用trim_to_audio将视频与音乐或对话硬同步,并调整crf以实现大小/质量权衡。如果您要交付给编辑器或社交平台,请将pix_fmt保持在广播友好的值。
可选扩展#
- 准备输入:使用干净、光线均匀的目标图像和运动模糊最小的驱动片段以获得最佳关键点。
- 匹配纵横比:尽早选择 16:9 或 9:16;工作流程自动缩放图像,因此最终视频不会意外地加上黑边。
- 稳定性提示:如果您看到手臂或腿漂移,请增加
pose_strength;如果身份漂移,请提高 CLIP 视觉影响力或简化 LoRA 堆叠。 - 摄像机控制:仅在需要摄像机稳定时启用 Uni3C;当源是手持拍摄时,通常关闭它会产生最具电影感的运动。
- 迭代:首先渲染短帧范围,然后在运动和外观调整到位后导出完整序列。
这个 Wan2.2 动作转移工作流程为 ComfyUI 带来了可靠的动作转移,具有实用的默认设置和成长空间。加载您的图像和驱动视频,设置姿势和面部强度,必要时选择 Uni3C,并导出已打磨的 MP4。
致谢#
此工作流程实现并基于以下作品和资源。我们由衷感谢 Wan-AI 提供 Wan2.2 动作官方模型,Kijai 提供 ComfyUI Wan 节点 (ComfyUI-WanVideoWrapper 和 ComfyUI-WanAnimatePreprocess),以及 RunningHub 和 RunComfy 团队为其贡献和维护的共享 ComfyUI 工作流程。有关权威细节,请参考下文链接的原始文档和存储库。
资源#
- RunningHub/Workflow source
- Docs / Release Notes: RunningHub post
- RunComfy/Cloud Save workflow
- Docs / Release Notes: RunComfy shared workflow
- Wan-AI/Wan2.2 Animate official model
- Hugging Face: Wan-AI/Wan2.2-Animate-14B
- kijai/ComfyUI-WanVideoWrapper nodes
- GitHub: kijai/ComfyUI-WanVideoWrapper
- Kijai/Wan2.2 Animate FP8 ComfyUI model assets
- Hugging Face: Kijai/WanVideo_comfy_fp8_scaled
- kijai/ComfyUI-WanAnimatePreprocess nodes
注:引用的模型、数据集和代码的使用须遵循其作者和维护者提供的相关许可和条款。

