Wan 2.2 Animate: 角色替换与唇同步工作流程

此工作流程由MDMZ合作创建。有关详细的演练和创意提示，请查看MDMZ的YouTube频道！

ComfyUI Wan 2.2 Animate: Swap Characters & Lip-Sync Workflow

Wan 2.2 Animate: Swap Characters & Lip-Sync Workflow | ComfyUI

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Wan 2.2 Animate: Swap Characters & Lip-Sync Examples

工作流程教程#

Wan 2.2 Animate: 角色替换与唇同步#

在保留动作、表情和口型与原始音频对齐的同时，将任意摄像头前的发言者替换为您自己的角色。此ComfyUI工作流程围绕Wan 2.2 Animate: 角色替换与唇同步构建，能够从输入视频中检测身体姿势和面部帧，并将它们重新定位到单一参考图像，呈现一致的、语音同步的结果。

此工作流程适合想要可靠角色替换的编辑、创作者和研究人员，可用于采访、剪辑、VTubing、幻灯片或配音短片。提供一个源片段和一张干净的参考图像；管道在新角色上重建姿势和唇部动作，并将原始音轨混合到最终导出中。

Comfyui Wan 2.2 Animate: 角色替换与唇同步工作流程中的关键模型#

Wan 2.2 Animate 14B (FP8 scaled)：核心视频生成器，通过姿态、面部和上下文信号在帧之间合成重新定位的角色。模型中心
Wan 2.1 VAE (bf16)：在采样和输出时由Wan使用的视频潜在编码/解码器。权重
UMT5‑XXL 文本编码器 (bf16)：为轻量提示或镜头描述构建文本嵌入。权重
CLIP Vision H：从参考肖像中提取强大的图像特征以保留身份。权重
Lightx2v I2V 14B LoRA：在使用参考帧时提高图像到视频的稳定性和保真度。LoRA
Wan22 Relight LoRA：帮助保持镜头中的一致阴影和重光。LoRA
YOLOv10m (ONNX)：在姿态估计之前使用的快速人脸检测。模型
ViTPose WholeBody Large (ONNX)：用于全身运动转移的高质量骨骼关键点。模型
Segment Anything 2.1：为指导替换的干净前景遮罩分割。仓库

如何使用Comfyui Wan 2.2 Animate: 角色替换与唇同步工作流程#

图形通过七个组移动：加载输入，建立参考，预处理姿态/面部和遮罩，加载生成模型，运行角色替换，预览诊断，然后导出带音频。

加载视频#

使用VHS_LoadVideo (#63)导入您的源片段。节点提供可选宽度/高度用于调整大小，并输出视频帧、音频和帧数以供下游使用。如果您希望更快的处理速度，请将剪辑修剪到接近说话部分。音频会传递给导出器，以便最终视频与原始音轨保持一致。

参考图像#

提供目标角色的单个干净肖像。图像通过ImageResizeKJv2 (#64)调整大小以匹配您的工作分辨率，并存储为CLIP Vision和生成器使用的规范参考。优选在与源镜头光照相似的条件下拍摄的清晰、正面图像，以减少颜色和阴影漂移。

预处理#

OnnxDetectionModelLoader (#178)加载YOLO和ViTPose，然后PoseAndFaceDetection (#172)分析每个帧以生成全身关键点和每帧面部裁剪。Sam2Segmentation (#104)使用检测到的边界框或关键帧点创建前景遮罩；如果一个提示失败，请切换到另一个以获得更好的分离。遮罩通过GrowMaskWithBlur (#182)进行优化，并通过BlockifyMask (#108)进行块化，以为生成器提供稳定、明确的主体区域。可选的叠加层（DrawViTPose (#173)和DrawMaskOnImage (#99)）帮助您在生成前目视验证姿态覆盖和遮罩质量。

模型#

WanVideoModelLoader (#22)加载Wan 2.2 Animate 14B，WanVideoVAELoader (#38)提供VAE。参考肖像的身份特征由CLIPVisionLoader (#71)和WanVideoClipVisionEncode (#70)编码。样式与稳定性通过WanVideoLoraSelectMulti (#171)进行调整，而WanVideoSetLoRAs (#48)和WanVideoSetBlockSwap (#50)将LoRAs和块交换设置应用于模型；这些工具来自Wan包装库。详情请参见ComfyUI‑WanVideoWrapper。

角色替换#

WanVideoTextEncodeCached (#65)接受简短的描述性提示，如果您希望微调外观或镜头氛围。WanVideoAnimateEmbeds (#62)将参考图像、每帧姿态、面部裁剪、背景和遮罩融合成图像嵌入，以在保持身份的同时匹配动作和口型。随后由WanVideoSampler (#27)渲染帧；其调度器和步骤控制清晰度与动作的权衡。WanVideoDecode (#28)解码后的帧交给尺寸/计数检查器，以便在导出前确认尺寸。

结果拼贴#

为了快速质量检查，工作流程使用ImageConcatMulti (#77, #66)将关键输入连接成一个简单的比较条，包括参考、面部裁剪、姿态可视化和原始帧。用于在测试通过后进行身份线索和口型的合理性检查。

输出#

VHS_VideoCombine (#30)生成最终视频并混合原始音频以确保完美的时间同步。如有需要，附加的导出器可用于保存中间诊断或备用剪辑。对于较长的剪辑，先导出一个简短的测试，然后在提交完整渲染之前迭代LoRA混合和遮罩以获得最佳效果。

Comfyui Wan 2.2 Animate: 角色替换与唇同步工作流程中的关键节点#

VHS_LoadVideo (#63) 一步加载帧和原始音频。使用它来设置符合您的GPU预算的工作分辨率，并确认下游节点将消耗的帧数。来自ComfyUI‑VideoHelperSuite。

PoseAndFaceDetection (#172) 运行YOLO和ViTPose以提取人物框、全身关键点和每帧面部裁剪。良好的关键点是可信运动转移的骨干，并直接用于唇部动作。从ComfyUI‑WanAnimatePreprocess。

Sam2Segmentation (#104) 使用边界框或关键帧点提示在主体周围构建前景遮罩。如果头发或手部被遗漏，请切换提示类型或在块化前扩展模糊/增长设置。从ComfyUI‑segment‑anything‑2。

WanVideoLoraSelectMulti (#171) 允许您混合LoRAs，如Lightx2v和Wan22 Relight，以平衡运动稳定性、光线一致性和身份强度。增加LoRA的权重以获得更多影响，但注意面部过度风格化。从ComfyUI‑WanVideoWrapper。

WanVideoAnimateEmbeds (#62) 将参考肖像、姿态图像、面部裁剪、背景帧和遮罩组合成一个紧凑的表示，条件Wan 2.2 Animate。确保width、height和num_frames与您计划的导出匹配，以避免重采样伪影。从ComfyUI‑WanVideoWrapper。

WanVideoSampler (#27) 生成最终帧。当您需要更清晰的细节时使用更高的步骤和更稳定的调度器，或使用较轻的调度进行快速预览。对于非常长的剪辑，您可以通过接入WanVideoContextOptions (#110)可选引入上下文窗口控件，以在窗口之间保持时间一致性。

VHS_VideoCombine (#30) 导出完成的视频并混合原始音频以保持唇部动作同步。修剪到音频选项使持续时间与音轨保持一致。从ComfyUI‑VideoHelperSuite。

可选附加项#

使用清晰、正面、嘴唇自然的参考以实现最干净的身份传递；避免过浓的化妆或遮挡。
如果分割遗漏了头发或配饰，请尝试在边界框和关键帧点之间切换Sam2Segmentation提示，然后在块化前稍微增长遮罩。
Lightx2v LoRA提高I2V稳定性；Wan22 Relight LoRA帮助匹配不一致的光照。小的权重变化可以解决闪烁而不需过度烘焙外观。
块交换可以减少长镜头中的身份漂移；如果面部随时间变软，请在WanVideoSetBlockSwap (#50)中启用并重新测试。
保持工作分辨率与源成比例以防止纵横比失真；仅当参考图像足够详细时才放大。
对于有能力的运行时，启用torch编译和包装节点中的高效注意力可以加快采样速度；见ComfyUI‑WanVideoWrapper了解指导。

此Wan 2.2 Animate: 角色替换与唇同步工作流程提供一致的运动转移和语音同步的口型，设置简单，使高质量角色替换在ComfyUI中快速而可重复。

致谢#

此工作流程实施并建立在以下作品和资源之上。我们感谢@MDMZ为整个工作流程的构建，Kijai为WAN 2.2 Animate和相关ComfyUI节点，Wan-AI为Wan2.2-Animate资产包括YOLOv10m检测，和Comfy-Org为Wan 2.1 Clip Vision模型的贡献和维护。有关权威细节，请参阅下文链接的原始文档和仓库。

资源#

工作流程教程
- Youtube: ComfyUI-Tutorial from @MDMZ

注意：使用参考的模型、数据集和代码受其作者和维护者提供的相应许可证和条款的约束。

Want More ComfyUI Workflows?

Wan 2.2 Lightning T2V I2V | 4步超高速

Wan 2.2 现在快20倍！T2V + I2V 仅需4步。

Wan 2.2 + Lightx2v V2 | 超快速 I2V & T2V

双 Light LoRA 设置，速度提高 4 倍。

Wan 2.2 FLF2V | 首尾帧视频生成

使用 Wan 2.2 FLF2V 从起始和结束帧生成流畅视频。

Wan 2.2 | 开源视频生成领导者

现已推出！更高精度 + 更流畅的运动。

EchoMimic | 音频驱动的人像动画

生成与提供的音频同步的逼真说话头像和身体动作。

Mochi Edit 升采样 | 视频到视频

Mochi Edit：使用文本提示和升采样修改视频。

LTX 2.3 - 视频人脸交换 | 无缝人脸替换

在视频中交换人脸，获得自然效果且无闪烁。

幻想肖像 | 富有表现力的照片动画

照片 → 富有表现力的电影面部动画，快速且身份准确。

关注我们

支持

资源

法律

RunComfy

RunComfy 是首选的 ComfyUI 平台，提供 ComfyUI 在线环境和服务，以及 ComfyUI 工作流具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。

Wan 2.2 Animate | 角色替换与唇同步