Wan2.2 S2V 在 ComfyUI 工作流中 | 音频到说话视频

ComfyUI Wan2.2 S2V Workflow

Wan2.2 S2V in ComfyUI Workflow | Audio to Talking Video

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Wan2.2 S2V Examples

Wan2.2 S2V: 在 ComfyUI 中从单一图像生成声音到视频#

Wan2.2 S2V 是一个声音到视频的工作流，它将一个参考图像加上音频剪辑转换为同步视频。它以 Wan 2.2 模型系列为基础，专为希望表达动作、唇同步和随声音或语音变化的场景动态的创作者设计。使用 Wan2.2 S2V 可以生成说话的头像、音乐驱动的循环和快速的故事节拍，而无需手动画。

这个 ComfyUI 图形将音频特征与文本提示和静态图像结合以生成短片，然后将帧与原始音频混合。结果是一个紧凑、可靠的管道，在保持参考图像外观的同时，让音频驱动时间和表情。

Comfyui Wan2.2 S2V 工作流中的关键模型#

Wan 2.2 S2V UNet (14B, bf16)。核心生成器，将音频特征、文本条件和参考图像融合以生成视频潜在变量。
Wan VAE (wan_2.1_vae)。在潜在空间和像素空间之间进行编码/解码，以在 Wan2.2 S2V 渲染中保持细节和颜色保真度。
UMT5-XXL 文本编码器。提供风格和内容的提示条件；请参阅基础模型卡：google/umt5-xxl。
Wav2Vec2 Large 音频编码器。提取稳健的语音和节奏特征以进行声音条件生成；请参阅典型模型卡：facebook/wav2vec2-large-960h。

如何使用 Comfyui Wan2.2 S2V 工作流#

该工作流分为三个组。您可以端到端运行它们或根据需要调整每个阶段。

1) 输入#

此组加载 Wan 的文本、图像和 VAE 组件，并准备您的提示。使用 CLIPLoader (#38) 与 CLIPTextEncode (#6) 为正面提示和 CLIPTextEncode (#7) 为负面提示来引导风格和质量。使用 LoadImage (#52) 加载您的参考图像；这锚定了 Wan2.2 S2V 的身份、构图和调色板。保持正面提示简洁但描述性，以便音频保留对动作的控制。VAE (VAELoader (#39)) 和模型加载器 (UNETLoader (#37)) 已预先连接，通常保持原样。

2) 加载 TTS 音频或自定义音频#

选择您提供音频的方式。对于快速测试，使用 UnifiedTTSTextNode (#71) 生成语音，并使用 PreviewAudio (#65) 预览。要使用自己的音乐或对话，请使用 LoadAudio (#78) 加载本地文件或 VHS_LoadAudioUpload (#87) 上传；两者都通过 Reroute (#88) 使下游节点看到单一音频源。音频持续时间由 Audio Duration (mtb) (#68) 测量，然后由 MathExpression|pysssss (#67) 转换为帧数，标记为“Audio to Frame in 16 FPS”。音频特征由 AudioEncoderLoader (#57) 和 AudioEncoderEncode (#56) 生成，它们一起为 Wan2.2 S2V 节点提供 AUDIO_ENCODER_OUTPUT。

3) KSampler 和输出#

WanSoundImageToVideo (#55) 是 Wan2.2 S2V 的核心。它使用您的提示、VAE、音频特征、参考图像和一个 length 整数（帧）来发出条件潜在序列。该潜在序列传递给 KSampler (#3)，其采样器设置控制整体连贯性和细节，同时尊重音频驱动的时间。采样的潜在序列由 VAEDecode (#8) 解码为帧，然后由 VHS_VideoCombine (#66) 组合视频并混合您的原始音频以生成 MP4。ModelSamplingSD3 (#54) 用于设置 Wan 主干的正确采样器系列。

Comfyui Wan2.2 S2V 工作流中的关键节点#

`WanSoundImageToVideo` (#55)#

从单一图像驱动音频同步动作。将 ref_image 设置为您想要动画化的肖像或场景，连接编码器的 audio_encoder_output，并提供帧中的 length。增加 length 以获得更长的剪辑，或减少以获得更快的预览。如果您在其他地方更改 FPS，请相应更新帧值以保持时间同步。

`AudioEncoderLoader` (#57) 和 `AudioEncoderEncode` (#56)#

加载并运行基于 Wav2Vec2 的编码器，将语音或音乐转换为 Wan 可以跟随的特征。使用清晰的语音进行唇同步，或使用节奏强烈的音频进行节拍驱动的动作。如果您的输入语言或领域不同，请换用兼容的 Wav2Vec2 检查点以提高对齐。

`CLIPTextEncode` (#6) 和 `CLIPTextEncode` (#7)#

用于 UMT5/CLIP 条件的正负提示编码器。保持正面提示简洁，专注于主题、风格和镜头术语；使用负面提示避免不需要的伪影。过于强硬的提示可能与音频对抗，因此建议轻微指导，让 Wan2.2 S2V 处理动作。

`KSampler` (#3)#

采样由 Wan2.2 S2V 节点生成的潜在序列。调整采样类型和步骤以在速度和保真度之间进行权衡；当您希望使用相同音频获得可重复的时间时，保持固定种子。如果动作感觉过于僵硬或嘈杂，这里的微小变化可以显著改善时间稳定性。

`VHS_VideoCombine` (#66)#

创建最终视频并附加音频。设置 frame_rate 以匹配您的预期 FPS，并确认剪辑长度与您的 length 帧相匹配。容器、像素格式和质量控制公开用于快速导出；当您计划在编辑器中后期处理时，请使用更高的质量。

可选附加项#

从您目标纵横比的良好照明、正面参考图像开始，以最小化身份漂移和裁剪。
对于唇同步，保持嘴巴不被遮挡，并使用清晰的叙述；具有强瞬变的音乐在节拍驱动的动作中效果良好。
默认 FPS 转换假定为 16 fps；如果您更改 FPS，请在“Audio to Frame in 16 FPS”中更新数学，以便帧与音频持续时间对齐。
使用音频预览和 VHS 实时预览快速迭代，然后在您喜欢时间后提高质量。
较长的剪辑会增加计算和 VRAM；在使用 Wan2.2 S2V 制作多镜头视频时，删除静音或将长脚本拆分为短场景。

致谢#

此工作流实现并构建在以下作品和资源之上。我们感谢 Wan-Video 为 Wan2.2 (包括 S2V 推理代码)，Wan-AI 为 Wan2.2-S2V-14B，以及 Gao et al. (2025) 为 Wan-S2V: Audio-Driven Cinematic Video Generation 的贡献和维护。有关权威详细信息，请参阅下文链接的原始文档和存储库。

资源#

Wan-Video/Wan2.2 S2V Demo
- GitHub: Wan-Video/Wan2.2
- Hugging Face: Wan-AI/Wan2.2-S2V-14B
- arXiv: Wan-S2V: Audio-Driven Cinematic Video Generation
- 文档/发行说明: Wan2.2 S2V Demo

注意：所引用模型、数据集和代码的使用受其作者和维护者提供的各自许可证和条款的约束。

Want More ComfyUI Workflows?

EchoMimic | 音频驱动的人像动画

生成与提供的音频同步的逼真说话头像和身体动作。

Mochi 1 | Genmo 文本到视频

使用 Genmo Mochi 1 模型的文本到视频演示

Hallo2 | 唇同步肖像动画

4K肖像动画的音频驱动唇同步。

LTX 2.3 Sulphur T2V 工作流程 | 电影级文本到视频生成器

瞬间将您的文本转化为电影级、富有表现力的故事驱动视频场景。

AnimateDiff + ControlNet TimeStep KeyFrame | 变形动画

设置 ControlNet Timestep KeyFrames,例如第一帧和最后一帧,以创建变形动画。

Stable Video Infinity 2.0 | 长篇视频生成器

轻松创建长篇、流畅、故事驱动的 AI 视频。

Z Image Real Skin 工作流程 | 现实肖像生成器

创建具有真实人体皮肤纹理和自然光照的肖像。

Nunchaku Qwen 图像 | 多图像编辑器

以高级控制融合和风格化多张图像。

关注我们

支持

资源

法律

RunComfy

RunComfy 是首选的 ComfyUI 平台，提供 ComfyUI 在线环境和服务，以及 ComfyUI 工作流具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。

Wan2.2 S2V | 声音到视频生成器