Wan2.2 S2V 是一个声音到视频的工作流,它将一个参考图像加上音频剪辑转换为同步视频。它以 Wan 2.2 模型系列为基础,专为希望表达动作、唇同步和随声音或语音变化的场景动态的创作者设计。使用 Wan2.2 S2V 可以生成说话的头像、音乐驱动的循环和快速的故事节拍,而无需手动画。
这个 ComfyUI 图形将音频特征与文本提示和静态图像结合以生成短片,然后将帧与原始音频混合。结果是一个紧凑、可靠的管道,在保持参考图像外观的同时,让音频驱动时间和表情。
该工作流分为三个组。您可以端到端运行它们或根据需要调整每个阶段。
此组加载 Wan 的文本、图像和 VAE 组件,并准备您的提示。使用 CLIPLoader
(#38) 与 CLIPTextEncode
(#6) 为正面提示和 CLIPTextEncode
(#7) 为负面提示来引导风格和质量。使用 LoadImage
(#52) 加载您的参考图像;这锚定了 Wan2.2 S2V 的身份、构图和调色板。保持正面提示简洁但描述性,以便音频保留对动作的控制。VAE (VAELoader
(#39)) 和模型加载器 (UNETLoader
(#37)) 已预先连接,通常保持原样。
选择您提供音频的方式。对于快速测试,使用 UnifiedTTSTextNode
(#71) 生成语音,并使用 PreviewAudio
(#65) 预览。要使用自己的音乐或对话,请使用 LoadAudio
(#78) 加载本地文件或 VHS_LoadAudioUpload
(#87) 上传;两者都通过 Reroute
(#88) 使下游节点看到单一音频源。音频持续时间由 Audio Duration (mtb)
(#68) 测量,然后由 MathExpression|pysssss
(#67) 转换为帧数,标记为“Audio to Frame in 16 FPS”。音频特征由 AudioEncoderLoader
(#57) 和 AudioEncoderEncode
(#56) 生成,它们一起为 Wan2.2 S2V 节点提供 AUDIO_ENCODER_OUTPUT
。
WanSoundImageToVideo
(#55) 是 Wan2.2 S2V 的核心。它使用您的提示、VAE、音频特征、参考图像和一个 length
整数(帧)来发出条件潜在序列。该潜在序列传递给 KSampler
(#3),其采样器设置控制整体连贯性和细节,同时尊重音频驱动的时间。采样的潜在序列由 VAEDecode
(#8) 解码为帧,然后由 VHS_VideoCombine
(#66) 组合视频并混合您的原始音频以生成 MP4。ModelSamplingSD3
(#54) 用于设置 Wan 主干的正确采样器系列。
WanSoundImageToVideo
(#55)从单一图像驱动音频同步动作。将 ref_image
设置为您想要动画化的肖像或场景,连接编码器的 audio_encoder_output
,并提供帧中的 length
。增加 length
以获得更长的剪辑,或减少以获得更快的预览。如果您在其他地方更改 FPS,请相应更新帧值以保持时间同步。
AudioEncoderLoader
(#57) 和 AudioEncoderEncode
(#56)加载并运行基于 Wav2Vec2 的编码器,将语音或音乐转换为 Wan 可以跟随的特征。使用清晰的语音进行唇同步,或使用节奏强烈的音频进行节拍驱动的动作。如果您的输入语言或领域不同,请换用兼容的 Wav2Vec2 检查点以提高对齐。
CLIPTextEncode
(#6) 和 CLIPTextEncode
(#7)用于 UMT5/CLIP 条件的正负提示编码器。保持正面提示简洁,专注于主题、风格和镜头术语;使用负面提示避免不需要的伪影。过于强硬的提示可能与音频对抗,因此建议轻微指导,让 Wan2.2 S2V 处理动作。
KSampler
(#3)采样由 Wan2.2 S2V 节点生成的潜在序列。调整采样类型和步骤以在速度和保真度之间进行权衡;当您希望使用相同音频获得可重复的时间时,保持固定种子。如果动作感觉过于僵硬或嘈杂,这里的微小变化可以显著改善时间稳定性。
VHS_VideoCombine
(#66)创建最终视频并附加音频。设置 frame_rate
以匹配您的预期 FPS,并确认剪辑长度与您的 length
帧相匹配。容器、像素格式和质量控制公开用于快速导出;当您计划在编辑器中后期处理时,请使用更高的质量。
此工作流实现并构建在以下作品和资源之上。我们感谢 Wan-Video 为 Wan2.2 (包括 S2V 推理代码),Wan-AI 为 Wan2.2-S2V-14B,以及 Gao et al. (2025) 为 Wan-S2V: Audio-Driven Cinematic Video Generation 的贡献和维护。有关权威详细信息,请参阅下文链接的原始文档和存储库。
注意:所引用模型、数据集和代码的使用受其作者和维护者提供的各自许可证和条款的约束。
RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Playground, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。