Wan 2.2 VBVR 在 ComfyUI 中:推理感知的图像到视频生成
Wan 2.2 VBVR 在 ComfyUI 中是一个生产就绪的工作流,将基于视频的视觉推理引入 Wan 2.2 图像到视频。它通过一个推理调整的模型路径和一个可选的 VBVR LoRA 路径增强了标准的 Wan 2.2 专家混合管道,因此您的视频可以更强的时间逻辑和场景一致性来跟踪对象、动作和因果事件。
专为需要的不仅仅是漂亮画面的创意方向、模拟和故事节拍而建,这个 ComfyUI 工作流将复杂的提示与结构化运动和多对象互动对齐。您可以在纯 VBVR 模型路线上选择,或将 VBVR 和运动 LoRAs 分层在 Wan 2.2 上以提高速度,然后导出准备编辑的 MP4。
Comfyui Wan 2.2 VBVR 工作流中的关键模型
- Wan2.2‑I2V‑A14B (MoE 主干)。两位专家专注于高噪声和低噪声阶段,并在去噪过程中通过 SNR 切换,提供更高的容量而不增加每步成本。这是工作流扩展和混合的主要生成器。Model card • Technical details
- VBVR‑Wan2.2。Wan2.2‑I2V‑A14B 在大型视频推理套件上的微调,以提高时间、因果和多对象推理,同时保持架构不变。当您需要最强的推理对齐时使用此模型。Model card • Paper
- Wan 2.x VAE。高压缩视频自动编码器,能够有效地重建 480p–720p 工作流的帧;Wan 2.2 描述了一种启用快速 720p 生成的压缩设计。Overview
- uMT5‑XXL 文本编码器。强大的多语言 T5 系列编码器,用于派生 Wan 2.2 文本和图像到视频管道的提示嵌入。Model card
- Wan 2.2 的运动和推理 LoRAs。工作流可以加载 VBVR LoRA 以获得推理偏见,和 LightX2V 步骤蒸馏的 LoRAs 以增强运动幅度和摄像机移动。VBVR LoRA example • LightX2V collection
如何使用 Comfyui Wan 2.2 VBVR 工作流
此工作流提供三种互补路线。每条路线从提示和可选起始图像到视频输出都是自成一体的,所以您可以测试所有三种并保留最佳结果。
- VBVR 模型路线
- 目的:当您需要最强的视频推理时使用此路线。它运行一对高 SNR 和低 SNR 的 VBVR 校准 Wan 2.2 模型,将去噪计划分为 "布局" 阶段和 "细节" 阶段。
- 工作原理:高噪声阶段首先在
WanVideoSampler(#173) 中运行,然后其潜变量流入低噪声阶段WanVideoSampler(#172),以细化运动逻辑和细节。切换由采样器的start_step和end_step控制,反映 Wan 2.2 的 SNR 门控专家交接。 - 设置内容:如果需要,通过
LoadImage(#67) 提供起始图像,并在靠近编码器的Text节点中编写您的提示,输入WanVideoTextEncode(#170)。通过采样器旁边的小整数节点调整帧数 (Int(#168))。 - 输出:帧由
WanVideoDecode(#164) 解码,并通过VHS_VideoCombine(#176) 组装为 MP4。
- Wan 2.2 + PainterI2V 路线
- 目的:用于电影运动的快速通用路径。它保留了标准的 Wan 2.2 I2V 模型,但通过
PainterI2VforKJ升级图像条件,修正 4 步 LoRAs 常见的慢动作伪影。 - 工作原理:您的起始图像被调整大小以适应模型,通过
PainterI2VforKJ(#181) 嵌入,然后由WanVideoSampler(#129, #130) 采样。该路线使用类似于 VBVR 的高噪声和低噪声交接,但坚持使用标准的 Wan 2.2 权重。 - 设置内容:在输入
WanVideoTextEncode(#152) 的Text节点中提供您的提示。如果您链接了一个 LightX2V LoRA,此路线的条件有助于运动感觉更有意图。请参阅节点的自述文件以了解其设计目标。PainterI2VforKJ - 输出:帧由
WanVideoDecode(#142) 解码,并通过VHS_VideoCombine(#154) 保存。
- 目的:用于电影运动的快速通用路径。它保留了标准的 Wan 2.2 I2V 模型,但通过
- Wan 2.2 + VBVR LoRA 路线
- 目的:快速迭代的混合方案。它在高噪声 Wan 2.2 模型上叠加 VBVR LoRA,在低噪声模型上叠加运动 LoRA,给予推理上的早期推动和后期的清晰运动抛光。
- 工作原理:高噪声流通过
WanVideoSampler(#27) 运行,低噪声流通过WanVideoSampler(#90);两者都从WanVideoTextEncode(#16) 处接收文本嵌入,并从PainterI2VforKJ(#179) 处接收可选的图像条件。LoRAs 按阶段应用以匹配专家的角色。 - 设置内容:将您的提示输入靠近
WanVideoTextEncode(#16) 的Text节点中,如果需要,通过附近的整数小工具调整阶段分割,标记为 “Split_step”。VBVR 和 LightX2V LoRAs 可从此组的 LoRA 节点中选择。VBVR LoRA - 输出:帧通过
WanVideoDecode(#28) 解码,并通过VHS_VideoCombine(#60) 导出。
Comfyui Wan 2.2 VBVR 工作流中的关键节点
WanVideoModelLoader(#165, #162)- 加载 VBVR 校准的高 SNR 和低 SNR Wan 2.2 模型,映射到早期和后期去噪专家。保持配对一致,以确保 SNR 基于的交接保持稳定。查看 Wan 2.2 的 MoE 和 SNR 切换设计以了解背景。Details
WanVideoSampler(#173, #172, #129, #130, #27, #90)- 驱动生成并控制专家分割。调整
steps以平衡细节与速度,并调整start_step或end_step以在早期布局专家和后期细节专家之间转移工作。使用cfg在依从性和运动自由之间进行权衡。参考实现位于包装器的采样器节点中。Wrapper repo
- 驱动生成并控制专家分割。调整
PainterI2VforKJ(#178, #181, #179)- 用一种运动放大的变体替换普通的图像到视频条件设计,用于在使用 4 步 LightX2V LoRAs 时修复慢动作。它加强了摄像机提示和动作节拍,同时保持主体身份。Node readme
WanVideoTextEncode(#170, #152, #16)- 通过 uMT5‑XXL 编码器编码正面和负面提示,以便采样器接收丰富的多语言语义。保持提示结构清晰;分离场景、主体、动作和摄像机意图通常可以改善对齐。uMT5
VHS_VideoCombine(#176, #154, #60)- 将解码的帧组装成带有可重现性元数据的 MP4。如果您传递音频,该节点将其与视频混合。这来自 VideoHelperSuite 的实用程序节点。VideoHelperSuite
可选附加项
- 何时选择每条路线
- VBVR 模型:复杂互动、因果场景或多对象编排。
- Wan 2.2 + PainterI2V:动态运动或以摄像机为主的故事叙述,使用 LightX2V LoRAs。
- Wan 2.2 + VBVR LoRA:快速预览,仍然在去噪早期受益于推理偏见。
- ComfyUI 中 Wan 2.2 VBVR 的提示技巧
- 使用短节如 [SCENE]、[SUBJECT]、[ACTION]、[CAMERA]、[LIGHTING]。这有助于文本编码器分离意图。
- 对于对象互动,明确说明谁对谁做了什么以及顺序如何。
- LoRA 叠加
- 帧大小和比例
- 输入附近的
ImageResizeKJv2节点确保 VAE 的干净可分性并减少伪影。匹配您的起始图像比例与目标视频,以获得更顺畅的运动传播。
- 输入附近的
致谢
这个工作流实现并基于以下作品和资源构建。我们衷心感谢 @Ai Verse,Wan 2.2 VBVR 在 ComfyUI Source 的作者,为他们的贡献和维护表示感谢。有关权威细节,请参阅下列链接的原始文档和存储库。
资源
- YouTube/Wan 2.2 VBVR 在 ComfyUI Source
- 文档 / 发布说明:Wan 2.2 VBVR 在 ComfyUI Source @Ai Verse
注意:引用的模型、数据集和代码的使用受其作者和维护者提供的相应许可证和条款的约束。
