生成完整的 AI 世界 (Vace Wan 2.1):具有真实摄像机跟踪的电影视频到视频世界构建
生成完整的 AI 世界 (Vace Wan 2.1) 是由 Mickmumpitz 提供的生产就绪 ComfyUI 工作流程,用于在保持原始摄像机运动的同时将实拍镜头转换为新环境。它更换背景,保留透视和比例,并将蒙版演员合成到由文本和参考图像驱动的完全再生世界中。
基于 Wan 2.1 VACE 堆栈构建,此工作流程非常适合需要快速预览或精美镜头的电影制作人、VFX 艺术家和创作者。您可以通过提示指导场景,从可选的参考图像开始,并在高速 FP8 管道或低 VRAM GGUF 管道之间进行选择。结果是无缝的世界构建,让您能够真正从日常镜头中生成完整的 AI 世界 (Vace Wan 2.1)。
Comfyui 生成完整 AI 世界 (Vace Wan 2.1) 工作流程中的关键模型
- Wan 2.1 14B 文本到视频扩散模型。核心生成器用于以时间一致的方式合成新世界。ComfyUI 的重新打包权重在 Hugging Face 的 Comfy‑Org 发布中可用。 Comfy‑Org/Wan_2.1_ComfyUI_repackaged
- Wan 2.1 VACE 模块 14B。提供 VACE 嵌入,将生成绑定到场景结构,实现准确的背景替换和摄像机跟踪。 Kijai/WanVideo_comfy
- Wan 2.1 VAE。处理视频帧的潜在编码/解码。 Comfy‑Org/Wan_2.1_ComfyUI_repackaged (VAE split)
- uMT5‑XXL 文本编码器。为 Wan 2.1 的条件空间编码提示。与此工作流程兼容的打包编码器与 Wan 2.1 分割一起提供。 Comfy‑Org/Wan_2.1_ComfyUI_repackaged (text_encoders)
- Wan 2.1 14B VACE GGUF (量化 UNet)。用于低 VRAM GPU 的量化替代方案,为 GGUF 路径提供动力,而无需完整的 FP8 模型。 QuantStack/Wan2.1_14B_VACE‑GGUF
- FILM: 大运动帧插值。可选的后处理,通过插值额外帧来增强运动平滑度。 google‑research/frame‑interpolation
- 可选的 LightX step‑distill LoRA 用于 Wan 2.1。面向速度的 LoRA,与短步数搭配良好,同时保持结构和身份。 Kijai/WanVideo_comfy (LoRA)
如何使用 Comfyui 生成完整 AI 世界 (Vace Wan 2.1) 工作流程
此工作流程遵循两步 VACE 策略:首先,它从控制图像中编码场景运动以锁定摄像机运动;其次,它编码演员插入并将其混合到再生环境中。您可以运行 FP8 路径以获得最大速度,或运行 GGUF 路径以获得低 VRAM。以下部分映射到图形上的组,以便您可以自信地操作整个生成完整 AI 世界 (Vace Wan 2.1) 管道。
视频输入和尺寸选择
输入区域允许您选择工作分辨率和基本剪辑控制。使用分辨率开关选择预设(720p、576p 或 480p),这些预设会提供给 Set_width (#370) 和 Set_height (#369),以便每个阶段保持同步。您可以限制帧数以保持快速周转,并设置一个小的跳过以抵消入点。为了稳定性和内存,请将序列保持在推荐范围内;图形标签指出,对于大多数 GPU,81 帧是一个合理的上限。这些选择适用于控制图像、VACE 编码和最终渲染的全局应用。
注意:输入视频也可以通过另一个工作流程生成,MASK_AND_TRACK。您可以在此处下载其工作流程文件:workflow.json。下载后,将文件拖放到一个新的工作流程选项卡中并运行以获取输入视频。
设置背景/参考图像
背景板和可选的参考图像指导视觉风格。加载背景静止图像,然后图形将其调整为匹配您的工作尺寸。如果您想要一个风格锚而不是硬背景板,请通过选择器启用 reference_image;此图像指导颜色、构图和色调而不影响几何结构。当您希望模型生成完整的 AI 世界 (Vace Wan 2.1) 时,参考路径很有帮助,它们回响特定外观,而文本提示则处理其余部分。当您更喜欢仅文本控制时,将其关闭。
开始帧+角色
使用此部分决定生成的开始方式。准备好演员静止图像后,Image Remove Background Rembg (mtb) (#1433) 提取干净的蒙版,ImageCompositeMasked (#1441) 将演员放置在您选择的背景上以形成开始帧。Start Frame 开关 (ImpactSwitch, #1760) 提供三种模式:复合演员加背景、仅背景或无开始帧。开始帧有助于锚定身份和布局;仅背景允许角色随着时间的推移“进入”;无开始帧要求模型从文本和参考中建立主题和世界。实时预览块在提交下游之前显示开始的样子。
控制图像
控制图像锁定摄像机的运动,使透视和视差感觉真实。将摄像机跟踪视频输入到组中;图形可以派生 OpenPose 和 Canny 层,然后将它们混合以创建强大的结构信号。Control Image Nodes 开关 (ImpactSwitch, #1032) 允许您选择仅跟踪、跟踪+姿势、Canny+姿势或外部准备的控制视频。通过预览组合查看堆栈以确保轮廓和边缘清晰可读。对于长序列,您可以保存并稍后重新加载此控制视频以避免重新计算;当您在继续生成完整 AI 世界 (Vace Wan 2.1) 时迭代提示或蒙版时,这尤其有用。
输入 CN 视频
如果您已经导出“控制图像”视频,请将其放入此处以绕过预处理。在控制图像开关中选择相应的选项,以便管道的其余部分使用您缓存的结构。这使摄像机跟踪在多个运行中保持一致,并显著减少长镜头的迭代时间。
FP8 模型加载器
FP8 分支加载完整的 Wan 2.1 模型堆栈。WanVideoModelLoader (#4) 引入 T2V 14B 主干和 VACE 模块,以及可选的 LightX LoRA 以实现快速、一致的采样。WanVideoVAELoader (#26) 提供 VAE,WanVideoBlockSwap (#5) 通过根据需要将块交换到设备内存来暴露 VRAM 节省策略。当您有 VRAM 余量时,这是生成完整 AI 世界 (Vace Wan 2.1) 的最快方式。
FP8 模型采样器
提示由 WanVideoTextEncodeSingle 编码为正负文本,然后通过 WanVideoApplyNAG 进行优化以保持短语一致。第一遍,WanVideo VACE Encode (CN‑CameraTrack) (#948),读取控制图像以生成运动感知嵌入。第二遍,WanVideo VACE Encode (InsertPerson) (#1425),使用干净的 alpha 和蒙版注入演员,您可以轻微增大或缩小以避免光晕。然后 WanVideoSampler (#2) 渲染序列,WanVideoDecode (#1) 将潜在变量转化为帧,简单的开关选择原始帧率或 FILM 插值流,然后进行最终视频合成。
GGUF 模型加载器
GGUF 分支专为低 VRAM 工作流程设计。UnetLoaderGGUF (#1677) 加载量化的 Wan 2.1 VACE UNet,CLIPLoader (#1680) 提供文本编码器,并且可以通过 LoraLoader (#2420) 应用 LoRA。标准 ComfyUI VAELoader (#1676) 处理解码。此路径在保留相同的两步 VACE 逻辑的同时,用足迹换取速度,因此您仍然可以在普通硬件上生成完整的 AI 世界 (Vace Wan 2.1)。
GGUF 模型采样器
在量化路径中,WanVaceToVideo (#1724) 将 VACE 嵌入、文本条件和您的参考转换为引导潜在变量。WanVideoNAG 和 WanVideoEnhanceAVideoKJ 有助于保持身份和局部细节,然后 KSampler (#1726) 生成最终潜在序列。VAEDecode (#1742) 生成帧,可选的 FILM 步骤增加时间平滑度,视频合成将结果写入磁盘。当 VRAM 紧张或需要长时间稳定镜头时,请使用此路径。
提示
有两个提示面板。FP8 侧使用 Wan T5 文本编码器,而 GGUF 侧使用 CLIP 条件路径;两者都接收正面和负面文本。保持正面提示电影化并具体到您想要的世界,保留负面提示用于压缩伪影、过度饱和和不需要的前景杂物。您可以将提示与柔和的参考图像混合,以指导颜色和照明,同时仍然让模型生成符合您意图的完整 AI 世界 (Vace Wan 2.1)。
Comfyui 生成完整 AI 世界 (Vace Wan 2.1) 工作流程中的关键节点
WanVideo VACE Encode (CN-CameraTrack)(#948) 分析您的控制图像以锁定摄像机运动的第一阶段 VACE 传递。匹配宽度、高度和长度与您选择的工作尺寸和剪辑持续时间,以便嵌入与下游采样保持一致。如果您依赖外部控制视频,请保持其帧数一致,以避免时间漂移。参考实现和节点行为遵循 WanVideo 包装器。 来源: kijai/ComfyUI‑WanVideoWrapperWanVideo VACE Encode (InsertPerson)(#1425) 第二阶段 VACE 传递,使用 alpha 蒙版和清洁的蒙版注入演员。如果看到模糊边缘,请调整上游蒙版缩小/扩展 (DilateErodeMask, #2391) 以稍微拉入蒙版。此传递将插入与场景运动绑定,因此比例和视差保持自然。 来源: kijai/ComfyUI‑WanVideoWrapperWanVaceToVideo(#1724 and #1729) 将 VACE 条件引入采样器。将输出尺寸设置为相同的工作尺寸,并使用控制剪辑的帧数,以便稍后不需要修剪。当您希望整个镜头具有一致的外观而不过度限制布局时,请与单个参考图像配对。 来源: kijai/ComfyUI‑WanVideoWrapperWanVideoSampler(#2) FP8 采样器,使用您的文本嵌入和 VACE 图像嵌入从 Wan 2.1 渲染最终序列。它支持 VRAM 节省的块交换,并与 LightX step‑distill LoRA 配合良好,可在低步数下快速获得安全结果。 来源: kijai/ComfyUI‑WanVideoWrapper, Kijai/WanVideo_comfy (LoRA)KSampler(#1726) GGUF 分支采样器。以较少的步数开始以保留演员并减少过度锐化;LightX LoRA 针对这种情况进行了调整。如果细节被冲淡,请适度增加步数或依赖Enhance A Video块以恢复微观纹理而不偏离运动。 来源: ComfyUI coreFILM VFI(#2019 and #1757) 由插值开关控制的可选帧插值。用于平滑快速运动或在不重新渲染的情况下延长持续时间。如果您注意到在薄结构上的时间抖动,请为这些镜头禁用它或减少插值因子。 来源: google‑research/frame‑interpolation
可选额外功能
- 保持剪辑长度可管理;图形指导的每次运行最多约 81 帧在常见 GPU 上平衡稳定性和内存。
- 如果您正在迭代提示,保存一次“控制图像”视频,然后切换到输入 CN 视频路径以避免重新计算结构。
- 要去除主题周围的微弱边缘,请在插入路径中使用
DilateErodeMask轻轻调整演员蒙版,直到光晕消失。 - 低 VRAM 或长镜头:选择 GGUF 分支;高 VRAM 和快速迭代:选择 FP8 分支。
- 对于开始帧,使用“仅背景”当您希望主题稍后进入时,或“无开始帧”当您希望模型从文本和参考中完全建立场景时。
通过这些步骤,您可以自信地运行工作流程并生成完整的 AI 世界 (Vace Wan 2.1),在真实摄像机运动下保持稳定。
致谢
此工作流程实现并构建在 @mickmumpitz 的工作和资源之上。我们感谢 Mickmumpitz 的工作流程教程提供的指导工作流程,并感谢他所做的贡献和维护。有关权威细节,请参阅下面链接的原始文档和存储库。
资源
- YouTube/工作流程教程
- 来自 Mickmumpitz YouTube 的文档/发布说明:工作流程教程
注意:所引用的模型、数据集和代码的使用受 Mickmumpitz 提供的各自许可证和条款的约束。


