在 ComfyUI 中生成完整的 AI 世界 (Vace Wan 2.1)

生成完整的 AI 世界 (Vace Wan 2.1)：具有真实摄像机跟踪的电影视频到视频世界构建

生成完整的 AI 世界 (Vace Wan 2.1) 是由 Mickmumpitz 提供的生产就绪 ComfyUI 工作流程，用于在保持原始摄像机运动的同时将实拍镜头转换为新环境。它更换背景，保留透视和比例，并将蒙版演员合成到由文本和参考图像驱动的完全再生世界中。

基于 Wan 2.1 VACE 堆栈构建，此工作流程非常适合需要快速预览或精美镜头的电影制作人、VFX 艺术家和创作者。您可以通过提示指导场景，从可选的参考图像开始，并在高速 FP8 管道或低 VRAM GGUF 管道之间进行选择。结果是无缝的世界构建，让您能够真正从日常镜头中生成完整的 AI 世界 (Vace Wan 2.1)。

Comfyui 生成完整 AI 世界 (Vace Wan 2.1) 工作流程中的关键模型

Wan 2.1 14B 文本到视频扩散模型。核心生成器用于以时间一致的方式合成新世界。ComfyUI 的重新打包权重在 Hugging Face 的 Comfy‑Org 发布中可用。 Comfy‑Org/Wan_2.1_ComfyUI_repackaged
Wan 2.1 VACE 模块 14B。提供 VACE 嵌入，将生成绑定到场景结构，实现准确的背景替换和摄像机跟踪。 Kijai/WanVideo_comfy
Wan 2.1 VAE。处理视频帧的潜在编码/解码。 Comfy‑Org/Wan_2.1_ComfyUI_repackaged (VAE split)
uMT5‑XXL 文本编码器。为 Wan 2.1 的条件空间编码提示。与此工作流程兼容的打包编码器与 Wan 2.1 分割一起提供。 Comfy‑Org/Wan_2.1_ComfyUI_repackaged (text_encoders)
Wan 2.1 14B VACE GGUF (量化 UNet)。用于低 VRAM GPU 的量化替代方案，为 GGUF 路径提供动力，而无需完整的 FP8 模型。 QuantStack/Wan2.1_14B_VACE‑GGUF
FILM: 大运动帧插值。可选的后处理，通过插值额外帧来增强运动平滑度。 google‑research/frame‑interpolation
可选的 LightX step‑distill LoRA 用于 Wan 2.1。面向速度的 LoRA，与短步数搭配良好，同时保持结构和身份。 Kijai/WanVideo_comfy (LoRA)

如何使用 Comfyui 生成完整 AI 世界 (Vace Wan 2.1) 工作流程

此工作流程遵循两步 VACE 策略：首先，它从控制图像中编码场景运动以锁定摄像机运动；其次，它编码演员插入并将其混合到再生环境中。您可以运行 FP8 路径以获得最大速度，或运行 GGUF 路径以获得低 VRAM。以下部分映射到图形上的组，以便您可以自信地操作整个生成完整 AI 世界 (Vace Wan 2.1) 管道。

视频输入和尺寸选择

输入区域允许您选择工作分辨率和基本剪辑控制。使用分辨率开关选择预设（720p、576p 或 480p），这些预设会提供给 Set_width (#370) 和 Set_height (#369)，以便每个阶段保持同步。您可以限制帧数以保持快速周转，并设置一个小的跳过以抵消入点。为了稳定性和内存，请将序列保持在推荐范围内；图形标签指出，对于大多数 GPU，81 帧是一个合理的上限。这些选择适用于控制图像、VACE 编码和最终渲染的全局应用。

注意：输入视频也可以通过另一个工作流程生成，MASK_AND_TRACK。您可以在此处下载其工作流程文件：workflow.json。下载后，将文件拖放到一个新的工作流程选项卡中并运行以获取输入视频。

设置背景/参考图像

背景板和可选的参考图像指导视觉风格。加载背景静止图像，然后图形将其调整为匹配您的工作尺寸。如果您想要一个风格锚而不是硬背景板，请通过选择器启用 reference_image；此图像指导颜色、构图和色调而不影响几何结构。当您希望模型生成完整的 AI 世界 (Vace Wan 2.1) 时，参考路径很有帮助，它们回响特定外观，而文本提示则处理其余部分。当您更喜欢仅文本控制时，将其关闭。

开始帧+角色

使用此部分决定生成的开始方式。准备好演员静止图像后，Image Remove Background Rembg (mtb) (#1433) 提取干净的蒙版，ImageCompositeMasked (#1441) 将演员放置在您选择的背景上以形成开始帧。Start Frame 开关 (ImpactSwitch, #1760) 提供三种模式：复合演员加背景、仅背景或无开始帧。开始帧有助于锚定身份和布局；仅背景允许角色随着时间的推移“进入”；无开始帧要求模型从文本和参考中建立主题和世界。实时预览块在提交下游之前显示开始的样子。

控制图像

控制图像锁定摄像机的运动，使透视和视差感觉真实。将摄像机跟踪视频输入到组中；图形可以派生 OpenPose 和 Canny 层，然后将它们混合以创建强大的结构信号。Control Image Nodes 开关 (ImpactSwitch, #1032) 允许您选择仅跟踪、跟踪+姿势、Canny+姿势或外部准备的控制视频。通过预览组合查看堆栈以确保轮廓和边缘清晰可读。对于长序列，您可以保存并稍后重新加载此控制视频以避免重新计算；当您在继续生成完整 AI 世界 (Vace Wan 2.1) 时迭代提示或蒙版时，这尤其有用。

输入 CN 视频

如果您已经导出“控制图像”视频，请将其放入此处以绕过预处理。在控制图像开关中选择相应的选项，以便管道的其余部分使用您缓存的结构。这使摄像机跟踪在多个运行中保持一致，并显著减少长镜头的迭代时间。

FP8 模型加载器

FP8 分支加载完整的 Wan 2.1 模型堆栈。WanVideoModelLoader (#4) 引入 T2V 14B 主干和 VACE 模块，以及可选的 LightX LoRA 以实现快速、一致的采样。WanVideoVAELoader (#26) 提供 VAE，WanVideoBlockSwap (#5) 通过根据需要将块交换到设备内存来暴露 VRAM 节省策略。当您有 VRAM 余量时，这是生成完整 AI 世界 (Vace Wan 2.1) 的最快方式。

FP8 模型采样器

提示由 WanVideoTextEncodeSingle 编码为正负文本，然后通过 WanVideoApplyNAG 进行优化以保持短语一致。第一遍，WanVideo VACE Encode (CN‑CameraTrack) (#948)，读取控制图像以生成运动感知嵌入。第二遍，WanVideo VACE Encode (InsertPerson) (#1425)，使用干净的 alpha 和蒙版注入演员，您可以轻微增大或缩小以避免光晕。然后 WanVideoSampler (#2) 渲染序列，WanVideoDecode (#1) 将潜在变量转化为帧，简单的开关选择原始帧率或 FILM 插值流，然后进行最终视频合成。

GGUF 模型加载器

GGUF 分支专为低 VRAM 工作流程设计。UnetLoaderGGUF (#1677) 加载量化的 Wan 2.1 VACE UNet，CLIPLoader (#1680) 提供文本编码器，并且可以通过 LoraLoader (#2420) 应用 LoRA。标准 ComfyUI VAELoader (#1676) 处理解码。此路径在保留相同的两步 VACE 逻辑的同时，用足迹换取速度，因此您仍然可以在普通硬件上生成完整的 AI 世界 (Vace Wan 2.1)。

GGUF 模型采样器

在量化路径中，WanVaceToVideo (#1724) 将 VACE 嵌入、文本条件和您的参考转换为引导潜在变量。WanVideoNAG 和 WanVideoEnhanceAVideoKJ 有助于保持身份和局部细节，然后 KSampler (#1726) 生成最终潜在序列。VAEDecode (#1742) 生成帧，可选的 FILM 步骤增加时间平滑度，视频合成将结果写入磁盘。当 VRAM 紧张或需要长时间稳定镜头时，请使用此路径。

提示

有两个提示面板。FP8 侧使用 Wan T5 文本编码器，而 GGUF 侧使用 CLIP 条件路径；两者都接收正面和负面文本。保持正面提示电影化并具体到您想要的世界，保留负面提示用于压缩伪影、过度饱和和不需要的前景杂物。您可以将提示与柔和的参考图像混合，以指导颜色和照明，同时仍然让模型生成符合您意图的完整 AI 世界 (Vace Wan 2.1)。

Comfyui 生成完整 AI 世界 (Vace Wan 2.1) 工作流程中的关键节点

WanVideo VACE Encode (CN-CameraTrack) (#948) 分析您的控制图像以锁定摄像机运动的第一阶段 VACE 传递。匹配宽度、高度和长度与您选择的工作尺寸和剪辑持续时间，以便嵌入与下游采样保持一致。如果您依赖外部控制视频，请保持其帧数一致，以避免时间漂移。参考实现和节点行为遵循 WanVideo 包装器。来源: kijai/ComfyUI‑WanVideoWrapper
WanVideo VACE Encode (InsertPerson) (#1425) 第二阶段 VACE 传递，使用 alpha 蒙版和清洁的蒙版注入演员。如果看到模糊边缘，请调整上游蒙版缩小/扩展 (DilateErodeMask, #2391) 以稍微拉入蒙版。此传递将插入与场景运动绑定，因此比例和视差保持自然。来源: kijai/ComfyUI‑WanVideoWrapper
WanVaceToVideo (#1724 and #1729) 将 VACE 条件引入采样器。将输出尺寸设置为相同的工作尺寸，并使用控制剪辑的帧数，以便稍后不需要修剪。当您希望整个镜头具有一致的外观而不过度限制布局时，请与单个参考图像配对。来源: kijai/ComfyUI‑WanVideoWrapper
WanVideoSampler (#2) FP8 采样器，使用您的文本嵌入和 VACE 图像嵌入从 Wan 2.1 渲染最终序列。它支持 VRAM 节省的块交换，并与 LightX step‑distill LoRA 配合良好，可在低步数下快速获得安全结果。来源: kijai/ComfyUI‑WanVideoWrapper, Kijai/WanVideo_comfy (LoRA)
KSampler (#1726) GGUF 分支采样器。以较少的步数开始以保留演员并减少过度锐化；LightX LoRA 针对这种情况进行了调整。如果细节被冲淡，请适度增加步数或依赖 Enhance A Video 块以恢复微观纹理而不偏离运动。来源: ComfyUI core
FILM VFI (#2019 and #1757) 由插值开关控制的可选帧插值。用于平滑快速运动或在不重新渲染的情况下延长持续时间。如果您注意到在薄结构上的时间抖动，请为这些镜头禁用它或减少插值因子。来源: google‑research/frame‑interpolation

可选额外功能

保持剪辑长度可管理；图形指导的每次运行最多约 81 帧在常见 GPU 上平衡稳定性和内存。
如果您正在迭代提示，保存一次“控制图像”视频，然后切换到输入 CN 视频路径以避免重新计算结构。
要去除主题周围的微弱边缘，请在插入路径中使用 DilateErodeMask 轻轻调整演员蒙版，直到光晕消失。
低 VRAM 或长镜头：选择 GGUF 分支；高 VRAM 和快速迭代：选择 FP8 分支。
对于开始帧，使用“仅背景”当您希望主题稍后进入时，或“无开始帧”当您希望模型从文本和参考中完全建立场景时。

通过这些步骤，您可以自信地运行工作流程并生成完整的 AI 世界 (Vace Wan 2.1)，在真实摄像机运动下保持稳定。

致谢

此工作流程实现并构建在 @mickmumpitz 的工作和资源之上。我们感谢 Mickmumpitz 的工作流程教程提供的指导工作流程，并感谢他所做的贡献和维护。有关权威细节，请参阅下面链接的原始文档和存储库。

资源

YouTube/工作流程教程
- 来自 Mickmumpitz YouTube 的文档/发布说明：工作流程教程

注意：所引用的模型、数据集和代码的使用受 Mickmumpitz 提供的各自许可证和条款的约束。

生成完整的 AI 世界视频场景构建器

生成完整的 AI 世界 (Vace Wan 2.1)：具有真实摄像机跟踪的电影视频到视频世界构建

Comfyui 生成完整 AI 世界 (Vace Wan 2.1) 工作流程中的关键模型

如何使用 Comfyui 生成完整 AI 世界 (Vace Wan 2.1) 工作流程

视频输入和尺寸选择

设置背景/参考图像

开始帧+角色

控制图像

输入 CN 视频

FP8 模型加载器

FP8 模型采样器

GGUF 模型加载器

GGUF 模型采样器

提示

Comfyui 生成完整 AI 世界 (Vace Wan 2.1) 工作流程中的关键节点

可选额外功能

致谢

资源

Want More ComfyUI Workflows?

Wan 2.2 | 开源视频生成领导者

Wan 2.2 + Lightx2v V2 | 超快速 I2V & T2V

Wan 2.2 FLF2V | 首尾帧视频生成

Wan 2.2 Lightning T2V I2V | 4步超高速

Wan 2.1 | 革命性的视频生成

Unsampling 的羊皮纸风格

IC-Light | 视频重新打光 | AnimateDiff

Sonic | 唇同步肖像动画