生成完整的 AI 世界 (Vace Wan 2.1) 是由 Mickmumpitz 提供的生产就绪 ComfyUI 工作流程,用于在保持原始摄像机运动的同时将实拍镜头转换为新环境。它更换背景,保留透视和比例,并将蒙版演员合成到由文本和参考图像驱动的完全再生世界中。
基于 Wan 2.1 VACE 堆栈构建,此工作流程非常适合需要快速预览或精美镜头的电影制作人、VFX 艺术家和创作者。您可以通过提示指导场景,从可选的参考图像开始,并在高速 FP8 管道或低 VRAM GGUF 管道之间进行选择。结果是无缝的世界构建,让您能够真正从日常镜头中生成完整的 AI 世界 (Vace Wan 2.1)。
此工作流程遵循两步 VACE 策略:首先,它从控制图像中编码场景运动以锁定摄像机运动;其次,它编码演员插入并将其混合到再生环境中。您可以运行 FP8 路径以获得最大速度,或运行 GGUF 路径以获得低 VRAM。以下部分映射到图形上的组,以便您可以自信地操作整个生成完整 AI 世界 (Vace Wan 2.1) 管道。
输入区域允许您选择工作分辨率和基本剪辑控制。使用分辨率开关选择预设(720p、576p 或 480p),这些预设会提供给 Set_width
(#370) 和 Set_height
(#369),以便每个阶段保持同步。您可以限制帧数以保持快速周转,并设置一个小的跳过以抵消入点。为了稳定性和内存,请将序列保持在推荐范围内;图形标签指出,对于大多数 GPU,81 帧是一个合理的上限。这些选择适用于控制图像、VACE 编码和最终渲染的全局应用。
注意:输入视频也可以通过另一个工作流程生成,MASK_AND_TRACK。您可以在此处下载其工作流程文件:workflow.json。下载后,将文件拖放到一个新的工作流程选项卡中并运行以获取输入视频。
背景板和可选的参考图像指导视觉风格。加载背景静止图像,然后图形将其调整为匹配您的工作尺寸。如果您想要一个风格锚而不是硬背景板,请通过选择器启用 reference_image
;此图像指导颜色、构图和色调而不影响几何结构。当您希望模型生成完整的 AI 世界 (Vace Wan 2.1) 时,参考路径很有帮助,它们回响特定外观,而文本提示则处理其余部分。当您更喜欢仅文本控制时,将其关闭。
使用此部分决定生成的开始方式。准备好演员静止图像后,Image Remove Background Rembg (mtb)
(#1433) 提取干净的蒙版,ImageCompositeMasked
(#1441) 将演员放置在您选择的背景上以形成开始帧。Start Frame
开关 (ImpactSwitch
, #1760) 提供三种模式:复合演员加背景、仅背景或无开始帧。开始帧有助于锚定身份和布局;仅背景允许角色随着时间的推移“进入”;无开始帧要求模型从文本和参考中建立主题和世界。实时预览块在提交下游之前显示开始的样子。
控制图像锁定摄像机的运动,使透视和视差感觉真实。将摄像机跟踪视频输入到组中;图形可以派生 OpenPose 和 Canny 层,然后将它们混合以创建强大的结构信号。Control Image Nodes
开关 (ImpactSwitch
, #1032) 允许您选择仅跟踪、跟踪+姿势、Canny+姿势或外部准备的控制视频。通过预览组合查看堆栈以确保轮廓和边缘清晰可读。对于长序列,您可以保存并稍后重新加载此控制视频以避免重新计算;当您在继续生成完整 AI 世界 (Vace Wan 2.1) 时迭代提示或蒙版时,这尤其有用。
如果您已经导出“控制图像”视频,请将其放入此处以绕过预处理。在控制图像开关中选择相应的选项,以便管道的其余部分使用您缓存的结构。这使摄像机跟踪在多个运行中保持一致,并显著减少长镜头的迭代时间。
FP8 分支加载完整的 Wan 2.1 模型堆栈。WanVideoModelLoader
(#4) 引入 T2V 14B 主干和 VACE 模块,以及可选的 LightX LoRA 以实现快速、一致的采样。WanVideoVAELoader
(#26) 提供 VAE,WanVideoBlockSwap
(#5) 通过根据需要将块交换到设备内存来暴露 VRAM 节省策略。当您有 VRAM 余量时,这是生成完整 AI 世界 (Vace Wan 2.1) 的最快方式。
提示由 WanVideoTextEncodeSingle
编码为正负文本,然后通过 WanVideoApplyNAG
进行优化以保持短语一致。第一遍,WanVideo VACE Encode (CN‑CameraTrack)
(#948),读取控制图像以生成运动感知嵌入。第二遍,WanVideo VACE Encode (InsertPerson)
(#1425),使用干净的 alpha 和蒙版注入演员,您可以轻微增大或缩小以避免光晕。然后 WanVideoSampler
(#2) 渲染序列,WanVideoDecode
(#1) 将潜在变量转化为帧,简单的开关选择原始帧率或 FILM 插值流,然后进行最终视频合成。
GGUF 分支专为低 VRAM 工作流程设计。UnetLoaderGGUF
(#1677) 加载量化的 Wan 2.1 VACE UNet,CLIPLoader
(#1680) 提供文本编码器,并且可以通过 LoraLoader
(#2420) 应用 LoRA。标准 ComfyUI VAELoader
(#1676) 处理解码。此路径在保留相同的两步 VACE 逻辑的同时,用足迹换取速度,因此您仍然可以在普通硬件上生成完整的 AI 世界 (Vace Wan 2.1)。
在量化路径中,WanVaceToVideo
(#1724) 将 VACE 嵌入、文本条件和您的参考转换为引导潜在变量。WanVideoNAG
和 WanVideoEnhanceAVideoKJ
有助于保持身份和局部细节,然后 KSampler
(#1726) 生成最终潜在序列。VAEDecode
(#1742) 生成帧,可选的 FILM 步骤增加时间平滑度,视频合成将结果写入磁盘。当 VRAM 紧张或需要长时间稳定镜头时,请使用此路径。
有两个提示面板。FP8 侧使用 Wan T5 文本编码器,而 GGUF 侧使用 CLIP 条件路径;两者都接收正面和负面文本。保持正面提示电影化并具体到您想要的世界,保留负面提示用于压缩伪影、过度饱和和不需要的前景杂物。您可以将提示与柔和的参考图像混合,以指导颜色和照明,同时仍然让模型生成符合您意图的完整 AI 世界 (Vace Wan 2.1)。
WanVideo VACE Encode (CN-CameraTrack)
(#948)WanVideo VACE Encode (InsertPerson)
(#1425)DilateErodeMask
, #2391) 以稍微拉入蒙版。此传递将插入与场景运动绑定,因此比例和视差保持自然。WanVaceToVideo
(#1724 and #1729)WanVideoSampler
(#2)KSampler
(#1726)Enhance A Video
块以恢复微观纹理而不偏离运动。FILM VFI
(#2019 and #1757)DilateErodeMask
轻轻调整演员蒙版,直到光晕消失。通过这些步骤,您可以自信地运行工作流程并生成完整的 AI 世界 (Vace Wan 2.1),在真实摄像机运动下保持稳定。
此工作流程实现并构建在 @mickmumpitz 的工作和资源之上。我们感谢 Mickmumpitz 的工作流程教程提供的指导工作流程,并感谢他所做的贡献和维护。有关权威细节,请参阅下面链接的原始文档和存储库。
注意:所引用的模型、数据集和代码的使用受 Mickmumpitz 提供的各自许可证和条款的约束。
RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Playground, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。