mickmumpitz的此工作流通过无训练、运动引导的方法将AI视频中的可控动画带入ComfyUI。它结合了WanVideo的图像到视频扩散与Time‑to‑Move (TTM)潜在引导和区域感知蒙版,因此您可以指导主题如何移动,同时保持身份、纹理和场景连续性。
您可以从视频板或两个关键帧开始,添加区域蒙版,将运动集中在您想要的位置,并无需微调即可驱动轨迹。结果是精确、可重复的AI视频中的可控动画,适用于定向镜头、物体运动序列和自定义创意编辑。
Wan2.2 I2V A14B (HIGH/LOW)。核心图像到视频扩散模型,从提示和视觉参考中合成运动和时间一致性。两个变体在不同的运动强度下平衡保真度(HIGH)和灵活性(LOW)。模型文件托管在Hugging Face的社区WanVideo集合中,例如Kijai的WanVideo分发。 链接:Kijai/WanVideo_comfy_fp8_scaled, Kijai/WanVideo_comfy
Lightx2v I2V LoRA。一个轻量级适配器,在使用Wan2.2创作AI视频中的可控动画时加强结构和运动一致性。它有助于在较强的运动提示下保留主题几何形状。 链接:Kijai/WanVideo_comfy – Lightx2v LoRA
Wan2.1 VAE。用于将帧编码为潜在变量并将采样器的输出解码回图像的视频自动编码器,不牺牲细节。 链接:Kijai/WanVideo_comfy – Wan2_1_VAE_bf16.safetensors
UMT5‑XXL文本编码器。提供丰富的文本嵌入以用于提示驱动控制和运动提示。 链接:google/umt5-xxl, Kijai/WanVideo_comfy – encoder weights
用于视频蒙版的Segment Anything模型。SAM3和SAM2在帧之间创建和传播区域蒙版,使区域依赖的引导在重要位置锐化AI视频中的可控动画。 链接:facebook/sam3, facebook/sam2
Qwen‑Image‑Edit 2509(可选)。用于快速开始/结束帧清理或在动画前移除物体的图像编辑基础和快速LoRA。 链接:QuantStack/Qwen‑Image‑Edit‑2509‑GGUF, lightx2v/Qwen‑Image‑Lightning, Comfy‑Org/Qwen‑Image_ComfyUI
Time‑to‑Move (TTM)引导。工作流集成了TTM潜在变量,以无训练的方式注入轨迹控制用于AI视频中的可控动画。 链接:time‑to‑move/TTM
工作流分为四个主要阶段:加载输入、定义运动应发生的位置、编码文本和运动提示,然后合成和预览结果。以下每组对应于图中的标记部分。
加载输入
使用“LOAD INPUT VIDEO”组引入板或参考剪辑,或者如果您在两个状态之间构建运动,则加载开始和结束关键帧。“Resize Start/Endframe”子图标准化尺寸,并可选地启用开始帧和结束帧门控。一个并排比较器构建一个显示输入与结果的输出,便于快速审查(VHS_VideoCombine (#613))。
模型加载器
“MODEL LOADER”组设置Wan2.2 I2V(HIGH/LOW)并应用Lightx2v LoRA。块交换路径在采样前混合变体以获得良好的保真度-运动折衷。Wan VAE加载一次并在编码/解码过程中共享。文本编码使用UMT5‑XXL以强大的提示条件在AI视频中进行可控动画。
SAM3/SAM2蒙版主题
在“SAM3 MASK SUBJECT”或“SAM2 MASK SUBJECT”中,点击参考帧,添加正负点,并在剪辑中传播蒙版。这会产生时间一致的蒙版,将运动编辑限制在您选择的主题或区域内,实现区域依赖的引导。您还可以绕过并加载自己的蒙版视频;来自Blender/After Effects的蒙版在您希望艺术家绘制控制时效果良好。
开始帧/结束帧准备(可选)
“STARTFRAME – QWEN REMOVE”和“ENDFRAME – QWEN REMOVE”组提供了使用Qwen‑Image‑Edit在特定帧上进行清理的可选步骤。使用它们可以去除会污染运动提示的支架、棍棒或板材伪影。修补裁剪并将编辑缝合回完整帧以获得干净的基础。
文本+运动编码
提示使用UMT5‑XXL在WanVideoTextEncode (#605)中进行编码。开始帧/结束帧图像在WanVideoImageToVideoEncode (#89)中转换为视频潜在变量。TTM运动潜在变量和一个可选的时间蒙版通过WanVideoAddTTMLatents (#104)合并,因此采样器接收到语义(文本)和轨迹提示,这是AI视频中可控动画的核心。
采样器和预览
Wan采样器(WanVideoSampler (#27) 和 WanVideoSampler (#90))使用双时钟设置对潜在变量进行去噪:一个路径控制全局动态,另一个保持局部外观。步骤和可配置的CFG调度形状运动强度与保真度。结果解码为帧并保存为视频;比较输出有助于判断您的AI视频中的可控动画是否符合简要。
WanVideoImageToVideoEncode (#89)
将开始帧/结束帧图像编码为用于运动合成的视频潜在变量。仅在更改基础分辨率或帧数时进行调整;保持这些与输入对齐以避免拉伸。如果您使用蒙版视频,请确保其尺寸与编码的潜在大小匹配。
WanVideoAddTTMLatents (#104)
将TTM运动潜在变量和时间蒙版融合到控制流中。切换蒙版输入以将运动限制在您的主题上;将其留空则在全局应用运动。当您希望进行特定轨迹的AI视频可控动画而不影响背景时使用。
SAM3VideoSegmentation (#687)
收集少量正负点,选择一个轨迹帧,然后在剪辑中传播。使用可视化输出在采样前验证蒙版漂移。对于隐私敏感或离线工作流,切换到不需要模型门控的SAM2组。
WanVideoSampler (#27)
平衡运动和身份的去噪器。将“Steps”与CFG调度列表结合使用以推动或放松运动强度;过强的强度可能会超越外观,而过弱则不足以传达运动。当蒙版活动时,采样器集中在区域内进行更新,从而提高AI视频中可控动画的稳定性。
此工作流通过结合文本提示、TTM潜在变量和强大的分割,提供无训练、区域感知的运动控制。通过一些有针对性的输入,您可以指导细致入微、可用于生产的AI视频中的可控动画,同时保持主题和场景的一致性。
此工作流实现并构建在以下作品和资源之上。我们衷心感谢Mickmumpitz——AI视频中可控动画的创建者,感谢其教程/文章,以及time-to-move团队为TTM所作的贡献和维护。有关权威细节,请参阅下列链接中的原始文档和存储库。
注意:使用所引用的模型、数据集和代码需遵循其作者和维护者提供的各自许可和条款。
RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。