Wan2.2 Fun Camera:在ComfyUI中实现电影级图像到视频运动
Wan2.2 Fun Camera将单个静态图像转变为生动的视频,带有顺畅的平移、缩放和旋转。围绕Wan 2.2 Fun家族构建,这个ComfyUI工作流专注于摄像机运动,增加深度和故事能量而无需手动关键帧或编辑。如果您需要快速的社交片段、动态的英雄镜头或产品和角色静态图像的生动运动,Wan2.2 Fun Camera提供干净、可重复的结果。
图表提供两个变体,您可以为您的任务选择合适的平衡。原生fp8缩放路径最大化了Wan2.2 Fun Camera模型的运动丰富性,而LightX2V 4 Steps LoRA变体优先考虑速度,在动态方面略有妥协。两个变体共享相同的提示、摄像机预设和导出阶段,使Wan2.2 Fun Camera易于学习和快速迭代。
ComfyUI Wan2.2 Fun Camera工作流中的关键模型
- Wan 2.2 Fun Camera 14B高噪声UNet fp8缩放。在Wan2.2 Fun Camera中驱动早期扩散步骤以建立运动和结构。Hugging Face文件
- Wan 2.2 Fun Camera 14B低噪声UNet fp8缩放。在Wan2.2 Fun Camera中细化细节并稳定最终帧。Hugging Face文件
- Wan2.2 Image-to-Video LightX2V 4 Steps LoRA,高噪声和低噪声。可选加速器,在稍微减少运动复杂性的同时缩短采样。高噪声LoRA • 低噪声LoRA
- Wan 2.1 VAE。为Wan2.2 Fun Camera管道编码和解码潜在变量。Hugging Face文件
- UMT5-XXL文本编码器fp8。解释正负提示以在Wan2.2 Fun Camera中调节摄像机驱动的合成。Hugging Face文件
如何使用ComfyUI Wan2.2 Fun Camera工作流
工作流包含两个并行分支:“Wan2.2 Fun Camera fp8缩放 + LightX2V 4 Steps LoRA”和“Wan2.2 Fun Camera fp8缩放”。在生成之前启用一个分支并禁用另一个。两个分支都遵循相同的四个操作步骤和一个两阶段去噪计划,从高噪声开始,以低噪声结束以获得更清晰的帧。
步骤1 - 加载模型
此组准备Wan 2.2 Fun Camera高噪声和低噪声UNet、可选的LightX2V LoRA对、UMT5-XXL文本编码器和Wan 2.1 VAE。当您需要更快的周转时间时选择LoRA分支,当运动丰富性是优先级时选择原生fp8分支。一旦加载,模型就会保持驻留,因此您可以在Wan2.2 Fun Camera中快速迭代摄像机移动和提示。
步骤2 - 上传起始图像
在“Upload start_image”组中添加您的源静态图像。工作流期望单个图像,并在动画化视点的同时保留核心内容。为了在Wan2.2 Fun Camera中获得最佳效果,请从干净的主体、适当的对比度和在边缘为运动留出空间的构图开始。
步骤3 - 提示
输入简洁的正面提示以描述主题意图和运动风格,然后通过负面提示进行微调以避免伪影。保持提示简短且注重行动,例如“电影级产品英雄,轻柔缩小”或“肖像,微妙右移”。Wan2.2 Fun Camera对风格和运动描述符反应良好,而不会过度约束场景。
步骤4 - 摄像机条件
在WanCameraEmbedding组中选择摄像机预设和时间轴。这会生成一个摄像机路径嵌入加上核心节点将遵循的持续时间和分辨率设置。Wan2.2 Fun Camera包含直观的预设,如缩小、平移和旋转,因此您可以快速预览不同的运动,而无需手动调整曲线。
高噪声 - 第一步
第一个采样器通过高噪声UNet建立粗略的结构并启动运动动态。这是选择的摄像机路径开始表现为全局运动的地方。在LoRA分支中,LightX2V 4 Steps LoRA将此阶段压缩为更少的步骤以提高速度。在原生fp8分支中,Wan2.2 Fun Camera优先考虑运动保真度,然后再进行细化。
低噪声 - 最后一步
第二个采样器专注于细节恢复、纹理和时间一致性,使用低噪声UNet。它遵循已建立的摄像机路径,同时清理边缘和面部。启用LoRA时,此阶段也会更快运行,但在微运动变化方面略有损失。禁用LoRA时,Wan2.2 Fun Camera从最终帧中挤出额外的清晰度。
解码和导出
VAE将潜在变量解码回帧,而视频助手节点将其组装成MP4。默认设置目标为广泛兼容的H.264文件,帧率适中,以便快速渲染预览。您可以通过调整提示或摄像机预设进行就地迭代并重新生成。Wan2.2 Fun Camera确保您的输出与可预测的文件名保持一致,以便批量实验。
ComfyUI Wan2.2 Fun Camera工作流中的关键节点
WanCameraEmbedding (#87, #108)
定义Wan2.2 Fun Camera的运动计划。选择摄像机预设并为整个镜头设置分辨率和剪辑长度。如果看到裁剪或信箱,请在此处调整宽度和高度。较长的剪辑需要更多计算,可能受益于LoRA路径以提高速度。
WanCameraImageToVideo (#80, #98)
核心驱动程序,将提示、VAE、起始图像和摄像机嵌入融合为运动感知潜在变量。将其视为您创意意图与扩散采样器之间的桥梁。如果运动感觉过强或过于微妙,请优先检查摄像机预设或提示动词,而不是首先检查采样器。
KSamplerAdvanced (#71和#78, #102和#103)
运行一个两阶段计划:高噪声采样器来建立运动,然后是低噪声采样器来细化。对于更强的结构,在第一次通过中使用更多步骤,对于更清晰的细节,在第二次通过中投入步骤。保持指导平衡,以便运动保持自然,不要过度适应提示。
VHS_VideoCombine (#116, #117)
将解码帧打包成单个视频文件以便快速查看。调整帧率以匹配您的摄像机移动感觉,并调整CRF以获得更高质量的导出。在探索Wan2.2 Fun Camera变体时,使用干净的文件名前缀保持版本有序。
LoraLoaderModelOnly (#88, #90)
启用LightX2V 4 Steps LoRA对。打开这些以更快的迭代或降低VRAM压力。禁用它们以在最终确定Wan2.2 Fun Camera镜头时获得最大运动丰富性。
可选附加
- 更喜欢方形或接近方形的图像进行大幅缩放,以便在运动过程中边缘不裁剪。
- 保持正面提示简短且描述性,然后使用负面提示过滤伪影而不是引导运动。
- 如果运动感觉静止,首先尝试更强的摄像机预设,然后在提示中添加动词如平移、推拉、倾斜。
- 对于较长的剪辑,在探索时降低分辨率,然后在单独的过程中进行放大。
- LoRA分支适合预览或紧迫的截止日期,而原生fp8分支最适合最终的Wan2.2 Fun Camera渲染。
- 保存种子以在Wan2.2 Fun Camera中进行A/B测试提示和摄像机预设时保持可重复性。
致谢
此工作流实现并构建在以下作品和资源之上。我们感谢Alibaba PAI为Wan2.2-Fun A14B Camera Control模型、Comfy Org为ComfyUI Wan2.2 Fun Camera Control工作流和文档,以及aigc-apps为VideoX-Fun框架的贡献和维护。有关权威详细信息,请参阅下面链接的原始文档和存储库。
资源
- Comfy Org/Wan2.2 Fun Camera文档
- GitHub: aigc-apps/VideoX-Fun
- Hugging Face: alibaba-pai/Wan2.2-Fun-A14B-Control-Camera
- arXiv: Wan: Open and Advanced Large-Scale Video Generative Models
- 文档/发布说明: Wan2.2 Fun Camera文档
注意:使用引用的模型、数据集和代码须遵循其作者和维护者提供的各自许可证和条款。
