Stable Video Infinity 2.0 ComfyUI 工作流用于长篇、连贯的图像到视频在 Wan 2.2 上
此工作流将单个图像转换为长篇、故事驱动的视频,同时保持身份、运动流和场景一致性。它将 Wan 2.2 I2V A14B 模型与 Stable Video Infinity 2.0 LoRA 配对,以将时间连续性扩展到远超短片段的限制。管道组织为五个阶段,从一个部分到下一个部分交接运动潜在变量,使用重叠混合平滑过渡,最后渲染将所有内容拼接在一起。
需要扩展动画、叙事节拍或电影 AI 视频的创作者会发现 Stable Video Infinity 能够在场景演变时保持角色和风格稳定。您可以直接从 ComfyUI 图形中获得中间阶段视频以快速查看和最终主渲染。
Comfyui Stable Video Infinity 工作流中的关键模型
- Wan 2.2 I2V A14B UNet 对(HighNoise 和 LowNoise),量化 GGUF 变体。这些从图像潜在变量生成运动,并交替使用以平衡探索和细节精炼。来源:Comfy-Org/Wan_2.2_ComfyUI_Repackaged。
- Stable Video Infinity 2.0 LoRA 为 Wan 2.2 I2V A14B 提供,高和低变体以匹配两个 UNets。它扩展了长序列的时间一致性。来源:Kijai/WanVideo_comfy – Stable-Video-Infinity v2.0。
- Wan 文本编码器 UMT5 XXL。将每个阶段的提示编码为视频生成器的条件。来源:Comfy-Org/Wan_2.1_ComfyUI_repackaged。
- Wan 2.1 VAE。将起始图像编码为潜在空间,并为每个阶段解码帧回图像。来源:Comfy-Org/Wan_2.2_ComfyUI_Repackaged – VAE。
- 可选 Wan 2.2 LightX2V LoRA 集(HighNoise 和 LowNoise)。这些辅助 LoRAs 在采样期间补充 Stable Video Infinity。来源:Comfy-Org/Wan_2.2_ComfyUI_Repackaged – loras。
如何使用 Comfyui Stable Video Infinity 工作流
该工作流采用单个参考图像,根据您选择的分辨率准备它,然后运行五个连续的阶段。每个阶段使用 Stable Video Infinity 生成一个片段,与前一片段重叠的几帧混合,并将其运动潜在变量传递给下一个阶段。您可以以 MP4 格式预览每个阶段,并制作最终拼接的渲染。
组:模型
此组加载 Wan 2.2 I2V A14B UNet 对,Wan VAE 和 UMT5 XXL 文本编码器。然后将 LightX2V LoRA 集和 Stable Video Infinity 2.0 LoRA 应用于 HighNoise 和 LowNoise 分支,以便所有阶段共享相同的功能。如果您调整 LoRA 强度,请保持 HighNoise 和 LowNoise 分支平衡,以避免样式或运动行为漂移。
组:提示
提示每个阶段编写以创建叙事节拍。正提示存放在五个 CLIPTextEncode 节点中,例如 CLIPTextEncode (#93, #152, #284, #297, #310)。负提示预填充了常见的质量过滤器,可以在 CLIPTextEncode (#89, #157, #279, #293, #306) 中编辑。保持跨阶段一致的主题描述符,仅变化动作动词或摄像机提示,以在演变场景时保持身份。
输入图像和分辨率
使用 LoadImage (#97) 加载单个参考图像,然后使用 Resolution (LayerUtility: ImageScaleByAspectRatio V2 (#398)) 缩放以匹配您的目标纵横比。图像由 VAEEncode (#135) 编码为潜在变量,这也建立了在整个运行中保持身份稳定的锚定潜在变量。如果您更改输入或纵横比,请在运行阶段之前重新编码。
阶段 1 - 建立场景
WanImageToVideoSVIPro (#134) 使用您的第一阶段提示和锚定潜在变量生成运动。两个采样器,KSamplerAdvanced (#277 用于 HighNoise,#278 用于 LowNoise),协作探索运动然后完善细节。结果由 VAEDecode (#87) 解码,并通过 VHS_VideoCombine (#126) 预览为 MP4。使用此阶段设置 Stable Video Infinity 将延续的主题、照明和整体风格。
阶段 2 - 继续动作
WanImageToVideoSVIPro (#160) 接收来自阶段 1 的 prev_samples,以便可以在没有视觉跳跃的情况下扩展运动。同样的两阶段采样模式通过 KSamplerAdvanced (#276 HighNoise, #275 LowNoise) 运行,帧由 VAEDecode (#162) 解码。ImageBatchExtendWithOverlap (#168) 将与阶段 1 尾部的短重叠混合以隐藏接缝,VHS_VideoCombine (#167) 写入片段预览。
阶段 3 - 中序扩展
WanImageToVideoSVIPro (#290) 从阶段 2 潜在变量继续,并遵循同样的双采样器精炼与 KSamplerAdvanced (#291, #287)。在 VAEDecode (#282) 解码后,ImageBatchExtendWithOverlap (#292) 将新帧添加到时间线。更新提示以发展微动作,同时保持主题术语相同。
阶段 4 - 向节拍构建
WanImageToVideoSVIPro (#305) 从阶段 3 接棒,再次使用 HighNoise 然后 LowNoise 采样器 KSamplerAdvanced (#303, #300)。VAEDecode (#295) 和 ImageBatchExtendWithOverlap (#304) 生成可通过 VHS_VideoCombine (#296) 预览的连续序列。使用此阶段添加摄像机运动或次要动作,保持描述符稳定以保留身份。
阶段 5 - 解决和渲染
WanImageToVideoSVIPro (#318) 完成故事并将帧交给 KSamplerAdvanced (#316, #313) 进行精炼。在 VAEDecode (#308) 解码后,帧由 ImageBatchExtendWithOverlap (#317) 添加。VHS_VideoCombine (#319) 生成最终拼接的 MP4;调整其 frame_rate 和 filename_prefix 以适应交付。
Comfyui Stable Video Infinity 工作流中的关键节点
WanImageToVideoSVIPro (#134)
此节点将锚定潜在变量和您的提示转换为运动潜在变量,并可以接受 prev_samples 以从早期阶段继续。使用 length 定义一个阶段生成多少帧,使用 motion_latent_count 控制引入多少新运动能量。通过传递 prev_samples 链接阶段是让 Stable Video Infinity 构建长序列而不出现弹跳的关键。
KSamplerAdvanced (#276)
每个阶段将 HighNoise 采样器与 LowNoise 采样器配对,先探索然后巩固细节。工作流公开 steps 和一个次级分割控制,以便您可以决定如何在两个之间分配阶段预算。保持跨阶段分割一致,以避免在交接处闪烁。
ImageBatchExtendWithOverlap (#168)
此工具将前一阶段的小尾帧与新阶段的头部混合。调整 overlap 并保持模式在平滑混合上,以隐藏接缝同时保持运动方向。这是让 Stable Video Infinity 片段感觉像一次连续拍摄的关键。
VHS_VideoCombine (#319)
将解码帧组装成 MP4,用于预览和最终渲染。根据您的交付目标和文件大小调整 frame_rate、format 和 crf。使用不同的 filename_prefix 值将预览与最终输出分开。
LoraLoaderModelOnly (#141, #142)
将 Stable Video Infinity 2.0 LoRA 变体应用于 Wan 2.2 UNet 对。strength_model 控制允许您微调 LoRA 引导运动和一致性的强度。保持 HIGH 和 LOW 分支对齐,以便两个采样器类似地解释提示。
可选附加功能
- 在所有五个提示中保持主题描述符一致,仅变化动词或摄像机提示以保留身份。
- 如果运动感觉太胆小,在下一个阶段稍微提高
motion_latent_count,而不是大幅重写提示。 - 如果细节在阶段之间摇摆,减少 HighNoise 在
steps中的份额或在两个分支上统一降低 LoRA 强度。 - 对于快速动作使用短重叠,对于慢速、微妙的场景使用长重叠,以平衡接缝隐藏和运行时间。
- 为快速剪辑,仅渲染阶段 1 和阶段 3 的预览,以验证身份和运动,然后再提交完整运行。
致谢
此工作流实现并构建在以下作品和资源之上。我们感谢 Kijai 为 Stable-Video-Infinity v2.0 (SVI 2.0) 所做的贡献和维护。有关权威详情,请参阅下面链接的原始文档和存储库。
资源
- Kijai/Stable-Video-Infinity v2.0 (SVI 2.0)
- Hugging Face: SVI 2.0 Source
注意:使用所引用的模型、数据集和代码需遵循其作者和维护者提供的相应许可证和条款。
