此工作流程应用 Wan 2.1 Ditto 重新风格化任何输入视频,同时保留场景结构和运动。它专为希望获得电影、艺术或实验性外观并具有强大时间一致性的编辑和创作者设计。您加载一个剪辑,描述目标外观,然后 Wan 2.1 Ditto 生成一个干净的风格化渲染,并提供可选的并排比较以便快速审查。
该图将 Wan 2.1 文本到视频的主干与 Ditto 的风格迁移在模型级别配对,因此更改在帧之间一致发生,而不是逐帧滤镜。常见用例包括动漫转换、像素艺术、黏土动画、水彩画、蒸汽朋克或模拟到真实的编辑。如果您已经使用 Wan 生成内容,此 Wan 2.1 Ditto 工作流程可以直接插入您的管道中,以实现可靠、无闪烁的视频风格化。
该工作流程分为四个阶段:加载模型、准备输入视频、编码文本和视觉,然后采样和导出。组按顺序操作,以生成风格化渲染和可选的并排比较。
此组准备 Wan 2.1 Ditto 所需的一切。基础主干通过 WanVideoModelLoader
(#130) 加载,并与 WanVideoVAELoader
(#60) 和 LoadWanVideoT5TextEncoder
(#80) 配对。Ditto 组件通过 WanVideoVACEModelSelect
(#128) 选择,指向专用的 Ditto 风格化权重。如果需要更强的变换,可以通过 WanVideoLoraSelect
(#122) 附加 LoRA。WanVideoBlockSwap
(#68) 可用于内存管理,因此较大的模型可以在有限的 VRAM 上顺利运行。
使用 VHS_LoadVideo
(#101) 加载您的源剪辑。然后使用 LayerUtility: ImageScaleByAspectRatio V2
(#76) 调整帧的大小,以保持一致的几何形状,同时以简单的整数输入 JWInteger
(#89) 控制长边分辨率。GetImageSizeAndCount
(#65) 读取准备好的帧,并将宽度、高度和帧数转发到下游节点,以便 Wan 2.1 Ditto 采样正确的空间大小和持续时间。如果您希望在自己的字段中撰写提示,包含一个小的提示助手 CR Text
(#104)。名为“最大变化限制”的组提醒您将长边像素目标保持在实际范围内,以获得一致的结果和稳定的内存使用。
条件在两个并行通道中进行。WanVideoTextEncode
(#111) 将您的提示转换为定义意图和风格的文本嵌入。WanVideoVACEEncode
(#126) 将准备好的视频编码为保留结构和运动的视觉嵌入以进行编辑。可选的指导模块 WanVideoSLG
(#129) 控制模型通过去噪轨迹平衡风格和内容。然后 WanVideoSampler
(#119) 将 Wan 2.1 主干与 Ditto、文本嵌入和视觉嵌入融合,以生成风格化的潜在变量。最后,WanVideoDecode
(#87) 从潜在变量重建帧,生成以 Wan 2.1 Ditto 著称的时间一致性风格化序列。
主要导出使用 VHS_VideoCombine
(#95) 在您选择的帧速率下保存 Wan 2.1 Ditto 渲染。为了快速审查,图形使用 ImageConcatMulti
(#94) 连接原始和风格化帧,使用 ImageScaleToTotalPixels
(#133) 调整比较大小,并通过 VHS_VideoCombine
(#100) 编写并排电影。您通常会在输出文件夹中获得两个视频:一个干净的风格化渲染和一个比较剪辑,以帮助利益相关者更快地批准或迭代。
您可以从简短、清晰的提示开始并进行迭代。与 Wan 2.1 Ditto 一起效果良好的示例:
WanVideoVACEModelSelect
(#128)
选择用于风格化的 Ditto 权重。默认的全局 Ditto 模型是大多数镜头的平衡选择。如果您的目标是动漫到真实的转换,请选择节点注释中引用的模拟到真实 Ditto 变体。切换 Ditto 变体会改变风格化的特征,而不影响其他设置。
WanVideoVACEEncode
(#126)
从输入帧构建视觉条件。关键控制是 width
、height
和 num_frames
,应与准备好的视频匹配以获得最佳效果。使用 strength
调整 Ditto 风格对编辑的影响程度,并使用 vace_start_percent
和 vace_end_percent
限制条件在扩散轨迹中的应用时间。启用 tiled_vae
在非常高的分辨率下以减少内存压力。
WanVideoTextEncode
(#111)
通过 mT5‑XXL 编码器对正面和负面提示进行编码以指导风格和内容。保持正面提示简洁描述,并使用负面提示抑制闪烁或过饱和等伪影。如果您运行大模型,force_offload
和 device
选项可让您在速度和内存之间进行权衡。
WanVideoSampler
(#119)
使用 Ditto 风格化运行 Wan 2.1 主干以生成最终潜在变量。最具影响力的设置是 steps
、cfg
、scheduler
和 seed
。当您希望保留更多原始结构时,使用 denoise_strength
,并保持 slg_args
连接以在内容保真度和风格强度之间取得平衡。增加步骤或指导可能会在时间成本上提高细节。
ImageScaleByAspectRatio V2
(#76)
在条件之前为所有帧设置稳定的目标大小。使用独立整数驱动长边目标,以便您可以测试小而快速的预览,然后增加分辨率以进行最终渲染。在迭代之间保持比例一致,以使 A/B 比较具有意义。
VHS_LoadVideo
(#101) 和 VHS_VideoCombine
(#95, #100)
这些节点处理解码和编码。当您关心时间时,将帧速率与源匹配。在探索期间比较编写器很有用,如果您只想要风格化结果,可以在最终导出时禁用。
WanVideoVACEModelSelect
中选择模拟到真实 Ditto 变体。此 Wan 2.1 Ditto 工作流程使高质量视频风格化变得可预测和快速,具有干净的提示、一致的运动,以及准备好立即审查或交付的输出。
此工作流程实现并建立在以下作品和资源之上。我们衷心感谢 EzioBy 对 Wan 2.1 Ditto Source 的贡献和维护。有关权威细节,请参阅下方链接的原始文档和存储库。
注意:使用引用的模型、数据集和代码须遵循其作者和维护者提供的各自许可证和条款。
RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Playground, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。