Wan 2.1 Ditto 在 ComfyUI 中 | 视频风格化和运动一致性

ComfyUI 的 Wan 2.1 Ditto 视频重塑工作流程

此工作流程应用 Wan 2.1 Ditto 重新风格化任何输入视频，同时保留场景结构和运动。它专为希望获得电影、艺术或实验性外观并具有强大时间一致性的编辑和创作者设计。您加载一个剪辑，描述目标外观，然后 Wan 2.1 Ditto 生成一个干净的风格化渲染，并提供可选的并排比较以便快速审查。

该图将 Wan 2.1 文本到视频的主干与 Ditto 的风格迁移在模型级别配对，因此更改在帧之间一致发生，而不是逐帧滤镜。常见用例包括动漫转换、像素艺术、黏土动画、水彩画、蒸汽朋克或模拟到真实的编辑。如果您已经使用 Wan 生成内容，此 Wan 2.1 Ditto 工作流程可以直接插入您的管道中，以实现可靠、无闪烁的视频风格化。

ComfyUI Wan 2.1 Ditto 工作流程中的关键模型

Wan2.1‑T2V‑14B 文本到视频模型。作为生成主干，在给定文本和视觉条件下合成时间一致的运动。
Wan 2.1 VAE。对视频潜在变量进行编码和解码，以便采样器可以在紧凑空间内工作，然后可靠地重建全分辨率帧。
mT5‑XXL 文本编码器。将提示转换为丰富的语言嵌入，以引导场景内容和风格。有关 mT5 的背景，请参阅 Xue 等人的论文 mT5: A Massively Multilingual Pre‑trained Text‑to‑Text Transformer。
Wan 2.1 的 Ditto 风格化模型。提供强大的全局风格化，并具有强大的时间一致性。Ditto 方法和模型文件在此处记录：EzioBy/Ditto。
Wan 2.1 14B 的可选 LoRA。在不重新训练基础模型的情况下，添加轻量级风格或行为变化，遵循 Hu et al., 2021 中描述的 LoRA 方法。

如何使用 ComfyUI Wan 2.1 Ditto 工作流程

该工作流程分为四个阶段：加载模型、准备输入视频、编码文本和视觉，然后采样和导出。组按顺序操作，以生成风格化渲染和可选的并排比较。

模型

此组准备 Wan 2.1 Ditto 所需的一切。基础主干通过 WanVideoModelLoader (#130) 加载，并与 WanVideoVAELoader (#60) 和 LoadWanVideoT5TextEncoder (#80) 配对。Ditto 组件通过 WanVideoVACEModelSelect (#128) 选择，指向专用的 Ditto 风格化权重。如果需要更强的变换，可以通过 WanVideoLoraSelect (#122) 附加 LoRA。WanVideoBlockSwap (#68) 可用于内存管理，因此较大的模型可以在有限的 VRAM 上顺利运行。

输入参数

使用 VHS_LoadVideo (#101) 加载您的源剪辑。然后使用 LayerUtility: ImageScaleByAspectRatio V2 (#76) 调整帧的大小，以保持一致的几何形状，同时以简单的整数输入 JWInteger (#89) 控制长边分辨率。GetImageSizeAndCount (#65) 读取准备好的帧，并将宽度、高度和帧数转发到下游节点，以便 Wan 2.1 Ditto 采样正确的空间大小和持续时间。如果您希望在自己的字段中撰写提示，包含一个小的提示助手 CR Text (#104)。名为“最大变化限制”的组提醒您将长边像素目标保持在实际范围内，以获得一致的结果和稳定的内存使用。

采样

条件在两个并行通道中进行。WanVideoTextEncode (#111) 将您的提示转换为定义意图和风格的文本嵌入。WanVideoVACEEncode (#126) 将准备好的视频编码为保留结构和运动的视觉嵌入以进行编辑。可选的指导模块 WanVideoSLG (#129) 控制模型通过去噪轨迹平衡风格和内容。然后 WanVideoSampler (#119) 将 Wan 2.1 主干与 Ditto、文本嵌入和视觉嵌入融合，以生成风格化的潜在变量。最后，WanVideoDecode (#87) 从潜在变量重建帧，生成以 Wan 2.1 Ditto 著称的时间一致性风格化序列。

输出和比较

主要导出使用 VHS_VideoCombine (#95) 在您选择的帧速率下保存 Wan 2.1 Ditto 渲染。为了快速审查，图形使用 ImageConcatMulti (#94) 连接原始和风格化帧，使用 ImageScaleToTotalPixels (#133) 调整比较大小，并通过 VHS_VideoCombine (#100) 编写并排电影。您通常会在输出文件夹中获得两个视频：一个干净的风格化渲染和一个比较剪辑，以帮助利益相关者更快地批准或迭代。

提示想法

您可以从简短、清晰的提示开始并进行迭代。与 Wan 2.1 Ditto 一起效果良好的示例：

制作成日本动漫风格，赛璐珞着色视频。
制作成像素艺术视频。
制作成铅笔素描风格视频。
制作成黏土动画视频。
制作成水彩画风格视频。
制作成蒸汽朋克风格，带有齿轮、管道和黄铜细节。
制作成赛博朋克风格，带有霓虹灯和未来植入物。
制作成浮世绘风格视频。
制作成文艺复兴艺术风格视频。
制作成梵高的画作。
将其转变为乐高风格。
将其转变为吉卜力风格。
将其转变为 3D Q版风格。
将其转变为剪纸风格。

ComfyUI Wan 2.1 Ditto 工作流程中的关键节点

WanVideoVACEModelSelect (#128) 选择用于风格化的 Ditto 权重。默认的全局 Ditto 模型是大多数镜头的平衡选择。如果您的目标是动漫到真实的转换，请选择节点注释中引用的模拟到真实 Ditto 变体。切换 Ditto 变体会改变风格化的特征，而不影响其他设置。

WanVideoVACEEncode (#126) 从输入帧构建视觉条件。关键控制是 width、height 和 num_frames，应与准备好的视频匹配以获得最佳效果。使用 strength 调整 Ditto 风格对编辑的影响程度，并使用 vace_start_percent 和 vace_end_percent 限制条件在扩散轨迹中的应用时间。启用 tiled_vae 在非常高的分辨率下以减少内存压力。

WanVideoTextEncode (#111) 通过 mT5‑XXL 编码器对正面和负面提示进行编码以指导风格和内容。保持正面提示简洁描述，并使用负面提示抑制闪烁或过饱和等伪影。如果您运行大模型，force_offload 和 device 选项可让您在速度和内存之间进行权衡。

WanVideoSampler (#119) 使用 Ditto 风格化运行 Wan 2.1 主干以生成最终潜在变量。最具影响力的设置是 steps、cfg、scheduler 和 seed。当您希望保留更多原始结构时，使用 denoise_strength，并保持 slg_args 连接以在内容保真度和风格强度之间取得平衡。增加步骤或指导可能会在时间成本上提高细节。

ImageScaleByAspectRatio V2 (#76) 在条件之前为所有帧设置稳定的目标大小。使用独立整数驱动长边目标，以便您可以测试小而快速的预览，然后增加分辨率以进行最终渲染。在迭代之间保持比例一致，以使 A/B 比较具有意义。

VHS_LoadVideo (#101) 和 VHS_VideoCombine (#95, #100) 这些节点处理解码和编码。当您关心时间时，将帧速率与源匹配。在探索期间比较编写器很有用，如果您只想要风格化结果，可以在最终导出时禁用。

可选扩展

对于动漫到真实的编辑，在采样之前在 WanVideoVACEModelSelect 中选择模拟到真实 Ditto 变体。
从“制作成水彩画风格”这样的简短提示开始，并用 1 或 2 个描述符进行细化。长列表往往会削弱风格强度。
使用负面提示减少闪烁、压缩伪影和过亮的高光，当推动强烈外观时。
在迭代之间保持长边分辨率一致，以稳定结果并使种子可重复。
当 VRAM 紧张时，启用模型卸载和平铺选项，或在全尺寸渲染之前在较小的长边值下预览。

此 Wan 2.1 Ditto 工作流程使高质量视频风格化变得可预测和快速，具有干净的提示、一致的运动，以及准备好立即审查或交付的输出。

致谢

此工作流程实现并建立在以下作品和资源之上。我们衷心感谢 EzioBy 对 Wan 2.1 Ditto Source 的贡献和维护。有关权威细节，请参阅下方链接的原始文档和存储库。

资源

EzioBy/Wan 2.1 Ditto Source
- GitHub: EzioBy/Ditto

注意：使用引用的模型、数据集和代码须遵循其作者和维护者提供的各自许可证和条款。

Want More ComfyUI Workflows?

Wan 2.1 视频重塑 | 一致的视频风格转换

通过应用 Wan 2.1 视频重塑工作流程的重塑首帧来改变您的视频风格。

Wan 2.1 LoRA

使用LoRA模型增强Wan 2.1视频生成，以改善风格和定制化。

Wan 2.1 控制 LoRA | 深度和瓦片

使用轻量级深度和瓦片 LoRAs 改进结构和细节，推进 Wan 2.1 视频生成。

Wan 2.1 | 革命性的视频生成

利用突破性的 AI 在普通 CPU 上从文本或图像创建令人难以置信的视频。

Wan FusionX | T2V+I2V+VACE 完整

迄今为止最强大的视频生成解决方案！影院级细节，您的个人电影工作室。

Stable Diffusion 3 (SD3) | 文本到图像

将 Stable Diffusion 3 媒介集成到您的工作流程中，生成卓越的 AI 艺术作品。

ComfyUI中的LongCat头像 | 身份一致的头像动画

将一张图片转化为流畅、身份一致的头像动画。

AnimateDiff + IPAdapter V1 | 图像到视频

使用 IPAdapter,您可以使用参考图像高效地控制动画的生成。

关注我们

支持

资源

法律

RunComfy

RunComfy 是首选的 ComfyUI 平台，提供 ComfyUI 在线环境和服务，以及 ComfyUI 工作流具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。

Wan 2.1 Ditto | 电影级视频重塑生成器