ComfyUI>工作流>创建连贯场景 | 一致的故事艺术生成器

创建连贯场景 | 一致的故事艺术生成器

Workflow Name: RunComfy/Create-Coherent-Scenes

Workflow ID: 0000...1305

此强大的工作流程帮助您利用 Qwen Image Edit 和 Wan 2.2 的结合能力设计视觉上统一的故事场景。它在多个镜头中同步灯光、摄像机角度和构图，以实现自然的一致性。非常适合故事叙述、动画和概念可视化，它保持角色和环境在每一帧中的连贯性。您可以轻松地优化镜头，保留艺术风格，并为电影序列生成流畅的过渡。适合那些寻求多场景叙事效率和控制的创作者。

创建连贯场景 (Qwen Image Edit & Wan 2.2)

创建连贯场景 (Qwen Image Edit & Wan 2.2) 是一个为构建故事驱动、多镜头视频而准备的 ComfyUI 工作流程，在该工作流程中，角色、灯光和构图在每个镜头中保持一致。它将 Qwen Image Edit 用于精确的、参考指导的静帧与 Wan 2.2 图像到视频的电影运动结合在一起，然后让您缝合场景、通过帧插值平滑运动，并添加生成的拟声效果音以完成。非常适合叙事艺术、动画、预可视化和概念片段，工作流程帮助您从单一的建立关键帧移动到一个连贯的序列，几乎无需手动润饰。

该流程分为三部分：第一部分创建和编辑连贯的关键帧，第二部分用 Wan 2.2 为每个镜头动画并将它们连接成一个剪辑，第三部分生成场景感知的拟声效果音。在此 README 中，您看到的 Create Coherent Scenes (Qwen Image Edit & Wan 2.2) 指的是完整的端到端过程。

Comfyui Create Coherent Scenes (Qwen Image Edit & Wan 2.2) 工作流程中的关键模型

Wan 2.2 Image‑to‑Video 14B（高噪声和低噪声变体）。核心视频生成器用于在保持空间布局和风格的同时为您的场景图像动画。为 ComfyUI 打包了文本编码器和 VAE 资产。参考：Comfy‑Org/Wan_2.2_ComfyUI_Repackaged。
Qwen‑Image‑Edit 2509 + Qwen 2.5 VL 文本编码器 + Qwen Image VAE。语义、参考感知图像编辑用于创建符合您叙事的下一个场景关键帧，同时保持角色和场景的连续性。参考：Comfy‑Org/Qwen‑Image‑Edit_ComfyUI 和 Comfy‑Org/Qwen‑Image_ComfyUI。
FLUX.1 dev (text‑to‑image)。用于在编辑前建立第一个关键帧的可选基础模型。参考：Comfy‑Org/FLUX.1‑Krea‑dev_ComfyUI。
RIFE 视频帧插值。用于提高帧率并在组合剪辑上平滑运动。参考：hzwer/Practical‑RIFE。
HunyuanVideo‑Foley。一个生成音频模型，从图像或视频加上简短的文本提示创建同步拟声；用于为每个场景添加场景内声音或最终剪辑。参考：phazei/HunyuanVideo‑Foley。
可选助手。MiniCPM‑V 4.5 可以从您的剪辑中自动草拟音频提示以加快拟声创意：OpenBMB/MiniCPM‑V。

如何使用 Comfyui Create Coherent Scenes (Qwen Image Edit & Wan 2.2) 工作流程

整体逻辑

第一部分创建一个建立关键帧，然后使用 Qwen Image Edit 生成保持风格一致的“下一个场景”静帧。
第二部分将每个场景图像动画成短片段，然后将所有片段连接成一个剪辑，并可选择插值帧以获得更平滑的运动。
第三部分可选择为每个场景或组合剪辑生成拟声效果音，并将其混合到最终视频中。

模型加载器

模型区域加载 Wan 2.2 高噪声和低噪声变体及其 VAE/CLIP 一次，并提供通过 torch 编译加速的选项。您还将看到使用量化 GGUF UNETs 和块交换的低 VRAM 路线，以便您可以在较小的 GPU 上运行相同的 Create Coherent Scenes (Qwen Image Edit & Wan 2.2) 过程。
Wan 2.2 和 Qwen Image Edit Lightning LoRA 的 LoRAs 预先连接以影响运动风格和编辑速度而不复杂化图表。
如果您更改模型，请保持文本编码器/UNET/VAE 家族一致，以避免潜在空间不匹配。

设置

全局控制设置工作宽度、高度、种子和场景长度，以便每个场景继承相同的画布几何和时间节奏。这是 Create Coherent Scenes (Qwen Image Edit & Wan 2.2) 一致性的一大关键。
提供并全局路由了一个全面的负面提示；您可以随时覆盖它以适应您的艺术方向。

第一部分 — 文本到图像建立关键帧

从描述您的开场镜头开始。提示喂给一个基础文本到图像采样器，该采样器输出一个项目的“Start_”帧。
该图像被缓存，并成为 Qwen 轨道中下一个场景的参考。工作流程将图像缩放到友好的编辑分辨率，并将其编码为潜在变量。

第一部分 — Qwen Image Edit 下一个场景关键帧

对于每个后续镜头，编写一个简短的“下一个场景”指令。编辑器以先前场景图像为条件，以便角色身份、服装、灯光和调色板保持一致。
编辑结果被解码、预览，并保存为“Scene_1_…”、“Scene_2_…”，等等。这些是您的连贯静帧。它们也被存储在共享图像插槽中，以便后续提示可以引用它们。

场景输入 (1–6)

如果您已经有概念帧，请将它们放入六个“LoadImage”节点。否则，使用第一部分生成的 Qwen 静帧作为起始图像。
对于每个场景，通过标记的提示节点添加一个简短的文本提示。将这些视为指导运动风格的摄影笔记，而不是重新描述整个环境。

场景采样 (1–6)

每个场景运行一个 Wan 2.2 图像到视频过程，将起始图像转换为潜在剪辑。一个三阶段采样器路径随后使用高噪声路径、低噪声路径和无 LoRA 路径来优化潜在序列，以获得稳定性。
解码帧馈送给每个场景的视频编写器，保存为 MP4 以便快速查看。每次渲染后的内存清除节点在下一个场景开始之前释放 VRAM。
因为所有场景共享相同的种子、大小和长度，运动节奏和构图保持一致，帮助 Create Coherent Scenes (Qwen Image Edit & Wan 2.2) 感觉像一个连续的作品。

合并场景

六个渲染的图像序列按顺序连接，生成一个“Combined”剪辑。您可以通过重接收集它们的批处理节点来重新排序或省略场景。

可选帧插值

插值过程使用 RIFE 增加明显的帧率。这为更平滑的摄像机和主体运动创建了一个“Interpolated”导出，同时保持相同的外观。

第三部分 — 视频到音频拟声

将组合剪辑或任一单独场景加载到音频部分。一个内置的视觉语言助手可以自动草拟一个文本场景描述；根据需要编辑以反映节奏、情绪和关键动作。
拟声模型合成同步音频，并通过混合节点将其与您的帧组合成一个带音频的 MP4。为了获得最佳效果，请为每个场景生成音频，然后缝合。

Comfyui Create Coherent Scenes (Qwen Image Edit & Wan 2.2) 工作流程中的关键节点

WanImageToVideo (#111) 将单个参考帧转换为连贯的潜在视频，同时尊重正面和负面的文本。用它来设置每个镜头的持续时间和画布大小，并提供您想要动画的起始图像。由 Wan 2.2 I2V 14B 模型支持，打包于此：Comfy‑Org/Wan_2.2_ComfyUI_Repackaged。
TextEncodeQwenImageEditPlus (#360) 编码“下一个场景”指令以及参考图像，以便编辑遵循故事但匹配身份和灯光。保持名词和风格标签在场景之间的一致性以增强连贯性。模型参考：Comfy‑Org/Qwen‑Image‑Edit_ComfyUI 和 Comfy‑Org/Qwen‑Image_ComfyUI。
KSamplerAdvanced (#159) 每个动画场景的核心去噪器。此工作流程连接了三个采样器，目标是不同的噪声环境和 LoRA 混合，以提高时间稳定性。如果更改步骤或种子，请在连接的采样器中统一进行，以保持运动行为的可预测性。
ImageBatchMulti (#308) 将场景帧批处理收集到一个长时间轴中。在导出之前使用它来重新排序、删除或交换场景，而无需触及采样路径。
RIFE VFI (#94) 执行帧插值以增加感知帧率。特别适用于慢速摄像机移动和流畅的主体运动。参考：hzwer/Practical‑RIFE。
HunyuanFoleySampler (#331) 从帧加上简短文本提示生成同步拟声，然后将音频传递给视频混合器。有关模型详细信息和文件，请参见 phazei/HunyuanVideo‑Foley。

可选额外功能

为最快速的迭代，当 VRAM 紧张时使用量化 GGUF Wan 2.2 路线与块交换；在最终渲染时切换回全精度。
保持整个项目的宽度、高度和场景长度相同，以增强节奏和框架的连贯性。
在 Qwen 提示中，保留核心标识符（名称、服装、道具）和灯光术语；仅在场景之间变化动作和摄像语言。
使用全局种子锁定项目的整体“感觉”。只有当您想要在所有场景中改变运动特征时才更改它。
在您对时间安排满意之后才进行插值，然后为每个场景渲染音频版本并组合；每场景的拟声往往听起来更自然。
FLUX.1 dev 是第一个关键帧的绝佳基础；一旦建立，就依靠 Qwen 编辑来推进故事，同时保持外观：Comfy‑Org/FLUX.1‑Krea‑dev_ComfyUI。

致谢

此工作流程实施并构建在以下作品和资源之上。我们衷心感谢 Qwen Image Edit 的创作者提供的模型，Wan 2.2 的开发人员提供的模型，以及“Create Coherent Scenes (Qwen Image Edit & Wan 2.2) YouTube 教程”的作者（@Benji’s AI Playground）的贡献和维护。有关权威细节，请参阅下方链接的原始文档和存储库。

资源

YouTube/Create Coherent Scenes (Qwen Image Edit & Wan 2.2)
- 文档 / 发布说明 @Benji’s AI Playground: Create Coherent Scenes (Qwen Image Edit & Wan 2.2) Youtube Tutorial