创建连贯场景 (Qwen Image Edit & Wan 2.2) 是一个为构建故事驱动、多镜头视频而准备的 ComfyUI 工作流程,在该工作流程中,角色、灯光和构图在每个镜头中保持一致。它将 Qwen Image Edit 用于精确的、参考指导的静帧与 Wan 2.2 图像到视频的电影运动结合在一起,然后让您缝合场景、通过帧插值平滑运动,并添加生成的拟声效果音以完成。非常适合叙事艺术、动画、预可视化和概念片段,工作流程帮助您从单一的建立关键帧移动到一个连贯的序列,几乎无需手动润饰。
该流程分为三部分:第一部分创建和编辑连贯的关键帧,第二部分用 Wan 2.2 为每个镜头动画并将它们连接成一个剪辑,第三部分生成场景感知的拟声效果音。在此 README 中,您看到的 Create Coherent Scenes (Qwen Image Edit & Wan 2.2) 指的是完整的端到端过程。
整体逻辑
模型加载器
设置
第一部分 — 文本到图像建立关键帧
第一部分 — Qwen Image Edit 下一个场景关键帧
场景输入 (1–6)
场景采样 (1–6)
合并场景
可选帧插值
第三部分 — 视频到音频拟声
WanImageToVideo (#111)
将单个参考帧转换为连贯的潜在视频,同时尊重正面和负面的文本。用它来设置每个镜头的持续时间和画布大小,并提供您想要动画的起始图像。由 Wan 2.2 I2V 14B 模型支持,打包于此:Comfy‑Org/Wan_2.2_ComfyUI_Repackaged。
TextEncodeQwenImageEditPlus (#360)
编码“下一个场景”指令以及参考图像,以便编辑遵循故事但匹配身份和灯光。保持名词和风格标签在场景之间的一致性以增强连贯性。模型参考:Comfy‑Org/Qwen‑Image‑Edit_ComfyUI 和 Comfy‑Org/Qwen‑Image_ComfyUI。
KSamplerAdvanced (#159)
每个动画场景的核心去噪器。此工作流程连接了三个采样器,目标是不同的噪声环境和 LoRA 混合,以提高时间稳定性。如果更改步骤或种子,请在连接的采样器中统一进行,以保持运动行为的可预测性。
ImageBatchMulti (#308)
将场景帧批处理收集到一个长时间轴中。在导出之前使用它来重新排序、删除或交换场景,而无需触及采样路径。
RIFE VFI (#94)
执行帧插值以增加感知帧率。特别适用于慢速摄像机移动和流畅的主体运动。参考:hzwer/Practical‑RIFE。
HunyuanFoleySampler (#331)
从帧加上简短文本提示生成同步拟声,然后将音频传递给视频混合器。有关模型详细信息和文件,请参见 phazei/HunyuanVideo‑Foley。
此工作流程实施并构建在以下作品和资源之上。我们衷心感谢 Qwen Image Edit 的创作者提供的模型,Wan 2.2 的开发人员提供的模型,以及“Create Coherent Scenes (Qwen Image Edit & Wan 2.2) YouTube 教程”的作者(@Benji’s AI Playground)的贡献和维护。有关权威细节,请参阅下方链接的原始文档和存储库。
注意:引用的模型、数据集和代码的使用受其作者和维护者提供的各自许可证和条款的限制。
RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Playground, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。