在ComfyUI中創建連貫場景（Qwen Image Edit & Wan 2.2）| 電影連貫性工作流程

ComfyUI Create Coherent Scenes (Qwen Image Edit & Wan 2.2) Workflow

Create Coherent Scenes (Qwen Image Edit & Wan 2.2) in ComfyUI | Cinematic Coherence Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Create Coherent Scenes (Qwen Image Edit & Wan 2.2) Examples

創建連貫場景（Qwen Image Edit & Wan 2.2）#

創建連貫場景（Qwen Image Edit & Wan 2.2）是一個適合生產的ComfyUI工作流程，用於構建以故事為驅動的多鏡頭視頻，其中角色、照明和構圖從一個鏡頭到另一個鏡頭保持一致。它將Qwen Image Edit用於精確的、參考指導的靜止圖像與Wan 2.2的圖像到視頻的電影運動相結合，然後讓您拼接場景，使用幀插值平滑運動，並添加生成的擬音效果以完成。適合敘事藝術、動畫、預視和概念卷軸，該工作流程幫助您從單一的建立關鍵幀轉變為連貫的序列，手動潤飾最少。

該流程分為三部分：第一部分創建和編輯連貫的關鍵幀，第二部分使用Wan 2.2為每個鏡頭動畫並將它們合成一個剪輯，第三部分生成場景感知的擬音效果。在本README中，您看到的任何地方的創建連貫場景（Qwen Image Edit & Wan 2.2），都指的是完整的端到端過程。

Comfyui創建連貫場景（Qwen Image Edit & Wan 2.2）工作流程中的關鍵模型#

Wan 2.2 圖像到視頻 14B（高噪聲和低噪聲變體）。核心視頻生成器，用於動畫化您的場景圖像，同時保持空間佈局和風格。與文本編碼器和VAE資產一起打包在ComfyUI中。參考：Comfy‑Org/Wan_2.2_ComfyUI_Repackaged。
Qwen‑Image‑Edit 2509 + Qwen 2.5 VL文本編碼器 + Qwen圖像VAE。語義、參考感知的圖像編輯，用於創建下一場景的關鍵幀，匹配您的敘事，同時保持角色和場景連續性。參考：Comfy‑Org/Qwen‑Image‑Edit_ComfyUI和Comfy‑Org/Qwen‑Image_ComfyUI。
FLUX.1 dev（文本到圖像）。可選的基礎模型，用於編輯前的第一個建立關鍵幀。參考：Comfy‑Org/FLUX.1‑Krea‑dev_ComfyUI。
RIFE視頻幀插值。用於提高幀率並在合成剪輯上平滑運動。參考：hzwer/Practical‑RIFE。
HunyuanVideo‑Foley。生成音頻模型，從圖像或視頻加上一個簡短的文本提示創建同步的擬音效果；用於為每個場景或最終剪輯添加內在聲音。參考：phazei/HunyuanVideo‑Foley。
可選助手。MiniCPM‑V 4.5可以從您的剪輯自動起草音頻提示，以加快擬音創意：OpenBMB/MiniCPM‑V。

如何使用Comfyui創建連貫場景（Qwen Image Edit & Wan 2.2）工作流程#

整體邏輯

第1部分創建一個建立關鍵幀，然後使用Qwen Image Edit生成風格保持一致的“下一場景”靜止圖像。
第2部分將每個場景圖像動畫化為一個短剪輯，然後將所有剪輯合併為一個剪輯，並可選擇插值幀以獲得更平滑的運動。
第3部分可選地為每個場景或合成剪輯生成擬音效果，並將其合成到最終視頻中。

模型加載器

模型區域加載Wan 2.2高噪聲和低噪聲變體及其VAE/CLIP一次，並可選擇通過torch編譯加速。您還會看到一個低VRAM路徑，使用量化GGUF UNETs和區塊交換，這樣您可以在較小的GPU上運行相同的創建連貫場景（Qwen Image Edit & Wan 2.2）過程。
Wan 2.2和Qwen Image Edit Lightning LoRA的LoRAs預先布線以影響運動風格和編輯速度，而不會使圖形複雜化。
如果更改模型，請保持文本編碼器/UNET/VAE系列一致，以避免潛在空間不匹配。

設置

全局控件設置工作寬度、高度、種子和場景長度，以便每個場景繼承相同的畫布幾何和時間節奏。這是創建連貫場景（Qwen Image Edit & Wan 2.2）一致性的一個關鍵。
提供並全局路由了一個全面的負面提示；您可以隨時覆蓋它以適應您的藝術方向。

第1部分 — 文本到圖像的建立關鍵幀

首先描述您的開場鏡頭。提示將饋送至基礎文本到圖像采樣器，該采樣器為項目輸出一個“Start_”幀。
該圖像被緩存並成為Qwen軌道中下一場景的參考。工作流程將圖像縮放到編輯友好的分辨率並將其編碼為潛在的。

第1部分 — Qwen圖像編輯下一場景關鍵幀

對於每個後續鏡頭，寫一個簡短的“下一場景”指令。編輯器條件基於前一場景的圖像，因此角色身份、服裝、照明和調色板保持一致。
編輯結果被解碼、預覽並保存為“Scene_1_…”，“Scene_2_…”，等。這些是您的連貫靜止圖像。它們還被存儲到共享的圖像插槽中，以便後續提示可以引用它們。

場景輸入（1–6）

如果您已經有概念幀，將它們放入六個“LoadImage”節點。否則，使用第1部分的Qwen生成靜止圖像作為起始圖像。
對於每個場景，通過標記的提示節點添加一個簡短的文本提示。將這些視為指導運動風格的攝影筆記，而不是重新描述整個環境。

場景采樣（1–6）

每個場景運行一個Wan 2.2圖像到視頻的過程，將起始圖像轉換為潛在剪輯。然後，三階段采樣器路徑使用高噪聲路徑、低噪聲路徑和無LoRA路徑來精煉潛在序列，以提高時間穩定性。
解碼的幀將被傳送到每個場景的視頻編寫器，該編寫器保存一個MP4以便快速查看。每次渲染後的內存清除節點在下一場景開始前釋放VRAM。
由於所有場景共享相同的種子、大小和長度，運動節奏和構圖保持一致，幫助創建連貫場景（Qwen Image Edit & Wan 2.2）感覺像一個連續的作品。

合併場景

六個渲染的圖像序列按順序連接，生成一個“合併”剪輯。您可以通過重新布線收集它們的批處理節點來重新排序或省略場景。

可選幀插值

插值過程使用RIFE增加顯示幀率。這為相機和主題運動創建一個“插值”出口，保持相同的外觀。

第3部分 — 視頻到音頻擬音

將合併剪輯或任何單個場景加載到音頻部分。內置的視覺語言助手可以自動起草文本場景描述；編輯它以反映節奏、情緒和關鍵動作。
擬音模型合成同步音頻，並通過mux節點將其與您的畫面合成為一個音頻啟用的MP4。為了獲得最佳效果，為每個場景生成音頻，然後拼接。

Comfyui創建連貫場景（Qwen Image Edit & Wan 2.2）工作流程中的關鍵節點#

WanImageToVideo (#111) 將單個參考幀轉換為連貫的潛在視頻，同時尊重正面和負面文本。用於設置每個鏡頭的持續時間和畫布大小，並提供您想要動畫化的起始圖像。由Wan 2.2 I2V 14B模型支持，打包於此：Comfy‑Org/Wan_2.2_ComfyUI_Repackaged。
TextEncodeQwenImageEditPlus (#360) 將“下一場景”指令與參考圖像一起編碼，以便編輯遵循故事但匹配身份和照明。保持場景中的名詞和風格標籤一致，以加強連續性。模型參考：Comfy‑Org/Qwen‑Image‑Edit_ComfyUI和Comfy‑Org/Qwen‑Image_ComfyUI。
KSamplerAdvanced (#159) 每個動畫場景的核心去噪器。該工作流程鏈接三個采樣器，目標是不同的噪聲方案和LoRA混合，以提高時間穩定性。如果更改步驟或種子，請在鏈接的采樣器中統一更改，以保持運動行為可預測。
ImageBatchMulti (#308) 將場景幀批次收集到一個長時間軸中。使用它在導出前對場景進行重新排序、刪除或交換，而不需觸碰采樣路徑。
RIFE VFI (#94) 執行幀插值以提高感知幀率。它對於慢速相機移動和流暢的主題運動特別有效。參考：hzwer/Practical‑RIFE。
HunyuanFoleySampler (#331) 從幀加上簡短的文本提示生成同步擬音，然後將音頻傳遞給視頻合成器。關於模型詳細信息和文件，請參見phazei/HunyuanVideo‑Foley。

可選附加功能#

為了最快的迭代，當VRAM緊張時，使用量化GGUF Wan 2.2路徑並進行區塊交換；在最終渲染時切換回全精度。
在整個項目中保持寬度、高度和場景長度一致，以加強節奏和框架連續性。
在Qwen提示中，保留核心標識符（名稱、服裝、道具）和照明術語；僅在場景之間變化動作和攝影語言。
使用全局種子鎖定項目的總體“感覺”。僅在您想要不同的運動特性時更改它。
僅在您對時間安排滿意後進行插值，然後為每個場景渲染音頻版本並合併；每場景擬音往往聽起來更自然。
FLUX.1 dev是第一個關鍵幀的絕佳基礎；一旦建立，依靠Qwen編輯來推進故事，同時保持外觀：Comfy‑Org/FLUX.1‑Krea‑dev_ComfyUI。

鳴謝#

該工作流程實現並建立在以下作品和資源之上。我們感謝Qwen Image Edit的創作者提供模型，Wan 2.2的開發者提供模型，以及“創建連貫場景（Qwen Image Edit & Wan 2.2）Youtube教程”的作者（@Benji’s AI Playground）提供的貢獻和維護。欲了解權威詳情，請參閱以下鏈接的原始文檔和存儲庫。

資源#

YouTube/創建連貫場景（Qwen Image Edit & Wan 2.2）
- 文檔/發行說明 @Benji’s AI Playground: 創建連貫場景（Qwen Image Edit & Wan 2.2）Youtube教程

注意：引用的模型、數據集和代碼的使用受其作者和維護者提供的相應許可和條款的約束。

Want More ComfyUI Workflows?

Wan 2.2 | 開源影片生成領導者

現在可用！更好的精度 + 更平滑的運動。

Wan 2.2 FLF2V | 首末幀視頻生成

使用 Wan 2.2 FLF2V 從開始和結束幀生成流暢視頻。

Wan 2.2 + Lightx2v V2 | 超高速 I2V & T2V

雙重 Light LoRA 組合，速度提升 4 倍。

Wan 2.2 VACE | 姿勢控制的視頻生成器

使用基於姿勢的控制將靜止圖像轉換為令人驚嘆的動作。

Wan 2.1 Ditto | 電影風格視頻重新設計生成器

將視頻轉變為驚人的藝術風格，保持完美的運動流暢度。

SUPIR | 照片真實感影像/視頻放大器

SUPIR 啟用照片真實感影像修復，兼容 SDXL 模型，並支持文本提示增強。

ACE-Step 1.5XL Base 文本到音樂 | AI 音頻生成器

立即將您的文本轉換為純 AI 創作的音樂。

Wan2.2 Fun Inp | 電影感視頻生成器

從兩張圖片到驚豔視頻，過渡平滑且可控。

關注我們

支持

資源

法律

RunComfy

RunComfy 是首選的 ComfyUI 平台，提供 ComfyUI 在線環境和服務，以及 ComfyUI 工作流程具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。

創建連貫場景 | 一致的故事藝術生成器