創建連貫場景(Qwen Image Edit & Wan 2.2)是一個適合生產的ComfyUI工作流程,用於構建以故事為驅動的多鏡頭視頻,其中角色、照明和構圖從一個鏡頭到另一個鏡頭保持一致。它將Qwen Image Edit用於精確的、參考指導的靜止圖像與Wan 2.2的圖像到視頻的電影運動相結合,然後讓您拼接場景,使用幀插值平滑運動,並添加生成的擬音效果以完成。適合敘事藝術、動畫、預視和概念卷軸,該工作流程幫助您從單一的建立關鍵幀轉變為連貫的序列,手動潤飾最少。
該流程分為三部分:第一部分創建和編輯連貫的關鍵幀,第二部分使用Wan 2.2為每個鏡頭動畫並將它們合成一個剪輯,第三部分生成場景感知的擬音效果。在本README中,您看到的任何地方的創建連貫場景(Qwen Image Edit & Wan 2.2),都指的是完整的端到端過程。
整體邏輯
模型加載器
設置
第1部分 — 文本到圖像的建立關鍵幀
第1部分 — Qwen圖像編輯下一場景關鍵幀
場景輸入(1–6)
場景采樣(1–6)
合併場景
可選幀插值
第3部分 — 視頻到音頻擬音
WanImageToVideo (#111)
將單個參考幀轉換為連貫的潛在視頻,同時尊重正面和負面文本。用於設置每個鏡頭的持續時間和畫布大小,並提供您想要動畫化的起始圖像。由Wan 2.2 I2V 14B模型支持,打包於此:Comfy‑Org/Wan_2.2_ComfyUI_Repackaged。
TextEncodeQwenImageEditPlus (#360)
將“下一場景”指令與參考圖像一起編碼,以便編輯遵循故事但匹配身份和照明。保持場景中的名詞和風格標籤一致,以加強連續性。模型參考:Comfy‑Org/Qwen‑Image‑Edit_ComfyUI和Comfy‑Org/Qwen‑Image_ComfyUI。
KSamplerAdvanced (#159)
每個動畫場景的核心去噪器。該工作流程鏈接三個采樣器,目標是不同的噪聲方案和LoRA混合,以提高時間穩定性。如果更改步驟或種子,請在鏈接的采樣器中統一更改,以保持運動行為可預測。
ImageBatchMulti (#308)
將場景幀批次收集到一個長時間軸中。使用它在導出前對場景進行重新排序、刪除或交換,而不需觸碰采樣路徑。
RIFE VFI (#94)
執行幀插值以提高感知幀率。它對於慢速相機移動和流暢的主題運動特別有效。參考:hzwer/Practical‑RIFE。
HunyuanFoleySampler (#331)
從幀加上簡短的文本提示生成同步擬音,然後將音頻傳遞給視頻合成器。關於模型詳細信息和文件,請參見phazei/HunyuanVideo‑Foley。
該工作流程實現並建立在以下作品和資源之上。我們感謝Qwen Image Edit的創作者提供模型,Wan 2.2的開發者提供模型,以及“創建連貫場景(Qwen Image Edit & Wan 2.2)Youtube教程”的作者(@Benji’s AI Playground)提供的貢獻和維護。欲了解權威詳情,請參閱以下鏈接的原始文檔和存儲庫。
注意:引用的模型、數據集和代碼的使用受其作者和維護者提供的相應許可和條款的約束。
RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Playground, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。