Wan 2.2 VBVR in ComfyUI: 推理感知的影像到影片生成
ComfyUI 中的 Wan 2.2 VBVR 是一個準備好生產的工作流程,將基於影片的視覺推理帶入 Wan 2.2 影像到影片。它增強了標準的 Wan 2.2 專家混合管道,加入了經過推理調整的模型路徑和可選的 VBVR LoRA 路徑,使您的影片能夠以更強的時間邏輯和場景一致性追蹤物體、動作和因果事件。
專為需要超越美麗畫面的創意指導、模擬和故事節拍而建,此 ComfyUI 工作流程將複雜的提示與結構化運動和多物體互動對齊。您可以選擇純 VBVR 模型路線或在 Wan 2.2 上分層 VBVR 和運動 LoRAs 以提高速度,然後導出準備編輯的 MP4。
Comfyui Wan 2.2 VBVR 工作流程中的關鍵模型
- Wan2.2‑I2V‑A14B (MoE 主幹)。兩位專家專注於高噪音和低噪音階段,並在去噪過程中根據 SNR 切換,提供更高的容量而不增加每步的成本。這是工作流程擴展和混合的主要生成器。模型卡 • 技術細節
- VBVR‑Wan2.2。Wan2.2‑I2V‑A14B 在一個大型影片推理套件上的微調,以提高時間、因果和多物體推理,同時保持架構不變。當您需要最強的推理對齊時使用此模型。模型卡 • 論文
- Wan 2.x VAE。高壓縮影片自動編碼器,能有效重建 480p–720p 的工作流程;Wan 2.2 描述了一種壓縮設計,能快速生成 720p。概覽
- uMT5‑XXL 文本編碼器。強大的多語言 T5 系列編碼器,用於衍生 Wan 2.2 文本和影像到影片管道的提示嵌入。模型卡
- Wan 2.2 的運動和推理 LoRAs。工作流程可以加載 VBVR LoRA 用於推理偏向,和 LightX2V 階段蒸餾的 LoRAs 用於更強的運動幅度和攝影機移動。VBVR LoRA 範例 • LightX2V 集合
如何使用 Comfyui Wan 2.2 VBVR 工作流程
此工作流程提供三種互補路徑。每條路徑從提示和可選的開始影像到影片輸出都是自成一體的,因此您可以測試所有三個,並保留最佳拍攝。
- VBVR 模型路線
- 目的。當您需要最強的影片推理時使用此路線。它運行一對高 SNR 和低 SNR 的 VBVR 校準 Wan 2.2 模型,將去噪計劃分為「佈局」階段和「細節」階段。
- 如何運作。高噪音階段首先在
WanVideoSampler(#173) 中運行,然後其潛在變量流入低噪音階段WanVideoSampler(#172) 以完善運動邏輯和細節。切換由取樣器的start_step和end_step控制,反映 Wan 2.2 的 SNR 閘控專家交接。 - 您設置的內容。如有需要,通過
LoadImage(#67) 提供一個開始影像,並在靠近編碼器的Text節點中編寫您的提示,該編碼器供應WanVideoTextEncode(#170)。使用取樣器旁邊的小整數節點調整幀計數(Int(#168))。 - 輸出。幀由
WanVideoDecode(#164) 解碼並使用VHS_VideoCombine(#176) 組裝為 MP4。
- Wan 2.2 + PainterI2V 路線
- 目的。一條快速、通用的電影運動路徑。它保持標準的 Wan 2.2 I2V 模型,但升級影像調節,使用
PainterI2VforKJ修正 4 步 LoRAs 中常見的慢動作偽影。 - 如何運作。您的開始影像將被調整大小以適應模型,並用
PainterI2VforKJ(#181) 嵌入,然後由WanVideoSampler(#129, #130) 取樣。此路線使用與 VBVR 類似的高噪音和低噪音交接,但堅持使用標準的 Wan 2.2 權重。 - 您設置的內容。在供應
WanVideoTextEncode(#152) 的Text節點中提供您的提示。如果您鏈接一個 LightX2V LoRA,此路線的調節有助於運動感更具意圖。請參閱節點的 readme 以了解其設計目標。PainterI2VforKJ - 輸出。幀由
WanVideoDecode(#142) 解碼並使用VHS_VideoCombine(#154) 保存。
- 目的。一條快速、通用的電影運動路徑。它保持標準的 Wan 2.2 I2V 模型,但升級影像調節,使用
- Wan 2.2 + VBVR LoRA 路線
- 目的。一種快速迭代的混合路線。它在高噪音的 Wan 2.2 模型上分層 VBVR LoRA,在低噪音模型上分層運動 LoRA,讓您在早期獲得推理提示,並在後期提供乾淨的運動潤色。
- 如何運作。高噪音流經
WanVideoSampler(#27),低噪音流經WanVideoSampler(#90);兩者都從WanVideoTextEncode(#16) 接收文本嵌入,並從PainterI2VforKJ(#179) 接收可選的影像調節。LoRAs 在每個階段應用以匹配專家的角色。 - 您設置的內容。將您的提示放入靠近
WanVideoTextEncode(#16) 的Text節點中,如有需要,調整附近標有「Split_step」的小部件的階段分割。VBVR 和 LightX2V LoRAs 可從此組中的 LoRA 節點選擇。VBVR LoRA - 輸出。幀通過
WanVideoDecode(#28) 解碼並通過VHS_VideoCombine(#60) 導出。
Comfyui Wan 2.2 VBVR 工作流程中的關鍵節點
WanVideoModelLoader(#165, #162)- 加載經過 VBVR 校準的高 SNR 和低 SNR Wan 2.2 模型,映射到早期和晚期的去噪專家。保持這對一致,以便 SNR 基於的交接保持穩定。請參閱 Wan 2.2 的 MoE 和 SNR 切換設計以獲得上下文。詳情
WanVideoSampler(#173, #172, #129, #130, #27, #90)- 驅動生成並控制專家分割。調整
steps以在細節與速度之間取得平衡,並調整start_step或end_step以在早期的佈局專家和晚期的細節專家之間轉移工作。使用cfg來交換服從度以獲得運動自由。參考實現位於包裝器的取樣節點中。包裝器儲存庫
- 驅動生成並控制專家分割。調整
PainterI2VforKJ(#178, #181, #179)- 用於替換普通影像到影片調節的運動放大變體,設計用於修正使用 4 步 LightX2V LoRAs 時的慢動作。它增強了攝影機提示和動作節拍,同時保持主體身份。節點 readme
WanVideoTextEncode(#170, #152, #16)- 通過 uMT5‑XXL 編碼器編碼正面和負面提示,使取樣器獲得豐富的多語言語義。保持提示結構清晰;分隔場景、主體、動作和攝影機意圖通常會改善對齊。uMT5
VHS_VideoCombine(#176, #154, #60)- 將解碼的幀組裝成帶有重現性元數據的 MP4。如果您傳遞了音頻,該節點會將其與影片合併。這來自 VideoHelperSuite 的實用節點。VideoHelperSuite
可選附加功能
- 何時選擇每條路線
- VBVR 模型:複雜的互動、因果場景或多物體編舞。
- Wan 2.2 + PainterI2V:動態運動或攝影機優先的故事敘述,使用 LightX2V LoRAs。
- Wan 2.2 + VBVR LoRA:快速預覽,在去噪早期仍受益於推理偏向。
- 在 ComfyUI 中為 Wan 2.2 VBVR 提示的技巧
- 使用簡短的部分如 [SCENE]、[SUBJECT]、[ACTION]、[CAMERA]、[LIGHTING]。這有助於文本編碼器分離意圖。
- 對於物體互動,明確說出誰對誰做了什麼以及以什麼順序。
- LoRA 疊加
- 幀大小和縱橫比
- 接近輸入的
ImageResizeKJv2節點確保 VAE 的乾淨可分性並減少偽影。將您的開始影像縱橫比匹配目標影片,以獲得更流暢的運動傳播。
- 接近輸入的
致謝
此工作流程實施並構建於以下工作和資源之上。我們衷心感謝 @Ai Verse,Wan 2.2 VBVR in ComfyUI Source 的作者,對他們的貢獻和維護表示感謝。欲了解權威詳情,請參閱下面鏈接的原始文檔和儲存庫。
資源
- YouTube/Wan 2.2 VBVR in ComfyUI Source
- 文件 / 發布說明: Wan 2.2 VBVR in ComfyUI Source @Ai Verse
注意:所引用的模型、數據集和代碼的使用需遵循其作者和維護者提供的相應許可和條款。


