將任何鏡頭前的講者替換為您自己的角色,同時保持動作、表情和嘴型與原始音頻對齊。這個以 Wan 2.2 動畫:角色交換與唇同步為核心的 ComfyUI 工作流程,從輸入視頻中檢測身體姿勢和面部幀,並將其重新定向到單一參考圖像,呈現出一致的、語音同步的結果。
這個工作流程適合那些希望在採訪、影片、VTubing、幻燈片或配音短片中進行可靠角色替換的編輯者、創作者和研究人員。提供一個源剪輯和一個乾淨的參考圖像;管道會在新角色上重新創建姿勢和唇部表達,並將原始音軌混合到最終輸出中。
該圖表通過七個組來運行:加載輸入、構建參考、預處理姿勢/面部和蒙版、加載生成模型、運行角色替換、預覽診斷,然後導出帶有音頻。
使用 VHS_LoadVideo (#63) 導入您的源剪輯。該節點提供可選的寬度/高度進行調整大小,並輸出視頻幀、音頻和幀數以供下游使用。如果您希望更快的處理速度,請將剪輯修剪至接近講話部分。音頻會被傳遞給導出器,以便最終視頻保持與原始音軌對齊。
提供目標角色的單一乾淨肖像。使用 ImageResizeKJv2 (#64) 將圖像調整為符合您的工作分辨率,並作為 CLIP Vision 和生成器使用的標準參考。選擇一個清晰、正面朝向且光線類似於您的源鏡頭的圖像,以減少顏色和陰影漂移。
OnnxDetectionModelLoader (#178) 加載 YOLO 和 ViTPose,然後 PoseAndFaceDetection (#172) 分析每幀以產生全身關鍵點和每幀面部裁剪。Sam2Segmentation (#104) 使用檢測的邊界框或關鍵幀點創建前景蒙版;如果一個提示失敗,請切換到另一個以獲得更好的分離。蒙版使用 GrowMaskWithBlur (#182) 進行精細化,並使用 BlockifyMask (#108) 進行區塊化,為生成器提供穩定且明確的主題區域。選擇性的覆蓋 (DrawViTPose (#173) 和 DrawMaskOnImage (#99)) 幫助您在生成之前視覺驗證姿勢覆蓋和蒙版質量。
WanVideoModelLoader (#22) 加載 Wan 2.2 Animate 14B,WanVideoVAELoader (#38) 提供 VAE。身份特徵由 CLIPVisionLoader (#71) 和 WanVideoClipVisionEncode (#70) 從參考肖像中編碼。樣式和穩定性由 WanVideoLoraSelectMulti (#171) 調整,同時 WanVideoSetLoRAs (#48) 和 WanVideoSetBlockSwap (#50) 將 LoRAs 和區塊交換設置應用於模型;這些工具來自 Wan 包裝庫。請參閱 ComfyUI‑WanVideoWrapper 以獲取實施細節。
WanVideoTextEncodeCached (#65) 接受一個簡短的描述性提示,如果您希望調整外觀或鏡頭氛圍。WanVideoAnimateEmbeds (#62) 將參考圖像、每幀姿勢、面部裁剪、背景和蒙版融合成圖像嵌入,保留身份的同時匹配動作和嘴型。然後 WanVideoSampler (#27) 渲染幀;其調度程序和步驟控制清晰度與運動的權衡。從 WanVideoDecode (#28) 解碼的幀交給尺寸/計數檢查器,以便您在導出之前確認尺寸。
為快速質量檢查,工作流程使用 ImageConcatMulti (#77, #66) 將關鍵輸入串聯成一個簡單的對比條,包含參考、面部裁剪、姿勢可視化和原始幀。用於在測試通過後快速檢查身份提示和嘴型。
VHS_VideoCombine (#30) 生成最終視頻並混合原始音頻以保持完美時間。包含其他導出器,以便您可以在需要時保存中間診斷或替代剪輯。對於較長的剪輯,先導出一個短測試,然後在提交完整渲染之前迭代 LoRA 混合和蒙版以獲得最佳結果。
VHS_LoadVideo (#63)
一步加載幀和原始音頻。使用它設置符合您 GPU 預算的工作分辨率,並確認下游節點將消耗的幀數。來自 ComfyUI‑VideoHelperSuite。
PoseAndFaceDetection (#172)
運行 YOLO 和 ViTPose 以提取人物框、全身關鍵點和每幀面部裁剪。好的關鍵點是可信運動轉移的骨幹,並直接用於唇部表達。來自 ComfyUI‑WanAnimatePreprocess。
Sam2Segmentation (#104)
使用邊界框或關鍵幀點提示構建環繞主題的前景蒙版。如果頭髮或手被漏掉,請切換提示類型或在區塊化之前擴大模糊/增長設置。來自 ComfyUI‑segment‑anything‑2。
WanVideoLoraSelectMulti (#171)
允許您混合 LoRAs,如 Lightx2v 和 Wan22 Relight,以平衡運動穩定性、光線一致性和身份強度。增加 LoRA 的權重以獲得更多影響,但注意面部過度風格化。來自 ComfyUI‑WanVideoWrapper。
WanVideoAnimateEmbeds (#62)
將參考肖像、姿勢圖像、面部裁剪、背景幀和蒙版組合成一個緊湊的表示,條件化 Wan 2.2 動畫。確保 width、height 和 num_frames 與您打算的導出匹配,以避免重新採樣伪影。來自 ComfyUI‑WanVideoWrapper。
WanVideoSampler (#27)
生成最終幀。當您需要更清晰的細節時,使用更高的步驟和更穩定的調度程序,或者使用較輕的計劃進行快速預覽。對於非常長的剪輯,您可以選擇通過接線 WanVideoContextOptions (#110) 引入上下文窗口控件,以保持窗口間的時間一致性。
VHS_VideoCombine (#30)
導出完成的視頻並混合原始音頻以保持唇部運動同步。修剪到音頻選項保持持續時間與音軌對齊。來自 ComfyUI‑VideoHelperSuite。
Sam2Segmentation 提示之間切換邊界框和關鍵幀點,然後在區塊化之前稍微增大蒙版。WanVideoSetBlockSwap (#50) 中啟用它並重新測試。這個 Wan 2.2 動畫:角色交換與唇同步工作流程,提供一致的運動轉移和語音同步的嘴型,設定簡單,使高質量的角色交換在 ComfyUI 中快速且可重複。
這個工作流程實現並構建在以下作品和資源之上。我們誠摯感謝 @MDMZ 建立整個工作流程,Kijai 為 WAN 2.2 動畫和相關 ComfyUI 節點,Wan-AI 提供 Wan2.2-Animate 資產包括 YOLOv10m 檢測,以及 Comfy-Org 提供 Wan 2.1 Clip Vision 模型的貢獻和維護。欲了解權威細節,請參閱以下鏈接的原始文檔和存儲庫。
注意:引用的模型、數據集和代碼的使用受其作者和維護者提供的各自許可和條款的約束。
RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Playground, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。