工作流程教程
Wan 2.2 動畫:角色交換與唇同步
將任何鏡頭前的講者替換為您自己的角色,同時保持動作、表情和嘴型與原始音頻對齊。這個以 Wan 2.2 動畫:角色交換與唇同步為核心的 ComfyUI 工作流程,從輸入視頻中檢測身體姿勢和面部幀,並將其重新定向到單一參考圖像,呈現出一致的、語音同步的結果。
這個工作流程適合那些希望在採訪、影片、VTubing、幻燈片或配音短片中進行可靠角色替換的編輯者、創作者和研究人員。提供一個源剪輯和一個乾淨的參考圖像;管道會在新角色上重新創建姿勢和唇部表達,並將原始音軌混合到最終輸出中。
Comfyui Wan 2.2 動畫:角色交換與唇同步工作流程中的關鍵模型
- Wan 2.2 Animate 14B (FP8 scaled):合成重新定向角色的核心視頻生成器,使用姿勢、面部和上下文信號。Model hub
- Wan 2.1 VAE (bf16):在採樣和輸出過程中由 Wan 使用的視頻潛在編碼/解碼器。Weights
- UMT5‑XXL Text Encoder (bf16):構建文本嵌入以進行輕量提示或鏡頭描述。Weights
- CLIP Vision H:從參考肖像中提取堅固的圖像特徵以保留身份。Weights
- Lightx2v I2V 14B LoRA:在使用參考幀驅動時改進圖像到視頻的穩定性和保真度。LoRA
- Wan22 Relight LoRA:幫助在鏡頭中保持一致的陰影和重新照明。LoRA
- YOLOv10m (ONNX):在姿勢估計之前使用的快速人臉檢測。Model
- ViTPose WholeBody Large (ONNX):高質量的骨架關鍵點,用於全身運動轉移。Model
- Segment Anything 2.1:用於創建指導替換的乾淨前景蒙版的分割。Repo
如何使用 Comfyui Wan 2.2 動畫:角色交換與唇同步工作流程
該圖表通過七個組來運行:加載輸入、構建參考、預處理姿勢/面部和蒙版、加載生成模型、運行角色替換、預覽診斷,然後導出帶有音頻。
加載視頻
使用 VHS_LoadVideo (#63) 導入您的源剪輯。該節點提供可選的寬度/高度進行調整大小,並輸出視頻幀、音頻和幀數以供下游使用。如果您希望更快的處理速度,請將剪輯修剪至接近講話部分。音頻會被傳遞給導出器,以便最終視頻保持與原始音軌對齊。
參考圖像
提供目標角色的單一乾淨肖像。使用 ImageResizeKJv2 (#64) 將圖像調整為符合您的工作分辨率,並作為 CLIP Vision 和生成器使用的標準參考。選擇一個清晰、正面朝向且光線類似於您的源鏡頭的圖像,以減少顏色和陰影漂移。
預處理
OnnxDetectionModelLoader (#178) 加載 YOLO 和 ViTPose,然後 PoseAndFaceDetection (#172) 分析每幀以產生全身關鍵點和每幀面部裁剪。Sam2Segmentation (#104) 使用檢測的邊界框或關鍵幀點創建前景蒙版;如果一個提示失敗,請切換到另一個以獲得更好的分離。蒙版使用 GrowMaskWithBlur (#182) 進行精細化,並使用 BlockifyMask (#108) 進行區塊化,為生成器提供穩定且明確的主題區域。選擇性的覆蓋 (DrawViTPose (#173) 和 DrawMaskOnImage (#99)) 幫助您在生成之前視覺驗證姿勢覆蓋和蒙版質量。
模型
WanVideoModelLoader (#22) 加載 Wan 2.2 Animate 14B,WanVideoVAELoader (#38) 提供 VAE。身份特徵由 CLIPVisionLoader (#71) 和 WanVideoClipVisionEncode (#70) 從參考肖像中編碼。樣式和穩定性由 WanVideoLoraSelectMulti (#171) 調整,同時 WanVideoSetLoRAs (#48) 和 WanVideoSetBlockSwap (#50) 將 LoRAs 和區塊交換設置應用於模型;這些工具來自 Wan 包裝庫。請參閱 ComfyUI‑WanVideoWrapper 以獲取實施細節。
角色替換
WanVideoTextEncodeCached (#65) 接受一個簡短的描述性提示,如果您希望調整外觀或鏡頭氛圍。WanVideoAnimateEmbeds (#62) 將參考圖像、每幀姿勢、面部裁剪、背景和蒙版融合成圖像嵌入,保留身份的同時匹配動作和嘴型。然後 WanVideoSampler (#27) 渲染幀;其調度程序和步驟控制清晰度與運動的權衡。從 WanVideoDecode (#28) 解碼的幀交給尺寸/計數檢查器,以便您在導出之前確認尺寸。
結果拼貼
為快速質量檢查,工作流程使用 ImageConcatMulti (#77, #66) 將關鍵輸入串聯成一個簡單的對比條,包含參考、面部裁剪、姿勢可視化和原始幀。用於在測試通過後快速檢查身份提示和嘴型。
輸出
VHS_VideoCombine (#30) 生成最終視頻並混合原始音頻以保持完美時間。包含其他導出器,以便您可以在需要時保存中間診斷或替代剪輯。對於較長的剪輯,先導出一個短測試,然後在提交完整渲染之前迭代 LoRA 混合和蒙版以獲得最佳結果。
Comfyui Wan 2.2 動畫:角色交換與唇同步工作流程中的關鍵節點
VHS_LoadVideo (#63) 一步加載幀和原始音頻。使用它設置符合您 GPU 預算的工作分辨率,並確認下游節點將消耗的幀數。來自 ComfyUI‑VideoHelperSuite。
PoseAndFaceDetection (#172) 運行 YOLO 和 ViTPose 以提取人物框、全身關鍵點和每幀面部裁剪。好的關鍵點是可信運動轉移的骨幹,並直接用於唇部表達。來自 ComfyUI‑WanAnimatePreprocess。
Sam2Segmentation (#104) 使用邊界框或關鍵幀點提示構建環繞主題的前景蒙版。如果頭髮或手被漏掉,請切換提示類型或在區塊化之前擴大模糊/增長設置。來自 ComfyUI‑segment‑anything‑2。
WanVideoLoraSelectMulti (#171) 允許您混合 LoRAs,如 Lightx2v 和 Wan22 Relight,以平衡運動穩定性、光線一致性和身份強度。增加 LoRA 的權重以獲得更多影響,但注意面部過度風格化。來自 ComfyUI‑WanVideoWrapper。
WanVideoAnimateEmbeds (#62) 將參考肖像、姿勢圖像、面部裁剪、背景幀和蒙版組合成一個緊湊的表示,條件化 Wan 2.2 動畫。確保 width、height 和 num_frames 與您打算的導出匹配,以避免重新採樣伪影。來自 ComfyUI‑WanVideoWrapper。
WanVideoSampler (#27) 生成最終幀。當您需要更清晰的細節時,使用更高的步驟和更穩定的調度程序,或者使用較輕的計劃進行快速預覽。對於非常長的剪輯,您可以選擇通過接線 WanVideoContextOptions (#110) 引入上下文窗口控件,以保持窗口間的時間一致性。
VHS_VideoCombine (#30) 導出完成的視頻並混合原始音頻以保持唇部運動同步。修剪到音頻選項保持持續時間與音軌對齊。來自 ComfyUI‑VideoHelperSuite。
可選額外功能
- 使用銳利、正面對齊的參考,嘴唇自然,以獲得最乾淨的身份轉移;避免濃妝或遮擋。
- 如果分割未捕捉到頭髮或配件,嘗試在
Sam2Segmentation提示之間切換邊界框和關鍵幀點,然後在區塊化之前稍微增大蒙版。 - Lightx2v LoRA 改善 I2V 穩定性;Wan22 Relight LoRA 幫助匹配不一致的光線。小的權重變化可以解決閃爍而不會過度風格化。
- 區塊交換可以減少長鏡頭的身份漂移;如果面部隨時間變軟,請在
WanVideoSetBlockSwap(#50) 中啟用它並重新測試。 - 保持工作分辨率與源比例,以防止縱橫比失真;僅在參考圖像細節足夠支持時進行放大。
- 對於有能力的運行時,啟用 torch 編譯和包裝節點中的高效注意力可以加速採樣;請參閱 ComfyUI‑WanVideoWrapper 以獲取指導。
這個 Wan 2.2 動畫:角色交換與唇同步工作流程,提供一致的運動轉移和語音同步的嘴型,設定簡單,使高質量的角色交換在 ComfyUI 中快速且可重複。
感謝
這個工作流程實現並構建在以下作品和資源之上。我們誠摯感謝 @MDMZ 建立整個工作流程,Kijai 為 WAN 2.2 動畫和相關 ComfyUI 節點,Wan-AI 提供 Wan2.2-Animate 資產包括 YOLOv10m 檢測,以及 Comfy-Org 提供 Wan 2.1 Clip Vision 模型的貢獻和維護。欲了解權威細節,請參閱以下鏈接的原始文檔和存儲庫。
資源
- 工作流程教程
- Youtube: ComfyUI-Tutorial from @MDMZ
注意:引用的模型、數據集和代碼的使用受其作者和維護者提供的各自許可和條款的約束。

