使用 Wan2.2 S2V 的 Pose Control LipSync 將單一圖像、音頻剪輯和姿勢參考視頻轉化為同步的說話表演。你的參考圖像中的角色會跟隨參考視頻的身體運動,而口型動作則與音頻匹配。這個 ComfyUI 工作流程非常適合用於化身、故事場景、預告片、解說視頻和音樂視頻,讓你對姿勢、表情和語音時間點進行緊密控制。
基於 Wan 2.2 S2V 14B 模型家族,該工作流程融合了文本提示、清晰的聲音特徵和姿勢圖來生成具有穩定身份的電影運動。設計簡單易用,同時給予創作者對外觀、節奏和構圖的精細控制。
該工作流程結合了五個部分:模型加載、音頻準備、圖像和姿勢輸入、條件設置和生成。組按從左到右的流程運行,音頻長度自動設置剪輯時長為 16 fps。
該組加載 Wan 2.2 S2V 模型、其 VAE、UMT5‑XXL 文本編碼器和 LightX2V LoRA。基本變壓器在 UNETLoader
(#37) 中初始化,並使用 LoraLoaderModelOnly
(#61) 適應以更快的低步驟採樣。Wan VAE 由 VAELoader
(#39) 提供。文本編碼器由 CLIPLoader
(#38) 提供,該編碼器加載 Wan 參考的 UMT5‑XXL 權重。除非你交換模型文件,否則很少需要觸碰此組。
使用 LoadAudio
(#58) 放入音頻文件。AudioSeparation
(#85) 隔離聲音主幹,以便口型跟隨清晰的語音或歌唱,而不是背景樂器。Audio Duration (mtb)
(#70) 測量剪輯,SimpleMath+
(#71) 將時長轉換為 16 fps 的幀數,讓視頻長度與音頻匹配。AudioEncoderEncode
(#56) 提供 Wav2Vec2‑Large 編碼器,以便 Wan 能夠將音素映射到嘴型,以實現準確的口型同步。
LoadImage
(#52) 提供攜帶身份、服裝和攝影機設置的主題靜態圖像。ImageResizeKJv2
(#69) 從圖像中讀取尺寸,以便管道在所有後續階段一致地導出目標寬度和高度。使用清晰、正面朝向的圖像,嘴巴無阻擋,以獲得最忠實的口型動作。
VHS_LoadVideo
(#80) 導入你的姿勢參考視頻。ImageResizeKJv2
(#83) 調整幀以適應目標尺寸,DWPreprocessor
(#78) 利用 YOLOX 檢測和 DWPose 關鍵點將它們轉化為姿勢圖。最終的 ImageResizeKJv2
(#81) 在它們作為控制視頻向前傳遞之前,將姿勢幀對齊到生成分辨率。你可以通過路由到 VHS_VideoCombine
(#95) 預覽姿勢輸出,這有助於確認參考構圖和時間安排是否適合你的主題。
在 CLIP Text Encode (Positive Prompt)
(#6) 中寫入風格和場景意圖,使用 CLIP Text Encode (Negative Prompt)
(#7) 來避免不需要的工件。提示引導高級美學和背景運動,而音頻驅動口型動作,姿勢參考控制身體動態。保持提示簡潔,並與你的目標攝影機角度和情緒一致。
WanSoundImageToVideo
(#55) 將文本、音頻特徵、參考圖像和姿勢控制視頻融合,然後準備潛在序列。KSamplerAdvanced
(#64) 執行適合 LightX2V 風格加速的低步驟去噪,VAEDecode
(#8) 重建幀。VHS_VideoCombine
(#62) 將幀組合成 MP4,並附加你的原始音頻,讓輸出準備好進行審核或編輯。
WanSoundImageToVideo
(#55)工作流程的核心,利用你的提示、聲音、主題圖像和姿勢控制視頻來調節 Wan2.2‑S2V。調整重要的參數:設置 width
、height
和 length
以匹配你的主題圖像和音頻長度,並插入預處理的姿勢視頻以進行運動控制。除非你計劃注入單獨的攝影機軌跡,否則保持 ref_motion
為空。該模型的語音到視頻行為在 Wan‑AI/Wan2.2‑S2V‑14B 和 Wan‑Video/Wan2.2 中進行描述。
DWPreprocessor
(#78)使用 YOLOX 進行檢測和 DWPose 生成全身關鍵點的姿勢圖。強烈的姿勢提示有助於 Wan 跟隨四肢和軀幹,而音頻控制嘴型和表情。如果你的參考有大量的攝影機運動,請使用一個與預期表演的觀點和時間一致的姿勢視頻。DWPose 及其變體在 IDEA‑Research/DWPose 中有記錄。
KSamplerAdvanced
(#64)執行潛在序列的去噪處理。加載 LightX2V LoRA 時,你可以保持步驟較低以快速預覽,同時保持運動連貫性;當追求最大細節時,增加步驟。調度選擇影響運動的平滑度與清晰度,應與 LoRA 使用一起進行調整,如 Wan 在 Diffusers documentation 中所述。
VHS_LoadVideo
(#80)導入並擦除你的姿勢參考。使用其節點內的幀選擇工具選擇與你的音頻段相匹配的確切片段。保持構圖和主題大小與參考圖像一致將穩定運動轉移。該節點屬於 VideoHelperSuite:ComfyUI‑VideoHelperSuite。
VHS_VideoCombine
(#62)將生成的幀和你的音頻組合成 MP4,並保存工作流程元數據。將輸出幀率設置為 16 fps,以匹配此工作流程中從音頻時長計算的幀數。根據你的資產管理需求禁用或啟用元數據保存。請參見 VideoHelperSuite 文檔 ComfyUI‑VideoHelperSuite。
AudioSeparation
(#85)隔離聲音,以便 Wav2Vec2 特徵驅動嘴型,而不受樂器或特效的干擾。如果你的輸入已經是清晰的語音,你可以跳過分離。為了獲得最佳效果,保持音頻水平一致並最小化混響。
這個 Pose Control LipSync 與 Wan2.2 S2V 工作流程讓你能夠快速從音頻和靜態圖像生成一個可控、合拍的表演,看起來協調且表情豐富。
此工作流程實現並基於以下作品和資源。我們對 Pose Control LipSync 與 Wan2.2 S2VDemo 的 @ArtOfficialLabs 的貢獻和維護表示感謝。欲了解權威細節,請參閱以下鏈接的原始文檔和存儲庫。
注意:使用引用的模型、數據集和代碼需遵循其作者和維護者提供的相應許可和條款。
RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Playground, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。