Pose Control LipSync 與 Wan2.2 S2V 在 ComfyUI 中

ComfyUI Pose Control LipSync with Wan2.2 S2V Workflow

Pose Control LipSync with Wan2.2 S2V in ComfyUI | Audio2Video

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Pose Control LipSync with Wan2.2 S2V Examples

Pose Control LipSync 與 Wan2.2 S2V：音頻驅動，姿勢控制的圖像轉視頻，用於表情豐富的化身#

使用 Wan2.2 S2V 的 Pose Control LipSync 將單一圖像、音頻剪輯和姿勢參考視頻轉化為同步的說話表演。你的參考圖像中的角色會跟隨參考視頻的身體運動，而口型動作則與音頻匹配。這個 ComfyUI 工作流程非常適合用於化身、故事場景、預告片、解說視頻和音樂視頻，讓你對姿勢、表情和語音時間點進行緊密控制。

基於 Wan 2.2 S2V 14B 模型家族，該工作流程融合了文本提示、清晰的聲音特徵和姿勢圖來生成具有穩定身份的電影運動。設計簡單易用，同時給予創作者對外觀、節奏和構圖的精細控制。

Comfyui Pose Control LipSync 與 Wan2.2 S2V 工作流程中的關鍵模型#

Wan2.2‑S2V‑14B。核心的語音到視頻生成器，將靜態圖像和音頻轉化為視頻，並可選擇進行姿勢調節以指導運動。請參見官方存儲庫和模型卡以了解功能和使用說明：Wan‑Video/Wan2.2 和 Wan‑AI/Wan2.2‑S2V‑14B。
Wan VAE。Wan 自動編碼器以高保真度編碼和解碼視頻潛在變量，並用於 Wan 2.x 管道。參考實現：Diffusers 中的 Wan 管道 documentation。
Google UMT5‑XXL 文本編碼器。提供強大的多語言文本條件，用於 Wan 管道中的高級場景意圖和風格控制。模型卡：google/umt5‑xxl。
Facebook Wav2Vec2‑Large。提取驅動口型同步和微表情的強大語音特徵。模型卡：facebook/wav2vec2‑large‑960h。
DWPose 與 YOLOX 檢測器。從參考視頻生成人體姿勢關鍵點和姿勢圖以指導全身運動。存儲庫：IDEA‑Research/DWPose 和 Megvii‑BaseDetection/YOLOX。
LightX2V LoRA 用於 Wan。輕量級的 LoRA 用於加速低步驟的圖像到視頻風格去噪，同時保持運動質量；Wan 2.2 支持其去噪器中的 LoRAs。請參閱 Wan Diffusers 關於 LoRA 使用的指導 Wan pipelines。

如何使用 Comfyui Pose Control LipSync 與 Wan2.2 S2V 工作流程#

該工作流程結合了五個部分：模型加載、音頻準備、圖像和姿勢輸入、條件設置和生成。組按從左到右的流程運行，音頻長度自動設置剪輯時長為 16 fps。

模型加載器#

該組加載 Wan 2.2 S2V 模型、其 VAE、UMT5‑XXL 文本編碼器和 LightX2V LoRA。基本變壓器在 UNETLoader (#37) 中初始化，並使用 LoraLoaderModelOnly (#61) 適應以更快的低步驟採樣。Wan VAE 由 VAELoader (#39) 提供。文本編碼器由 CLIPLoader (#38) 提供，該編碼器加載 Wan 參考的 UMT5‑XXL 權重。除非你交換模型文件，否則很少需要觸碰此組。

音頻加載器#

使用 LoadAudio (#58) 放入音頻文件。AudioSeparation (#85) 隔離聲音主幹，以便口型跟隨清晰的語音或歌唱，而不是背景樂器。Audio Duration (mtb) (#70) 測量剪輯，SimpleMath+ (#71) 將時長轉換為 16 fps 的幀數，讓視頻長度與音頻匹配。AudioEncoderEncode (#56) 提供 Wav2Vec2‑Large 編碼器，以便 Wan 能夠將音素映射到嘴型，以實現準確的口型同步。

圖像加載器#

LoadImage (#52) 提供攜帶身份、服裝和攝影機設置的主題靜態圖像。ImageResizeKJv2 (#69) 從圖像中讀取尺寸，以便管道在所有後續階段一致地導出目標寬度和高度。使用清晰、正面朝向的圖像，嘴巴無阻擋，以獲得最忠實的口型動作。

姿勢與攝像機運動#

VHS_LoadVideo (#80) 導入你的姿勢參考視頻。ImageResizeKJv2 (#83) 調整幀以適應目標尺寸，DWPreprocessor (#78) 利用 YOLOX 檢測和 DWPose 關鍵點將它們轉化為姿勢圖。最終的 ImageResizeKJv2 (#81) 在它們作為控制視頻向前傳遞之前，將姿勢幀對齊到生成分辨率。你可以通過路由到 VHS_VideoCombine (#95) 預覽姿勢輸出，這有助於確認參考構圖和時間安排是否適合你的主題。

條件設置#

在 CLIP Text Encode (Positive Prompt) (#6) 中寫入風格和場景意圖，使用 CLIP Text Encode (Negative Prompt) (#7) 來避免不需要的工件。提示引導高級美學和背景運動，而音頻驅動口型動作，姿勢參考控制身體動態。保持提示簡潔，並與你的目標攝影機角度和情緒一致。

採樣與解碼#

WanSoundImageToVideo (#55) 將文本、音頻特徵、參考圖像和姿勢控制視頻融合，然後準備潛在序列。KSamplerAdvanced (#64) 執行適合 LightX2V 風格加速的低步驟去噪，VAEDecode (#8) 重建幀。VHS_VideoCombine (#62) 將幀組合成 MP4，並附加你的原始音頻，讓輸出準備好進行審核或編輯。

Comfyui Pose Control LipSync 與 Wan2.2 S2V 工作流程中的關鍵節點#

`WanSoundImageToVideo` (#55)#

工作流程的核心，利用你的提示、聲音、主題圖像和姿勢控制視頻來調節 Wan2.2‑S2V。調整重要的參數：設置 width、height 和 length 以匹配你的主題圖像和音頻長度，並插入預處理的姿勢視頻以進行運動控制。除非你計劃注入單獨的攝影機軌跡，否則保持 ref_motion 為空。該模型的語音到視頻行為在 Wan‑AI/Wan2.2‑S2V‑14B 和 Wan‑Video/Wan2.2 中進行描述。

`DWPreprocessor` (#78)#

使用 YOLOX 進行檢測和 DWPose 生成全身關鍵點的姿勢圖。強烈的姿勢提示有助於 Wan 跟隨四肢和軀幹，而音頻控制嘴型和表情。如果你的參考有大量的攝影機運動，請使用一個與預期表演的觀點和時間一致的姿勢視頻。DWPose 及其變體在 IDEA‑Research/DWPose 中有記錄。

`KSamplerAdvanced` (#64)#

執行潛在序列的去噪處理。加載 LightX2V LoRA 時，你可以保持步驟較低以快速預覽，同時保持運動連貫性；當追求最大細節時，增加步驟。調度選擇影響運動的平滑度與清晰度，應與 LoRA 使用一起進行調整，如 Wan 在 Diffusers documentation 中所述。

`VHS_LoadVideo` (#80)#

導入並擦除你的姿勢參考。使用其節點內的幀選擇工具選擇與你的音頻段相匹配的確切片段。保持構圖和主題大小與參考圖像一致將穩定運動轉移。該節點屬於 VideoHelperSuite：ComfyUI‑VideoHelperSuite。

`VHS_VideoCombine` (#62)#

將生成的幀和你的音頻組合成 MP4，並保存工作流程元數據。將輸出幀率設置為 16 fps，以匹配此工作流程中從音頻時長計算的幀數。根據你的資產管理需求禁用或啟用元數據保存。請參見 VideoHelperSuite 文檔 ComfyUI‑VideoHelperSuite。

`AudioSeparation` (#85)#

隔離聲音，以便 Wav2Vec2 特徵驅動嘴型，而不受樂器或特效的干擾。如果你的輸入已經是清晰的語音，你可以跳過分離。為了獲得最佳效果，保持音頻水平一致並最小化混響。

可選附加項#

為了獲得最佳的口型同步，優先選擇清晰的語音或無伴奏合唱。Wav2Vec2 在 16 kHz 下工作；大多數管道會自動重採樣，但提供 16 kHz 文件會有所幫助。
使用光線充足、正面朝向的主題圖像，露出牙齒和嘴唇。遮擋會降低準確性。
將姿勢參考的構圖和運動與你的主題匹配。當姿勢視頻的長度與音頻段匹配時，較大的攝影機運動效果最佳。
從 480p 開始快速迭代；移至 720p 獲得最終質量。Wan 2.2 支持 S2V 中的這兩種分辨率。
保持提示簡短，並與你的圖像和姿勢參考中的攝影機設置一致，以避免衝突。
如果你試驗 LoRAs，確保它們與 Wan 2.2 去噪器兼容。請參閱 Wan Diffusers docs 中的 LoRA 說明。

這個 Pose Control LipSync 與 Wan2.2 S2V 工作流程讓你能夠快速從音頻和靜態圖像生成一個可控、合拍的表演，看起來協調且表情豐富。

致謝#

此工作流程實現並基於以下作品和資源。我們對 Pose Control LipSync 與 Wan2.2 S2VDemo 的 @ArtOfficialLabs 的貢獻和維護表示感謝。欲了解權威細節，請參閱以下鏈接的原始文檔和存儲庫。

資源#

YouTube/Pose Control LipSync 與 Wan2.2 S2VDemo
- Docs / Release Notes from @ArtOfficialLabs: Pose Control LipSync 與 Wan2.2 S2VDemo

注意：使用引用的模型、數據集和代碼需遵循其作者和維護者提供的相應許可和條款。

Want More ComfyUI Workflows?

Wan 2.2 | 開源影片生成領導者

現在可用！更好的精度 + 更平滑的運動。

Wan 2.2 + Lightx2v V2 | 超高速 I2V & T2V

雙重 Light LoRA 組合，速度提升 4 倍。

Wan 2.2 FLF2V | 首末幀視頻生成

使用 Wan 2.2 FLF2V 從開始和結束幀生成流暢視頻。

Wan 2.2 Lightning T2V I2V | 4 步驟超高速

Wan 2.2 現在速度提升 20 倍！T2V + I2V 僅需 4 步。

Wan2.2 S2V | 聲音到影片生成器

將您的音頻片段從一張圖像轉換為逼真且同步的影片

LTX 2.3 Sulphur 圖像轉影片工作流程 | Cinematic Generator

快速且平滑地將靜態圖像轉換為電影運動場景。

CCSR | 一致性影像/視頻放大器

CCSR 模型透過更專注於內容一致性來增強影像和視頻的放大效果。

AnimateDiff + ControlNet | 卡通風格

讓您的視頻增添趣味性，將其轉換成生動的卡通。

關注我們

支持

資源

法律

RunComfy

RunComfy 是首選的 ComfyUI 平台，提供 ComfyUI 在線環境和服務，以及 ComfyUI 工作流程具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。

Pose Control LipSync S2V | 表情豐富的視頻生成器