Wan2.2 S2V 在 ComfyUI 工作流程 | 音頻轉換為對話影片

ComfyUI Wan2.2 S2V Workflow

Wan2.2 S2V in ComfyUI Workflow | Audio to Talking Video

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Wan2.2 S2V Examples

Wan2.2 S2V：從單一圖像在 ComfyUI 中從聲音轉換為影片#

Wan2.2 S2V 是一個聲音到影片的工作流程，將一張參考圖像加上一個音頻片段轉換為同步的影片。它以 Wan 2.2 模型家族為核心，專為希望表達性運動、唇同步和場景動態跟隨聲音或語音的創作者設計。使用 Wan2.2 S2V 來製作對話頭像、音樂驅動的循環和快速故事節奏，無需手動動畫。

此 ComfyUI 圖表將音頻特徵與文本提示和靜態圖像結合，生成一個短片，然後將幀與原始音頻混合。結果是一個緊湊且可靠的管道，保持您的參考圖像的外觀，同時讓音頻驅動時間和表達。

Comfyui Wan2.2 S2V 工作流程中的關鍵模型#

Wan 2.2 S2V UNet (14B, bf16)。核心生成器，融合音頻特徵、文本條件和參考圖像以生成影片潛變。
Wan VAE (wan_2.1_vae)。在潛變和像素空間之間編碼/解碼，以在 Wan2.2 S2V 渲染中保留細節和顏色保真度。
UMT5-XXL 文本編碼器。提供樣式和內容的提示條件；請參閱基礎模型卡：google/umt5-xxl。
Wav2Vec2 大型音頻編碼器。提取堅固的語音和節奏特徵以進行聲音條件生成；請參閱典型卡片如 facebook/wav2vec2-large-960h。

如何使用 Comfyui Wan2.2 S2V 工作流程#

工作流程組織為三個組。您可以端到端運行它們或根據需要調整每個階段。

1) 輸入#

此組加載 Wan 的文本、圖像和 VAE 組件，並準備您的提示。使用 CLIPLoader (#38) 與 CLIPTextEncode (#6) 作為正面提示，CLIPTextEncode (#7) 作為負面提示來引導樣式和質量。使用 LoadImage (#52) 加載您的參考圖像；這為 Wan2.2 S2V 錨定身份、框架和調色板。保持正面提示描述性但簡潔，以便音頻保持對運動的控制。VAE (VAELoader (#39)) 和模型加載器 (UNETLoader (#37)) 是預接線的，通常保持不變。

2) 加載 TTS 音頻或自定義音頻#

選擇您如何提供音頻。對於快速測試，使用 UnifiedTTSTextNode (#71) 生成語音，並使用 PreviewAudio (#65) 預覽。要使用自己的音樂或對話，使用 LoadAudio (#78) 加載本地文件或 VHS_LoadAudioUpload (#87) 上傳；兩者都提供 Reroute (#88)，以便下游節點看到單一音頻源。持續時間由 Audio Duration (mtb) (#68) 測量，然後由 MathExpression|pysssss (#67) 標記為“音頻到 16 FPS 的幀數”轉換為幀數。音頻特徵由 AudioEncoderLoader (#57) 和 AudioEncoderEncode (#56) 生成，兩者一起為 Wan2.2 S2V 節點提供 AUDIO_ENCODER_OUTPUT。

3) KSampler 和輸出#

WanSoundImageToVideo (#55) 是 Wan2.2 S2V 的核心。它消耗您的提示、VAE、音頻特徵、參考圖像和一個 length 整數（幀）以發出條件潛變序列。該潛變傳遞到 KSampler (#3)，其採樣器設置控制整體一致性和細節，同時尊重音頻驅動的時間。採樣的潛變由 VAEDecode (#8) 解碼為幀，然後 VHS_VideoCombine (#66) 組裝影片並混合您的原始音頻以生成 MP4。ModelSamplingSD3 (#54) 用於設置 Wan 主幹的正確採樣器家族。

Comfyui Wan2.2 S2V 工作流程中的關鍵節點#

`WanSoundImageToVideo` (#55)#

從單一圖像驅動音頻同步運動。將 ref_image 設置為您想要動畫的肖像或場景，連接編碼器的 audio_encoder_output，並提供幀數的 length。增加 length 以獲得更長的片段或減少以獲得更快速的預覽。如果您在其他位置更改 FPS，請相應更新幀數值以保持時間同步。

`AudioEncoderLoader` (#57) 和 `AudioEncoderEncode` (#56)#

加載並運行基於 Wav2Vec2 的編碼器，將語音或音樂轉換為 Wan 可以跟隨的特徵。使用清晰的語音進行唇同步，或使用節奏強烈的音頻進行節奏運動。如果您的輸入語言或領域不同，請更換兼容的 Wav2Vec2 檢查點以改善對齊。

`CLIPTextEncode` (#6) 和 `CLIPTextEncode` (#7)#

UMT5/CLIP 條件的正面和負面提示編碼器。保持正面提示簡潔，專注於主題、樣式和拍攝術語；使用負面提示避免不需要的伺服器。過於強烈的提示可能與音頻對抗，因此偏向輕度引導，讓 Wan2.2 S2V 處理運動。

`KSampler` (#3)#

採樣由 Wan2.2 S2V 節點生成的潛變序列。調整採樣器類型和步驟以在速度和保真度之間進行權衡；當您希望在相同音頻下重現時間時，保持固定種子。如果運動感覺太僵硬或嘈雜，這裡的小改變可以顯著改善時間穩定性。

`VHS_VideoCombine` (#66)#

創建最終影片並附加音頻。設置 frame_rate 以匹配您想要的 FPS 並確認剪輯長度與您的 length 幀匹配。容器、像素格式和質量控制已公開以便快速導出；當您計劃在編輯器中後期處理時使用更高質量。

選擇性附加功能#

使用光線充足、正面朝向的參考圖像，以目標的長寬比來最小化身份漂移和裁剪。
為了唇同步，保持嘴巴不被遮擋並使用清晰的旁白；具有強烈瞬變的音樂適合於節拍驅動的運動。
默認的 FPS 轉換假設為16 fps；如果您更改 FPS，請在“音頻到 16 FPS 的幀數”中更新數學，以便幀與音頻持續時間對齊。
使用音頻預覽和 VHS 實時預覽快速迭代，然後在喜歡時間後提高質量。
較長的片段擴展計算和 VRAM；當使用 Wan2.2 S2V 生成多鏡頭影片時，修剪靜音或將長篇腳本拆分為短場景。

致謝#

此工作流程實現並構建於以下作品和資源之上。我們感謝 Wan-Video 提供的 Wan2.2 (包括 S2V 推理代碼)，Wan-AI 提供的 Wan2.2-S2V-14B，以及 Gao et al. (2025) 提供的 Wan-S2V: Audio-Driven Cinematic Video Generation 的貢獻和維護。欲了解權威詳情，請參考以下鏈接的原始文檔和存儲庫。

資源#

Wan-Video/Wan2.2 S2V Demo
- GitHub: Wan-Video/Wan2.2
- Hugging Face: Wan-AI/Wan2.2-S2V-14B
- arXiv: Wan-S2V: Audio-Driven Cinematic Video Generation
- Docs / Release Notes: Wan2.2 S2V Demo

注意：使用引用的模型、數據集和代碼須遵循其作者和維護者提供的各自許可和條款。

Want More ComfyUI Workflows?

EchoMimic | 音頻驅動的肖像動畫

生成與提供音頻同步的真實說話頭像和身體動作。

Mochi 1 | Genmo 文字轉影片

使用 Genmo Mochi 1 模型的文字轉影片演示

Hallo2 | 唇同步肖像動畫

音頻驅動的4K肖像動畫唇同步。

MultiTalk | Photo to Talking Video

毫秒級唇同步 + Wan2.1 = 15秒超詳細對話視頻！

Flux & 10 In-Context LoRA 模型

探索 Flux 和 10 款多功能 In-Context LoRA 模型，用於圖像生成。

Qwen 圖像編輯 | 精準 AI 照片編輯

快速編輯照片，具有風格、重新打光和對象控制的精準度。

AnimateDiff + QR Code ControlNet | 視覺效果 (VFX)

使用 AnimateDiff 和 ControlNet（包含 QRCode Monster 和 Lineart）創建迷人的視覺效果。

Animatediff V2 & V3 | 文字轉視頻

探索 AnimateDiff V3、AnimateDiff SDXL 和 AnimateDiff V2，並使用 Upscale 獲得高解析度結果。

關注我們

支持

資源

法律

RunComfy

RunComfy 是首選的 ComfyUI 平台，提供 ComfyUI 在線環境和服務，以及 ComfyUI 工作流程具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。

Wan2.2 S2V | 聲音到影片生成器