logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
Loading...
ComfyUI>工作流程>Wan2.2 S2V | 聲音到影片生成器

Wan2.2 S2V | 聲音到影片生成器

Workflow Name: RunComfy/Wan2.2-S2V
Workflow ID: 0000...1280
此工作流程允許您從聲音和一張圖像創建影片,使得以語音驅動或音樂驅動的視覺效果成為可能。您可以快速生成對話頭像、音樂循環或富有表情的短片,而無需手動動畫。它在保持圖像保真度的同時,將嘴唇和表情與音頻同步。您只需提供語音或音樂以及參考圖像,它就能生成相匹配的影片。簡單的設置意味著更少的調整,更多的創作。它旨在為無縫音頻匹配動畫設計。

ComfyUI Wan2.2 S2V Workflow

Wan2.2 S2V in ComfyUI Workflow | Audio to Talking Video
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI Wan2.2 S2V Examples

ComfyUI Wan2.2 S2V Description

Wan2.2 S2V:從單一圖像在 ComfyUI 中從聲音轉換為影片

Wan2.2 S2V 是一個聲音到影片的工作流程,將一張參考圖像加上一個音頻片段轉換為同步的影片。它以 Wan 2.2 模型家族為核心,專為希望表達性運動、唇同步和場景動態跟隨聲音或語音的創作者設計。使用 Wan2.2 S2V 來製作對話頭像、音樂驅動的循環和快速故事節奏,無需手動動畫。

此 ComfyUI 圖表將音頻特徵與文本提示和靜態圖像結合,生成一個短片,然後將幀與原始音頻混合。結果是一個緊湊且可靠的管道,保持您的參考圖像的外觀,同時讓音頻驅動時間和表達。

Comfyui Wan2.2 S2V 工作流程中的關鍵模型

  • Wan 2.2 S2V UNet (14B, bf16)。核心生成器,融合音頻特徵、文本條件和參考圖像以生成影片潛變。
  • Wan VAE (wan_2.1_vae)。在潛變和像素空間之間編碼/解碼,以在 Wan2.2 S2V 渲染中保留細節和顏色保真度。
  • UMT5-XXL 文本編碼器。提供樣式和內容的提示條件;請參閱基礎模型卡:。
  • Wav2Vec2 大型音頻編碼器。提取堅固的語音和節奏特徵以進行聲音條件生成;請參閱典型卡片如 。

如何使用 Comfyui Wan2.2 S2V 工作流程

工作流程組織為三個組。您可以端到端運行它們或根據需要調整每個階段。

1) 輸入

此組加載 Wan 的文本、圖像和 VAE 組件,並準備您的提示。使用 CLIPLoader (#38) 與 CLIPTextEncode (#6) 作為正面提示,CLIPTextEncode (#7) 作為負面提示來引導樣式和質量。使用 LoadImage (#52) 加載您的參考圖像;這為 Wan2.2 S2V 錨定身份、框架和調色板。保持正面提示描述性但簡潔,以便音頻保持對運動的控制。VAE (VAELoader (#39)) 和模型加載器 (UNETLoader (#37)) 是預接線的,通常保持不變。

2) 加載 TTS 音頻或自定義音頻

選擇您如何提供音頻。對於快速測試,使用 UnifiedTTSTextNode (#71) 生成語音,並使用 PreviewAudio (#65) 預覽。要使用自己的音樂或對話,使用 LoadAudio (#78) 加載本地文件或 VHS_LoadAudioUpload (#87) 上傳;兩者都提供 Reroute (#88),以便下游節點看到單一音頻源。持續時間由 Audio Duration (mtb) (#68) 測量,然後由 MathExpression|pysssss (#67) 標記為“音頻到 16 FPS 的幀數”轉換為幀數。音頻特徵由 AudioEncoderLoader (#57) 和 AudioEncoderEncode (#56) 生成,兩者一起為 Wan2.2 S2V 節點提供 AUDIO_ENCODER_OUTPUT。

3) KSampler 和輸出

WanSoundImageToVideo (#55) 是 Wan2.2 S2V 的核心。它消耗您的提示、VAE、音頻特徵、參考圖像和一個 length 整數(幀)以發出條件潛變序列。該潛變傳遞到 KSampler (#3),其採樣器設置控制整體一致性和細節,同時尊重音頻驅動的時間。採樣的潛變由 VAEDecode (#8) 解碼為幀,然後 VHS_VideoCombine (#66) 組裝影片並混合您的原始音頻以生成 MP4。ModelSamplingSD3 (#54) 用於設置 Wan 主幹的正確採樣器家族。

Comfyui Wan2.2 S2V 工作流程中的關鍵節點

WanSoundImageToVideo (#55)

從單一圖像驅動音頻同步運動。將 ref_image 設置為您想要動畫的肖像或場景,連接編碼器的 audio_encoder_output,並提供幀數的 length。增加 length 以獲得更長的片段或減少以獲得更快速的預覽。如果您在其他位置更改 FPS,請相應更新幀數值以保持時間同步。

AudioEncoderLoader (#57) 和 AudioEncoderEncode (#56)

加載並運行基於 Wav2Vec2 的編碼器,將語音或音樂轉換為 Wan 可以跟隨的特徵。使用清晰的語音進行唇同步,或使用節奏強烈的音頻進行節奏運動。如果您的輸入語言或領域不同,請更換兼容的 Wav2Vec2 檢查點以改善對齊。

CLIPTextEncode (#6) 和 CLIPTextEncode (#7)

UMT5/CLIP 條件的正面和負面提示編碼器。保持正面提示簡潔,專注於主題、樣式和拍攝術語;使用負面提示避免不需要的伺服器。過於強烈的提示可能與音頻對抗,因此偏向輕度引導,讓 Wan2.2 S2V 處理運動。

KSampler (#3)

採樣由 Wan2.2 S2V 節點生成的潛變序列。調整採樣器類型和步驟以在速度和保真度之間進行權衡;當您希望在相同音頻下重現時間時,保持固定種子。如果運動感覺太僵硬或嘈雜,這裡的小改變可以顯著改善時間穩定性。

VHS_VideoCombine (#66)

創建最終影片並附加音頻。設置 frame_rate 以匹配您想要的 FPS 並確認剪輯長度與您的 length 幀匹配。容器、像素格式和質量控制已公開以便快速導出;當您計劃在編輯器中後期處理時使用更高質量。

選擇性附加功能

  • 使用光線充足、正面朝向的參考圖像,以目標的長寬比來最小化身份漂移和裁剪。
  • 為了唇同步,保持嘴巴不被遮擋並使用清晰的旁白;具有強烈瞬變的音樂適合於節拍驅動的運動。
  • 默認的 FPS 轉換假設為16 fps;如果您更改 FPS,請在“音頻到 16 FPS 的幀數”中更新數學,以便幀與音頻持續時間對齊。
  • 使用音頻預覽和 VHS 實時預覽快速迭代,然後在喜歡時間後提高質量。
  • 較長的片段擴展計算和 VRAM;當使用 Wan2.2 S2V 生成多鏡頭影片時,修剪靜音或將長篇腳本拆分為短場景。

致謝

此工作流程實現並構建於以下作品和資源之上。我們感謝 Wan-Video 提供的 Wan2.2 (包括 S2V 推理代碼),Wan-AI 提供的 Wan2.2-S2V-14B,以及 Gao et al. (2025) 提供的 Wan-S2V: Audio-Driven Cinematic Video Generation 的貢獻和維護。欲了解權威詳情,請參考以下鏈接的原始文檔和存儲庫。

資源

  • Wan-Video/Wan2.2 S2V Demo
    • GitHub:
    • Hugging Face:
    • arXiv:
    • Docs / Release Notes:

注意:使用引用的模型、數據集和代碼須遵循其作者和維護者提供的各自許可和條款。

Want More ComfyUI Workflows?

Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
關注我們
  • 領英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 電子郵件
  • 系統狀態
  • 附屬
資源
  • 免費 ComfyUI 在線版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 節點
  • 了解更多
法律
  • 服務條款
  • 隱私政策
  • Cookie 政策
RunComfy
版權 2025 RunComfy. 保留所有權利。

RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Playground, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。