Wan2.2 S2V 是一個聲音到影片的工作流程,將一張參考圖像加上一個音頻片段轉換為同步的影片。它以 Wan 2.2 模型家族為核心,專為希望表達性運動、唇同步和場景動態跟隨聲音或語音的創作者設計。使用 Wan2.2 S2V 來製作對話頭像、音樂驅動的循環和快速故事節奏,無需手動動畫。
此 ComfyUI 圖表將音頻特徵與文本提示和靜態圖像結合,生成一個短片,然後將幀與原始音頻混合。結果是一個緊湊且可靠的管道,保持您的參考圖像的外觀,同時讓音頻驅動時間和表達。
工作流程組織為三個組。您可以端到端運行它們或根據需要調整每個階段。
此組加載 Wan 的文本、圖像和 VAE 組件,並準備您的提示。使用 CLIPLoader
(#38) 與 CLIPTextEncode
(#6) 作為正面提示,CLIPTextEncode
(#7) 作為負面提示來引導樣式和質量。使用 LoadImage
(#52) 加載您的參考圖像;這為 Wan2.2 S2V 錨定身份、框架和調色板。保持正面提示描述性但簡潔,以便音頻保持對運動的控制。VAE (VAELoader
(#39)) 和模型加載器 (UNETLoader
(#37)) 是預接線的,通常保持不變。
選擇您如何提供音頻。對於快速測試,使用 UnifiedTTSTextNode
(#71) 生成語音,並使用 PreviewAudio
(#65) 預覽。要使用自己的音樂或對話,使用 LoadAudio
(#78) 加載本地文件或 VHS_LoadAudioUpload
(#87) 上傳;兩者都提供 Reroute
(#88),以便下游節點看到單一音頻源。持續時間由 Audio Duration (mtb)
(#68) 測量,然後由 MathExpression|pysssss
(#67) 標記為“音頻到 16 FPS 的幀數”轉換為幀數。音頻特徵由 AudioEncoderLoader
(#57) 和 AudioEncoderEncode
(#56) 生成,兩者一起為 Wan2.2 S2V 節點提供 AUDIO_ENCODER_OUTPUT
。
WanSoundImageToVideo
(#55) 是 Wan2.2 S2V 的核心。它消耗您的提示、VAE、音頻特徵、參考圖像和一個 length
整數(幀)以發出條件潛變序列。該潛變傳遞到 KSampler
(#3),其採樣器設置控制整體一致性和細節,同時尊重音頻驅動的時間。採樣的潛變由 VAEDecode
(#8) 解碼為幀,然後 VHS_VideoCombine
(#66) 組裝影片並混合您的原始音頻以生成 MP4。ModelSamplingSD3
(#54) 用於設置 Wan 主幹的正確採樣器家族。
WanSoundImageToVideo
(#55)從單一圖像驅動音頻同步運動。將 ref_image
設置為您想要動畫的肖像或場景,連接編碼器的 audio_encoder_output
,並提供幀數的 length
。增加 length
以獲得更長的片段或減少以獲得更快速的預覽。如果您在其他位置更改 FPS,請相應更新幀數值以保持時間同步。
AudioEncoderLoader
(#57) 和 AudioEncoderEncode
(#56)加載並運行基於 Wav2Vec2 的編碼器,將語音或音樂轉換為 Wan 可以跟隨的特徵。使用清晰的語音進行唇同步,或使用節奏強烈的音頻進行節奏運動。如果您的輸入語言或領域不同,請更換兼容的 Wav2Vec2 檢查點以改善對齊。
CLIPTextEncode
(#6) 和 CLIPTextEncode
(#7)UMT5/CLIP 條件的正面和負面提示編碼器。保持正面提示簡潔,專注於主題、樣式和拍攝術語;使用負面提示避免不需要的伺服器。過於強烈的提示可能與音頻對抗,因此偏向輕度引導,讓 Wan2.2 S2V 處理運動。
KSampler
(#3)採樣由 Wan2.2 S2V 節點生成的潛變序列。調整採樣器類型和步驟以在速度和保真度之間進行權衡;當您希望在相同音頻下重現時間時,保持固定種子。如果運動感覺太僵硬或嘈雜,這裡的小改變可以顯著改善時間穩定性。
VHS_VideoCombine
(#66)創建最終影片並附加音頻。設置 frame_rate
以匹配您想要的 FPS 並確認剪輯長度與您的 length
幀匹配。容器、像素格式和質量控制已公開以便快速導出;當您計劃在編輯器中後期處理時使用更高質量。
此工作流程實現並構建於以下作品和資源之上。我們感謝 Wan-Video 提供的 Wan2.2 (包括 S2V 推理代碼),Wan-AI 提供的 Wan2.2-S2V-14B,以及 Gao et al. (2025) 提供的 Wan-S2V: Audio-Driven Cinematic Video Generation 的貢獻和維護。欲了解權威詳情,請參考以下鏈接的原始文檔和存儲庫。
注意:使用引用的模型、數據集和代碼須遵循其作者和維護者提供的各自許可和條款。
RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Playground, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。