LatentSync| 唇同步模型
更新於 2025/6/16:更新 ComfyUI 版本至 v0.3.40,以提高穩定性和兼容性。LatentSync 以音頻條件潛在擴散模型重新定義唇同步,通過繞過中間運動表示實現無縫的音視頻對齊。利用 Stable Diffusion,它捕捉複雜的相關性,同時確保時間的平滑性。不像基於像素的方法,LatentSync 通過其創新的 Temporal REPresentation Alignment (TREPA) 模組確保優越的時間一致性。TREPA 模組幫助提供無與倫比的準確性和真實感。ComfyUI LatentSync 工作流程
ComfyUI LatentSync 範例
ComfyUI LatentSync 說明
LatentSync 是一個最先進的端到端唇同步框架,它利用音頻條件潛在擴散模型的力量來生成真實的唇同步。LatentSync 的獨特之處在於其能夠直接模型化音頻和視覺組件之間的複雜相關性,而不依賴於任何中間運動表示,從而革新了唇同步合成的方法。
LatentSync 管道的核心是 Stable Diffusion 的整合,這是一個強大的生成模型,以其卓越的捕捉和生成高品質圖像的能力而聞名。通過利用 Stable Diffusion 的能力,LatentSync 能夠有效地學習和重現語音音頻與相應唇部運動之間的複雜動態,從而產生高度準確且令人信服的唇同步動畫。
擴散基唇同步方法的一個主要挑戰是保持生成幀之間的時間一致性,這對於實現真實的結果至關重要。LatentSync 以其突破性的 Temporal REPresentation Alignment (TREPA) 模組正面應對這一挑戰,該模組專為增強唇同步動畫的時間一致性而設計。TREPA 採用先進技術,使用大規模自監督視頻模型從生成的幀中提取時間表示。通過將這些表示與真實幀對齊,LatentSync 的框架確保了高度的時間一致性,從而產生極其流暢且令人信服的唇同步動畫,與音頻輸入緊密匹配。
1.1 如何使用 LatentSync 工作流程?
這是 LatentSync 工作流程,左側節點是上傳視頻的輸入,中間是處理 LatentSync 節點,右側是輸出節點。
- 在輸入節點上傳您的視頻。
- 上傳您的對話音頻輸入。
- 點擊渲染!!!
1.2 視頻輸入
- 點擊並上傳包含人臉的參考視頻。
視頻調整為 25 FPS,以正確同步音頻模型
1.3 音頻輸入
- 點擊並在此上傳您的音頻。
LatentSync 以其創新的音視頻生成方法樹立了唇同步的新標杆。通過結合精確性、時間一致性和 Stable Diffusion 的力量,LatentSync 改變了我們創建同步內容的方式。用 LatentSync 重新定義唇同步的可能性。