LatentSync 是一個最先進的端到端唇同步框架,它利用音頻條件潛在擴散模型的力量來生成真實的唇同步。LatentSync 的獨特之處在於其能夠直接模型化音頻和視覺組件之間的複雜相關性,而不依賴於任何中間運動表示,從而革新了唇同步合成的方法。
LatentSync 管道的核心是 Stable Diffusion 的整合,這是一個強大的生成模型,以其卓越的捕捉和生成高品質圖像的能力而聞名。通過利用 Stable Diffusion 的能力,LatentSync 能夠有效地學習和重現語音音頻與相應唇部運動之間的複雜動態,從而產生高度準確且令人信服的唇同步動畫。
擴散基唇同步方法的一個主要挑戰是保持生成幀之間的時間一致性,這對於實現真實的結果至關重要。LatentSync 以其突破性的 Temporal REPresentation Alignment (TREPA) 模組正面應對這一挑戰,該模組專為增強唇同步動畫的時間一致性而設計。TREPA 採用先進技術,使用大規模自監督視頻模型從生成的幀中提取時間表示。通過將這些表示與真實幀對齊,LatentSync 的框架確保了高度的時間一致性,從而產生極其流暢且令人信服的唇同步動畫,與音頻輸入緊密匹配。
這是 LatentSync 工作流程,左側節點是上傳視頻的輸入,中間是處理 LatentSync 節點,右側是輸出節點。
視頻調整為 25 FPS,以正確同步音頻模型
LatentSync 以其創新的音視頻生成方法樹立了唇同步的新標杆。通過結合精確性、時間一致性和 Stable Diffusion 的力量,LatentSync 改變了我們創建同步內容的方式。用 LatentSync 重新定義唇同步的可能性。
RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Playground, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。