logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
Loading...
ComfyUI>工作流程>InfiniteTalk | 口型同步化身生成器

InfiniteTalk | 口型同步化身生成器

Workflow Name: RunComfy/InfiniteTalk
Workflow ID: 0000...1278
使用 InfiniteTalk 工作流程,您可以從肖像和語音創建逼真的化身影片,保持一致的身份、準確的口型同步,以及由 MultiTalk AI 模型驅動的可自訂動畫。

ComfyUI InfiniteTalk Workflow

ComfyUI InfiniteTalk Workflow | Audio-Portrait to Lip-Synced Video
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI InfiniteTalk Examples

ComfyUI InfiniteTalk Description

InfiniteTalk: 在 ComfyUI 中從單一圖像生成口型同步的肖像影片

這個 ComfyUI InfiniteTalk 工作流程從單一參考圖像加上一段音頻剪輯創建自然、語音同步的肖像影片。它結合了 WanVideo 2.1 圖像到影片的生成技術與 MultiTalk 說話頭模型,以產生豐富的口腔動作和穩定的身份。如果您需要短社交剪輯、影片配音或化身更新,InfiniteTalk 能在幾分鐘內將靜態照片轉化為流暢的講話影片。

InfiniteTalk 基於 MeiGen-AI 的卓越 MultiTalk 研究。背景和歸屬請參見開源項目:。

Comfyui InfiniteTalk 工作流程中的關鍵模型

  • MultiTalk (GGUF, InfiniteTalk 變體): 從音頻驅動音素感知的面部動作,讓口和下巴的動作自然跟隨語音。參考: 和上游想法:。
  • WanVideo 2.1 I2V 14B (GGUF): 主要的圖像到影片生成器,能在動畫幀中保留身份、光照和姿勢。推薦權重:。
  • Wan 2.1 VAE (bf16): 將潛在幀解碼為 RGB,顏色偏移最小;在上述 WanVideo 包中提供。
  • UMT5-XXL 文本編碼器: 解析您的正面和負面提示以推動風格、場景和動作上下文。模型家族:。
  • CLIP Vision: 從您的參考圖像中提取視覺嵌入,鎖定身份和整體外觀。
  • Wav2Vec2 (Tencent GameMate): 將原始語音轉化為強大的音頻特徵以改進 MultiTalk 嵌入的同步和韻律:。

提示:此 InfiniteTalk 圖表是為 GGUF 構建的。保持 InfiniteTalk MultiTalk 權重和 WanVideo 主體在 GGUF 中以避免不兼容。也可選擇使用 fp8/fp16 構建: 和 。


如何使用 Comfyui InfiniteTalk 工作流程

該工作流程從左到右運行。您需要提供三樣東西:乾淨的肖像圖像、一個語音音頻文件和一個簡短的提示來引導風格。然後圖表提取文本、圖像和音頻提示,將它們融合成動作感知的影片潛在變量,並渲染一個同步的 MP4。

模型

這一組加載 WanVideo、VAE、MultiTalk、CLIP Vision 和文本編碼器。WanVideoModelLoader (#122) 選擇 Wan 2.1 I2V 14B GGUF 主體,而 WanVideoVAELoader (#129) 準備匹配的 VAE。MultiTalkModelLoader (#120) 加載驅動語音驅動動作的 InfiniteTalk 變體。您可以選擇性地在 WanVideoLoraSelect (#13) 中附加 Wan LoRA 以偏向外觀和動作。保持這些不變以進行快速首次運行;它們已預先連接到對大多數 GPU 友好的 480p 管道。

提示

WanVideoTextEncodeCached (#241) 接受您的正面和負面提示並使用 UMT5 進行編碼。使用正面提示描述主題和場景基調,而不是身份;身份來自參考照片。將負面提示集中在您想要避免的人工製品上(模糊、多餘的肢體、灰色背景)。InfiniteTalk 中的提示主要塑造光線和運動能量,而面部保持一致。

輸入圖像

CLIPVisionLoader (#238) 和 WanVideoClipVisionEncode (#237) 嵌入您的肖像。使用清晰、正面的頭肩照片,光線均勻。如有需要,輕輕裁剪使面部有活動空間;過度裁剪可能會使動作不穩定。圖像嵌入被向前傳遞,以在影片動畫中保留身份和服裝細節。

音頻到 MultiTalk

在 LoadAudio (#125) 中加載您的語音;使用 AudioCrop (#159) 修剪以進行快速預覽。DownloadAndLoadWav2VecModel (#137) 獲取 Wav2Vec2,MultiTalkWav2VecEmbeds (#194) 將剪輯轉化為音素感知的動作特徵。短的 4-8 秒剪輯非常適合迭代;一旦您喜歡外觀,可以運行較長的剪輯。乾淨、無背景音樂的聲音效果最佳;強烈的背景音樂可能會混淆口型時序。

圖像到影片、採樣和輸出

WanVideoImageToVideoMultiTalk (#192) 將您的圖像、CLIP Vision 嵌入和 MultiTalk 融合到由 Width 和 Height 常數設定大小的幀圖像嵌入中。WanVideoSampler (#128) 使用 Get_wanmodel 和您的文本嵌入生成潛在幀。WanVideoDecode (#130) 將潛在變量轉換為 RGB 幀。最後,VHS_VideoCombine (#131) 將幀和音頻混合成每秒 25 幀的 MP4,並設置平衡的質量設置,生成最終的 InfiniteTalk 剪輯。


Comfyui InfiniteTalk 工作流程中的關鍵節點

WanVideoImageToVideoMultiTalk (#192)

這個節點是 InfiniteTalk 的核心:它通過合併起始圖像、CLIP Vision 特徵和 MultiTalk 指導來調節說話頭動畫,達到您的目標分辨率。調整 width 和 height 設置比例;832×480 是速度和穩定性的良好默認值。用它作為主要位置來在採樣之前對齊身份和運動。

MultiTalkWav2VecEmbeds (#194)

將 Wav2Vec2 特徵轉化為 MultiTalk 動作嵌入。如果口腔動作過於微妙,請在此階段提高其影響力(音頻縮放);如果過度誇張,則降低影響力。確保音頻以語音為主,以獲得可靠的音素時序。

WanVideoSampler (#128)

給定圖像、文本和 MultiTalk 嵌入生成影片潛在變量。對於首次運行,保持默認的調度器和步驟。如果看到閃爍,增加總步驟或啟用 CFG 可以幫助;如果運動感覺太僵硬,則減少 CFG 或採樣器強度。

WanVideoTextEncodeCached (#241)

使用 UMT5-XXL 編碼正面和負面提示。使用簡潔、具體的語言,如 “工作室光、柔和的皮膚、自然色彩”,並將負面提示集中。記住提示細化框架和風格,而口型同步來自 MultiTalk。

可選附加項

  • 保持 MultiTalk 和 WanVideo 在同一部署家族中(全部 GGUF 或全部非 GGUF)以避免不兼容。
  • 使用 5-8 秒的音頻剪輯和默認的 480p 大小進行迭代;如果需要,稍後進行升級。
  • 如果身份不穩定,請嘗試更乾淨的來源照片或較溫和的 LoRA。強 LoRA 可能會覆蓋相似性。
  • 在安靜的房間中錄製語音並標準化音量;InfiniteTalk 在清晰、乾燥的聲音下能最佳追蹤音素。

致謝

InfiniteTalk 工作流程代表了 AI 驅動的影片生成的一大飛躍,將 ComfyUI 靈活的節點系統與 MultiTalk AI 模型相結合。這一實現得益於 MeiGen-AI 的原始研究和發布,其 項目驅動了 InfiniteTalk 的自然語音同步。特別感謝 InfiniteTalk 項目團隊提供的源參考,並感謝 ComfyUI 開發者社區使工作流程無縫集成成為可能。

此外,還要感謝 Kijai,他將 InfiniteTalk 實現於 Wan Video Sampler 節點 中,使創作者能夠直接在 ComfyUI 中製作高質量的講話和演唱肖像。InfiniteTalk 的原始資源鏈接在此提供:。

這些貢獻使得創作者能夠將簡單的肖像轉化為生動、連續的講話化身,為 AI 驅動的敘事、配音和表演內容開啟了新的機會。

Want More ComfyUI Workflows?

Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
關注我們
  • 領英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 電子郵件
  • 系統狀態
  • 附屬
資源
  • 免費 ComfyUI 在線版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 節點
  • 了解更多
法律
  • 服務條款
  • 隱私政策
  • Cookie 政策
RunComfy
版權 2025 RunComfy. 保留所有權利。

RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Playground, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。