logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>工作流程>InfiniteTalk | 口型同步化身生成器

InfiniteTalk | 口型同步化身生成器

Workflow Name: RunComfy/InfiniteTalk
Workflow ID: 0000...1278
使用 InfiniteTalk 工作流程,您可以從肖像和語音創建逼真的化身影片,保持一致的身份、準確的口型同步,以及由 MultiTalk AI 模型驅動的可自訂動畫。

InfiniteTalk: 在 ComfyUI 中從單一圖像生成口型同步的肖像影片

這個 ComfyUI InfiniteTalk 工作流程從單一參考圖像加上一段音頻剪輯創建自然、語音同步的肖像影片。它結合了 WanVideo 2.1 圖像到影片的生成技術與 MultiTalk 說話頭模型,以產生豐富的口腔動作和穩定的身份。如果您需要短社交剪輯、影片配音或化身更新,InfiniteTalk 能在幾分鐘內將靜態照片轉化為流暢的講話影片。

InfiniteTalk 基於 MeiGen-AI 的卓越 MultiTalk 研究。背景和歸屬請參見開源項目:MeiGen-AI/MultiTalk。

Comfyui InfiniteTalk 工作流程中的關鍵模型

  • MultiTalk (GGUF, InfiniteTalk 變體): 從音頻驅動音素感知的面部動作,讓口和下巴的動作自然跟隨語音。參考:Kijai/WanVideo_comfy_GGUF › InfiniteTalk 和上游想法:MeiGen-AI/MultiTalk。
  • WanVideo 2.1 I2V 14B (GGUF): 主要的圖像到影片生成器,能在動畫幀中保留身份、光照和姿勢。推薦權重:city96/Wan2.1-I2V-14B-480P-gguf。
  • Wan 2.1 VAE (bf16): 將潛在幀解碼為 RGB,顏色偏移最小;在上述 WanVideo 包中提供。
  • UMT5-XXL 文本編碼器: 解析您的正面和負面提示以推動風格、場景和動作上下文。模型家族:google/umt5-xxl。
  • CLIP Vision: 從您的參考圖像中提取視覺嵌入,鎖定身份和整體外觀。
  • Wav2Vec2 (Tencent GameMate): 將原始語音轉化為強大的音頻特徵以改進 MultiTalk 嵌入的同步和韻律:TencentGameMate/chinese-wav2vec2-base。

提示:此 InfiniteTalk 圖表是為 GGUF 構建的。保持 InfiniteTalk MultiTalk 權重和 WanVideo 主體在 GGUF 中以避免不兼容。也可選擇使用 fp8/fp16 構建:Kijai/WanVideo_comfy_fp8_scaled 和 Kijai/WanVideo_comfy。


如何使用 Comfyui InfiniteTalk 工作流程

該工作流程從左到右運行。您需要提供三樣東西:乾淨的肖像圖像、一個語音音頻文件和一個簡短的提示來引導風格。然後圖表提取文本、圖像和音頻提示,將它們融合成動作感知的影片潛在變量,並渲染一個同步的 MP4。

模型

這一組加載 WanVideo、VAE、MultiTalk、CLIP Vision 和文本編碼器。WanVideoModelLoader (#122) 選擇 Wan 2.1 I2V 14B GGUF 主體,而 WanVideoVAELoader (#129) 準備匹配的 VAE。MultiTalkModelLoader (#120) 加載驅動語音驅動動作的 InfiniteTalk 變體。您可以選擇性地在 WanVideoLoraSelect (#13) 中附加 Wan LoRA 以偏向外觀和動作。保持這些不變以進行快速首次運行;它們已預先連接到對大多數 GPU 友好的 480p 管道。

提示

WanVideoTextEncodeCached (#241) 接受您的正面和負面提示並使用 UMT5 進行編碼。使用正面提示描述主題和場景基調,而不是身份;身份來自參考照片。將負面提示集中在您想要避免的人工製品上(模糊、多餘的肢體、灰色背景)。InfiniteTalk 中的提示主要塑造光線和運動能量,而面部保持一致。

輸入圖像

CLIPVisionLoader (#238) 和 WanVideoClipVisionEncode (#237) 嵌入您的肖像。使用清晰、正面的頭肩照片,光線均勻。如有需要,輕輕裁剪使面部有活動空間;過度裁剪可能會使動作不穩定。圖像嵌入被向前傳遞,以在影片動畫中保留身份和服裝細節。

音頻到 MultiTalk

在 LoadAudio (#125) 中加載您的語音;使用 AudioCrop (#159) 修剪以進行快速預覽。DownloadAndLoadWav2VecModel (#137) 獲取 Wav2Vec2,MultiTalkWav2VecEmbeds (#194) 將剪輯轉化為音素感知的動作特徵。短的 4-8 秒剪輯非常適合迭代;一旦您喜歡外觀,可以運行較長的剪輯。乾淨、無背景音樂的聲音效果最佳;強烈的背景音樂可能會混淆口型時序。

圖像到影片、採樣和輸出

WanVideoImageToVideoMultiTalk (#192) 將您的圖像、CLIP Vision 嵌入和 MultiTalk 融合到由 Width 和 Height 常數設定大小的幀圖像嵌入中。WanVideoSampler (#128) 使用 Get_wanmodel 和您的文本嵌入生成潛在幀。WanVideoDecode (#130) 將潛在變量轉換為 RGB 幀。最後,VHS_VideoCombine (#131) 將幀和音頻混合成每秒 25 幀的 MP4,並設置平衡的質量設置,生成最終的 InfiniteTalk 剪輯。


Comfyui InfiniteTalk 工作流程中的關鍵節點

WanVideoImageToVideoMultiTalk (#192)

這個節點是 InfiniteTalk 的核心:它通過合併起始圖像、CLIP Vision 特徵和 MultiTalk 指導來調節說話頭動畫,達到您的目標分辨率。調整 width 和 height 設置比例;832×480 是速度和穩定性的良好默認值。用它作為主要位置來在採樣之前對齊身份和運動。

MultiTalkWav2VecEmbeds (#194)

將 Wav2Vec2 特徵轉化為 MultiTalk 動作嵌入。如果口腔動作過於微妙,請在此階段提高其影響力(音頻縮放);如果過度誇張,則降低影響力。確保音頻以語音為主,以獲得可靠的音素時序。

WanVideoSampler (#128)

給定圖像、文本和 MultiTalk 嵌入生成影片潛在變量。對於首次運行,保持默認的調度器和步驟。如果看到閃爍,增加總步驟或啟用 CFG 可以幫助;如果運動感覺太僵硬,則減少 CFG 或採樣器強度。

WanVideoTextEncodeCached (#241)

使用 UMT5-XXL 編碼正面和負面提示。使用簡潔、具體的語言,如 “工作室光、柔和的皮膚、自然色彩”,並將負面提示集中。記住提示細化框架和風格,而口型同步來自 MultiTalk。

可選附加項

  • 保持 MultiTalk 和 WanVideo 在同一部署家族中(全部 GGUF 或全部非 GGUF)以避免不兼容。
  • 使用 5-8 秒的音頻剪輯和默認的 480p 大小進行迭代;如果需要,稍後進行升級。
  • 如果身份不穩定,請嘗試更乾淨的來源照片或較溫和的 LoRA。強 LoRA 可能會覆蓋相似性。
  • 在安靜的房間中錄製語音並標準化音量;InfiniteTalk 在清晰、乾燥的聲音下能最佳追蹤音素。

致謝

InfiniteTalk 工作流程代表了 AI 驅動的影片生成的一大飛躍,將 ComfyUI 靈活的節點系統與 MultiTalk AI 模型相結合。這一實現得益於 MeiGen-AI 的原始研究和發布,其 MultiTalk 項目驅動了 InfiniteTalk 的自然語音同步。特別感謝 InfiniteTalk 項目團隊提供的源參考,並感謝 ComfyUI 開發者社區使工作流程無縫集成成為可能。

此外,還要感謝 Kijai,他將 InfiniteTalk 實現於 Wan Video Sampler 節點 中,使創作者能夠直接在 ComfyUI 中製作高質量的講話和演唱肖像。InfiniteTalk 的原始資源鏈接在此提供:InfiniteTalk 範例工作流程。

這些貢獻使得創作者能夠將簡單的肖像轉化為生動、連續的講話化身,為 AI 驅動的敘事、配音和表演內容開啟了新的機會。

Want More ComfyUI Workflows?

Wan 2.1 Fun | I2V + T2V

使用 Wan 2.1 Fun 增強您的 AI 影片。

Wan 2.1 LoRA

使用 LoRA 模型增強 Wan 2.1 視頻生成,提升風格和可自訂性。

Wan 2.1 Fun | ControlNet 視頻生成

使用 ControlNet 風格的視覺通道生成視頻,如深度、Canny 和 OpenPose。

Wan 2.1 | 革命性影片生成

使用突破性 AI 從文字或圖像創建令人驚嘆的影片,並可在日常 CPU 上運行。

Wan FusionX | T2V+I2V+VACE 完整套件

迄今為止最強大的視頻生成解決方案!影院級別細節,您的個人電影工作室。

Trellis | 圖像轉3D

Trellis是一個先進的圖像轉3D模型,用於高質量3D資產生成。

AnimateDiff + IPAdapter V1 | 圖像到視頻

使用 IPAdapter,您可以有效地控制使用參考圖像生成動畫的過程。

ICEdit | 使用 Nunchaku 的快速 AI 圖像編輯

ICEdit+Nunchaku:超快速、精確的 AI 圖像編輯解決方案。

關注我們
  • 領英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 電子郵件
  • 系統狀態
  • 附屬
資源
  • 免費 ComfyUI 在線版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 節點
  • 了解更多
法律
  • 服務條款
  • 隱私政策
  • Cookie 政策
RunComfy
版權 2025 RunComfy. 保留所有權利。

RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Playground, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。