logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
Loading...
ComfyUI>工作流程>Multitalk | 真實感說話影片製作器

Multitalk | 真實感說話影片製作器

Workflow Name: RunComfy/Multitalk
Workflow ID: 0000...1266
此工作流程從肖像和音頻生成同步對口型影片,支持單人和多說話者輸出,具有詳細的面部運動和語音對齊。

ComfyUI Multitalk Workflow

ComfyUI Multitalk Workflow | Multi-Speaker Lip-Synced Video Generator
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI Multitalk Examples

ComfyUI Multitalk Description

ComfyUI MultiTalk:多人和單人說話影片

注意:
這是我們 ComfyUI MultiTalk工作流程的升級版多人版本。
它現在支持多人對話影片生成,同時仍然包含我們以前版本的單人模式。

此工作流程非常適合社交內容、產品解說、角色對話和快速預視。它將 MultiTalk 音頻嵌入與影片擴散結合,使嘴唇、下巴和微妙的面部表情隨語音變化。可用於 Meigen MultiTalk 多說話者場景或簡練的單說話者片段。


ComfyUI MultiTalk 工作流程中的關鍵模型

Wan 2.1 影片擴散模型

驅動核心文本和圖像條件的影片生成。它處理場景外觀、相機和運動,同時接受對話動態的額外指導。

Wav2Vec 2.0

提取強健的語音表示,MultiTalk 將其轉換為特定於說話的嵌入。參考:。

MultiTalk (MeiGen-AI)

基於音頻驅動的多人對話影片的研究方法。參考實施:。

ComfyUI Wan 影片包裝器

ComfyUI 集成,展示 Wan 2.1 的加載、編碼器和影片取樣器,以及 MultiTalk 嵌入節點。參考:。

Index-TTS (可選)

文本轉語音,帶有語音參考,用於在工作流程中生成乾淨的對話音軌。參考:。


如何使用 ComfyUI MultiTalk 工作流程

此工作流程從頭到尾運行:準備說話者和音頻,設置短場景提示,然後渲染。它支持多人和單人設置。圖表中的組保持組織;以下是最重要的組。

輸入和輸出

加載您的說話者面孔的身份圖像和預覽遮罩,然後將最終框架與音頻混合。LoadImage 節點接受您的肖像,而 VHS_VideoCombine 將渲染的框架與選定的音軌組合成 MP4。在設置過程中使用 PreviewAudio 來確認音量和持續時間。

模型

Get_WanModel、Get_WanTextEncoder 和 WanVideoModelLoader 初始化 Wan 2.1 以及文本和 VAE 組件。把這想像成引擎室:一旦加載,影片取樣器可以接受圖像、文本和對話嵌入。除了確保選擇正確的 Wan 權重外,您很少需要更改此處的內容。

講者音頻(兩種方式)

您可以帶來自己的對話音軌或合成它們:

  • 帶來音頻:使用 LoadAudio 導入每位說話者的台詞。如果一個片段混合了音樂或噪音,請通過 AudioSeparation 並將乾淨的 Vocals 輸出轉發。
  • 生成音頻:使用 Speaker 1 - Text 和 Speaker 2 - Text 與 IndexTTSNode 從打字行合成聲音,選擇性地提供 reference_audio 以獲得期望的音色。

MultiTalk 音頻嵌入

MultiTalkWav2VecEmbeds 將語音轉換為 MultiTalk 嵌入,捕捉每位說話者的時間和發音線索。為單人提供一個音頻流,為多人對話提供兩個音頻流。如果您的場景需要面部特定目標,請提供乾淨的面部遮罩作為 ref_target_masks,以便每個聲音驅動正確的人物。

提示和文本上下文

通過 Prompt 和 WanVideoTextEncodeSingle 設置視覺氛圍和環境的短場景提示。保持提示簡短且描述性(地點、語氣、照明)。文本編碼器生成語義引導,Wan 將其用於身份和對話信號。

Uni3C 和 Resize

Uni3C 組準備全球上下文嵌入,有助於隨時間穩定身份、構圖和組成。Resize 組確保源圖像和遮罩縮放到模型友好的尺寸,以便取樣器接收一致的輸入。

KSampler 和取樣處理

WanVideoSampler 是所有事物的匯合點:身份圖像嵌入、文本嵌入和 MultiTalk 音頻嵌入組合生成最終框架。下游的 Sampling processing 組應用任何需要的後處理步驟,以確保平滑和一致性,然後交給影片合併器。

多人遮罩

對於多人片段,請在 ComfyUI 的遮罩編輯器中為每張面孔繪製一個遮罩。保持遮罩分開,避免接觸。如果您只提供一個遮罩和一個音軌,工作流程將自動作為單人 MultiTalk 設置運行。


ComfyUI MultiTalk 工作流程中的關鍵節點

MultiTalkWav2VecEmbeds (#79/#162)

將一個或多個對話音軌轉換為 MultiTalk 對話嵌入。從單人提供一個音頻輸入或多人提供兩個音頻輸入開始;需要每個面部路由時添加遮罩。只調整重要的內容:匹配計劃片段長度的幀數,以及是否提供 ref_target_masks 以實現精確的說話者到面部對齊。

AudioSeparation (#88/#160/#161)

可選的噪音輸入清理。將您的噪音片段路由到此節點並轉發 Vocals 輸出。當現場錄音包含背景音樂或交談時使用;如果您已經有乾淨的聲音軌道,則跳過此步驟。

IndexTTSNode (#163/#164)

將 Speaker 1 - Text 和 Speaker 2 - Text 轉換為對話音頻。提供一個簡短的 reference_audio 來複製語調和節奏,然後提供文本行。保持句子簡短自然,以獲得最佳的 MultiTalk 嘴型時序。

WanVideoTextEncodeSingle (#18)

為 Wan 2.1 編碼您的場景提示。偏愛簡單、具體的地點、照明和風格描述。避免長列表;一兩句話足以讓取樣器理解。


致謝

原始研究:MultiTalk 由 MeiGen-AI 開發,並與該領域的領先研究人員合作。原始論文 "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" 展示了這項技術的突破性研究。 ComfyUI 集成:ComfyUI 的實現由 Kijai 通過 ComfyUI-WanVideoWrapper 存儲庫提供,使這項先進技術對更廣泛的創意社區可用。

基礎技術:基於 Wan2.1 影片擴散模型,並結合來自 Wav2Vec 的音頻處理技術,代表了尖端 AI 研究的綜合。

鏈接和資源

  • 原始研究:
  • 項目頁面:
  • ComfyUI 集成:

Want More ComfyUI Workflows?

Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
關注我們
  • 領英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 電子郵件
  • 系統狀態
  • 附屬
資源
  • 免費 ComfyUI 在線版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 節點
  • 了解更多
法律
  • 服務條款
  • 隱私政策
  • Cookie 政策
RunComfy
版權 2025 RunComfy. 保留所有權利。

RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Playground, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。