ComfyUI Multitalk 工作流程 | 多說話者同步對口型影片生成器

ComfyUI MultiTalk：多人和單人說話影片

注意： 這是我們 ComfyUI MultiTalk 單人工作流程的升級版多人版本。它現在支持多人對話影片生成，同時仍然包含我們以前版本的單人模式。

此工作流程非常適合社交內容、產品解說、角色對話和快速預視。它將 MultiTalk 音頻嵌入與影片擴散結合，使嘴唇、下巴和微妙的面部表情隨語音變化。可用於 Meigen MultiTalk 多說話者場景或簡練的單說話者片段。

ComfyUI MultiTalk 工作流程中的關鍵模型

Wan 2.1 影片擴散模型

驅動核心文本和圖像條件的影片生成。它處理場景外觀、相機和運動，同時接受對話動態的額外指導。

Wav2Vec 2.0

提取強健的語音表示，MultiTalk 將其轉換為特定於說話的嵌入。參考：facebook/wav2vec2-base-960h。

MultiTalk (MeiGen-AI)

基於音頻驅動的多人對話影片的研究方法。參考實施：MeiGen-AI/MultiTalk。

ComfyUI Wan 影片包裝器

ComfyUI 集成，展示 Wan 2.1 的加載、編碼器和影片取樣器，以及 MultiTalk 嵌入節點。參考：kijai/ComfyUI-WanVideoWrapper。

Index-TTS (可選)

文本轉語音，帶有語音參考，用於在工作流程中生成乾淨的對話音軌。參考：chenpipi0807/ComfyUI-Index-TTS。

如何使用 ComfyUI MultiTalk 工作流程

此工作流程從頭到尾運行：準備說話者和音頻，設置短場景提示，然後渲染。它支持多人和單人設置。圖表中的組保持組織；以下是最重要的組。

輸入和輸出

加載您的說話者面孔的身份圖像和預覽遮罩，然後將最終框架與音頻混合。LoadImage 節點接受您的肖像，而 VHS_VideoCombine 將渲染的框架與選定的音軌組合成 MP4。在設置過程中使用 PreviewAudio 來確認音量和持續時間。

模型

Get_WanModel、Get_WanTextEncoder 和 WanVideoModelLoader 初始化 Wan 2.1 以及文本和 VAE 組件。把這想像成引擎室：一旦加載，影片取樣器可以接受圖像、文本和對話嵌入。除了確保選擇正確的 Wan 權重外，您很少需要更改此處的內容。

講者音頻（兩種方式）

您可以帶來自己的對話音軌或合成它們：

帶來音頻：使用 LoadAudio 導入每位說話者的台詞。如果一個片段混合了音樂或噪音，請通過 AudioSeparation 並將乾淨的 Vocals 輸出轉發。
生成音頻：使用 Speaker 1 - Text 和 Speaker 2 - Text 與 IndexTTSNode 從打字行合成聲音，選擇性地提供 reference_audio 以獲得期望的音色。

MultiTalk 音頻嵌入

MultiTalkWav2VecEmbeds 將語音轉換為 MultiTalk 嵌入，捕捉每位說話者的時間和發音線索。為單人提供一個音頻流，為多人對話提供兩個音頻流。如果您的場景需要面部特定目標，請提供乾淨的面部遮罩作為 ref_target_masks，以便每個聲音驅動正確的人物。

提示和文本上下文

通過 Prompt 和 WanVideoTextEncodeSingle 設置視覺氛圍和環境的短場景提示。保持提示簡短且描述性（地點、語氣、照明）。文本編碼器生成語義引導，Wan 將其用於身份和對話信號。

Uni3C 和 Resize

Uni3C 組準備全球上下文嵌入，有助於隨時間穩定身份、構圖和組成。Resize 組確保源圖像和遮罩縮放到模型友好的尺寸，以便取樣器接收一致的輸入。

KSampler 和取樣處理

WanVideoSampler 是所有事物的匯合點：身份圖像嵌入、文本嵌入和 MultiTalk 音頻嵌入組合生成最終框架。下游的 Sampling processing 組應用任何需要的後處理步驟，以確保平滑和一致性，然後交給影片合併器。

多人遮罩

對於多人片段，請在 ComfyUI 的遮罩編輯器中為每張面孔繪製一個遮罩。保持遮罩分開，避免接觸。如果您只提供一個遮罩和一個音軌，工作流程將自動作為單人 MultiTalk 設置運行。

ComfyUI MultiTalk 工作流程中的關鍵節點

`MultiTalkWav2VecEmbeds` (#79/#162)

將一個或多個對話音軌轉換為 MultiTalk 對話嵌入。從單人提供一個音頻輸入或多人提供兩個音頻輸入開始；需要每個面部路由時添加遮罩。只調整重要的內容：匹配計劃片段長度的幀數，以及是否提供 ref_target_masks 以實現精確的說話者到面部對齊。

`AudioSeparation` (#88/#160/#161)

可選的噪音輸入清理。將您的噪音片段路由到此節點並轉發 Vocals 輸出。當現場錄音包含背景音樂或交談時使用；如果您已經有乾淨的聲音軌道，則跳過此步驟。

`IndexTTSNode` (#163/#164)

將 Speaker 1 - Text 和 Speaker 2 - Text 轉換為對話音頻。提供一個簡短的 reference_audio 來複製語調和節奏，然後提供文本行。保持句子簡短自然，以獲得最佳的 MultiTalk 嘴型時序。

`WanVideoTextEncodeSingle` (#18)

為 Wan 2.1 編碼您的場景提示。偏愛簡單、具體的地點、照明和風格描述。避免長列表；一兩句話足以讓取樣器理解。

致謝

原始研究：MultiTalk 由 MeiGen-AI 開發，並與該領域的領先研究人員合作。原始論文 "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" 展示了這項技術的突破性研究。 ComfyUI 集成：ComfyUI 的實現由 Kijai 通過 ComfyUI-WanVideoWrapper 存儲庫提供，使這項先進技術對更廣泛的創意社區可用。

基礎技術：基於 Wan2.1 影片擴散模型，並結合來自 Wav2Vec 的音頻處理技術，代表了尖端 AI 研究的綜合。

鏈接和資源

原始研究： MeiGen-AI MultiTalk Repository
項目頁面： https://meigen-ai.github.io/multi-talk/
ComfyUI 集成： ComfyUI-WanVideoWrapper

Multitalk | 真實感說話影片製作器

ComfyUI MultiTalk：多人和單人說話影片

ComfyUI MultiTalk 工作流程中的關鍵模型

如何使用 ComfyUI MultiTalk 工作流程

輸入和輸出

模型

講者音頻（兩種方式）

MultiTalk 音頻嵌入

提示和文本上下文

Uni3C 和 Resize

KSampler 和取樣處理

多人遮罩

ComfyUI MultiTalk 工作流程中的關鍵節點

`MultiTalkWav2VecEmbeds` (#79/#162)

`AudioSeparation` (#88/#160/#161)

`IndexTTSNode` (#163/#164)

`WanVideoTextEncodeSingle` (#18)

致謝

鏈接和資源

Want More ComfyUI Workflows?

Hallo2 | 唇同步肖像動畫

Sonic | 嘴形同步肖像動畫

IPAdapter Plus (V2) | 換裝

MultiTalk | Photo to Talking Video

EchoMimic | 音頻驅動的肖像動畫

LTX 2.3 IC-LoRA | 運動追蹤 AI 視頻生成器

SDXL LoRA 推論 | AI Toolkit ComfyUI

InfiniteTalk | 口型同步化身生成器

Multitalk | 真實感說話影片製作器

ComfyUI MultiTalk：多人和單人說話影片

ComfyUI MultiTalk 工作流程中的關鍵模型

如何使用 ComfyUI MultiTalk 工作流程

輸入和輸出

模型

講者音頻（兩種方式）

MultiTalk 音頻嵌入

提示和文本上下文

Uni3C 和 Resize

KSampler 和取樣處理

多人遮罩

ComfyUI MultiTalk 工作流程中的關鍵節點

MultiTalkWav2VecEmbeds (#79/#162)

AudioSeparation (#88/#160/#161)

IndexTTSNode (#163/#164)

WanVideoTextEncodeSingle (#18)

致謝

鏈接和資源

Want More ComfyUI Workflows?

Hallo2 | 唇同步肖像動畫

Sonic | 嘴形同步肖像動畫

IPAdapter Plus (V2) | 換裝

MultiTalk | Photo to Talking Video

EchoMimic | 音頻驅動的肖像動畫

LTX 2.3 IC-LoRA | 運動追蹤 AI 視頻生成器

SDXL LoRA 推論 | AI Toolkit ComfyUI

InfiniteTalk | 口型同步化身生成器

`MultiTalkWav2VecEmbeds` (#79/#162)

`AudioSeparation` (#88/#160/#161)

`IndexTTSNode` (#163/#164)

`WanVideoTextEncodeSingle` (#18)