注意:
這是我們 ComfyUI MultiTalk工作流程的升級版多人版本。
它現在支持多人對話影片生成,同時仍然包含我們以前版本的單人模式。
此工作流程非常適合社交內容、產品解說、角色對話和快速預視。它將 MultiTalk 音頻嵌入與影片擴散結合,使嘴唇、下巴和微妙的面部表情隨語音變化。可用於 Meigen MultiTalk 多說話者場景或簡練的單說話者片段。
Wan 2.1 影片擴散模型
驅動核心文本和圖像條件的影片生成。它處理場景外觀、相機和運動,同時接受對話動態的額外指導。
Wav2Vec 2.0
提取強健的語音表示,MultiTalk 將其轉換為特定於說話的嵌入。參考:。
MultiTalk (MeiGen-AI)
基於音頻驅動的多人對話影片的研究方法。參考實施:。
ComfyUI Wan 影片包裝器
ComfyUI 集成,展示 Wan 2.1 的加載、編碼器和影片取樣器,以及 MultiTalk 嵌入節點。參考:。
Index-TTS (可選)
文本轉語音,帶有語音參考,用於在工作流程中生成乾淨的對話音軌。參考:。
此工作流程從頭到尾運行:準備說話者和音頻,設置短場景提示,然後渲染。它支持多人和單人設置。圖表中的組保持組織;以下是最重要的組。
加載您的說話者面孔的身份圖像和預覽遮罩,然後將最終框架與音頻混合。LoadImage
節點接受您的肖像,而 VHS_VideoCombine
將渲染的框架與選定的音軌組合成 MP4。在設置過程中使用 PreviewAudio
來確認音量和持續時間。
Get_WanModel
、Get_WanTextEncoder
和 WanVideoModelLoader
初始化 Wan 2.1 以及文本和 VAE 組件。把這想像成引擎室:一旦加載,影片取樣器可以接受圖像、文本和對話嵌入。除了確保選擇正確的 Wan 權重外,您很少需要更改此處的內容。
您可以帶來自己的對話音軌或合成它們:
LoadAudio
導入每位說話者的台詞。如果一個片段混合了音樂或噪音,請通過 AudioSeparation
並將乾淨的 Vocals
輸出轉發。Speaker 1 - Text
和 Speaker 2 - Text
與 IndexTTSNode
從打字行合成聲音,選擇性地提供 reference_audio
以獲得期望的音色。MultiTalkWav2VecEmbeds
將語音轉換為 MultiTalk 嵌入,捕捉每位說話者的時間和發音線索。為單人提供一個音頻流,為多人對話提供兩個音頻流。如果您的場景需要面部特定目標,請提供乾淨的面部遮罩作為 ref_target_masks
,以便每個聲音驅動正確的人物。
通過 Prompt
和 WanVideoTextEncodeSingle
設置視覺氛圍和環境的短場景提示。保持提示簡短且描述性(地點、語氣、照明)。文本編碼器生成語義引導,Wan 將其用於身份和對話信號。
Uni3C 組準備全球上下文嵌入,有助於隨時間穩定身份、構圖和組成。Resize 組確保源圖像和遮罩縮放到模型友好的尺寸,以便取樣器接收一致的輸入。
WanVideoSampler
是所有事物的匯合點:身份圖像嵌入、文本嵌入和 MultiTalk 音頻嵌入組合生成最終框架。下游的 Sampling processing 組應用任何需要的後處理步驟,以確保平滑和一致性,然後交給影片合併器。
對於多人片段,請在 ComfyUI 的遮罩編輯器中為每張面孔繪製一個遮罩。保持遮罩分開,避免接觸。如果您只提供一個遮罩和一個音軌,工作流程將自動作為單人 MultiTalk 設置運行。
MultiTalkWav2VecEmbeds
(#79/#162)將一個或多個對話音軌轉換為 MultiTalk 對話嵌入。從單人提供一個音頻輸入或多人提供兩個音頻輸入開始;需要每個面部路由時添加遮罩。只調整重要的內容:匹配計劃片段長度的幀數,以及是否提供 ref_target_masks
以實現精確的說話者到面部對齊。
AudioSeparation
(#88/#160/#161)可選的噪音輸入清理。將您的噪音片段路由到此節點並轉發 Vocals
輸出。當現場錄音包含背景音樂或交談時使用;如果您已經有乾淨的聲音軌道,則跳過此步驟。
IndexTTSNode
(#163/#164)將 Speaker 1 - Text
和 Speaker 2 - Text
轉換為對話音頻。提供一個簡短的 reference_audio
來複製語調和節奏,然後提供文本行。保持句子簡短自然,以獲得最佳的 MultiTalk 嘴型時序。
WanVideoTextEncodeSingle
(#18)為 Wan 2.1 編碼您的場景提示。偏愛簡單、具體的地點、照明和風格描述。避免長列表;一兩句話足以讓取樣器理解。
原始研究:MultiTalk 由 MeiGen-AI 開發,並與該領域的領先研究人員合作。原始論文 "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" 展示了這項技術的突破性研究。 ComfyUI 集成:ComfyUI 的實現由 Kijai 通過 ComfyUI-WanVideoWrapper 存儲庫提供,使這項先進技術對更廣泛的創意社區可用。
基礎技術:基於 Wan2.1 影片擴散模型,並結合來自 Wav2Vec 的音頻處理技術,代表了尖端 AI 研究的綜合。
RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Playground, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。