ComfyUI MultiTalk: 多人和单人对话视频
注意: 这是我们 ComfyUI MultiTalk 单人 工作流程的升级版多人版本。 它现在支持多人对话视频生成,同时仍包括我们之前版本的单人模式。
此工作流程非常适合社交内容、产品说明、角色对话和快速预览。它将 MultiTalk 音频嵌入与视频扩散配对,使嘴唇、下颚和细微的面部线索跟随语音。可以用作 Meigen MultiTalk 多说话者场景或精简的单说话者片段的即插即用路径。
ComfyUI MultiTalk 工作流程中的关键模型
Wan 2.1 视频扩散模型
驱动核心文本和图像条件的视频生成。它处理场景外观、摄像机和运动,同时接受额外的指导以处理对话动态。
Wav2Vec 2.0
提取强大的语音表示,MultiTalk 将其转换为特定于对话的嵌入。参考:facebook/wav2vec2-base-960h。
MultiTalk (MeiGen-AI)
音频驱动的多人对话视频的研究方法。参考实现:MeiGen-AI/MultiTalk。
ComfyUI Wan Video Wrapper
ComfyUI 集成,公开 Wan 2.1 的加载、编码器和视频采样器,以及 MultiTalk 嵌入节点。参考:kijai/ComfyUI-WanVideoWrapper。
Index-TTS (可选)
语音参考的文本到语音生成,用于在工作流程内生成干净的对话音轨。参考:chenpipi0807/ComfyUI-Index-TTS。
如何使用 ComfyUI MultiTalk 工作流程
此工作流程从头到尾运行:您准备说话者和音频,设置一个简短的场景提示,然后渲染。它支持多人和单人设置。图中的分组保持组织有序;下面描述了最重要的分组。
输入和输出
加载用于说话者面孔和预览遮罩的身份图像,然后将最终帧与音频混合。LoadImage 节点接受您的肖像,而 VHS_VideoCombine 将渲染的帧与选定的音轨组合成 MP4。在设置期间可以使用 PreviewAudio 刷音频以确认音量和持续时间。
模型
Get_WanModel、Get_WanTextEncoder 和 WanVideoModelLoader 初始化 Wan 2.1 以及文本和 VAE 组件。将其视为引擎室:一旦加载,视频采样器可以接受图像、文本和对话嵌入。您几乎不需要在此更改任何内容,只需确保选择了正确的 Wan 权重。
说话者音频(两种方式)
您可以自带对话音轨或合成它们:
- 自带音频:使用
LoadAudio导入每个说话者的台词。如果剪辑中混有音乐或噪音,请通过AudioSeparation传递它,并将干净的Vocals输出向前传递。 - 生成音频:使用
Speaker 1 - Text和Speaker 2 - Text与IndexTTSNode从输入文本行合成声音,选择性地提供reference_audio以获得所需音色。
MultiTalk 音频嵌入
MultiTalkWav2VecEmbeds 将语音转换为 MultiTalk 嵌入,捕捉每个说话者的时间和发音线索。为单人提供一个音频流,或为多人对话提供两个流。如果您的场景需要面部特定的定位,请提供干净的面部遮罩作为 ref_target_masks,以便每个声音驱动正确的人物。
提示和文本上下文
通过 Prompt 和 WanVideoTextEncodeSingle 提供的简短场景提示设置视觉氛围和环境。保持提示简洁和描述性(位置、语气、照明)。文本编码器生成的语义指导与身份和对话信号一起被 Wan 使用。
Uni3C 和 Resize
Uni3C 组准备全局上下文嵌入,以帮助稳定身份、框架和构图。Resize 组确保源图像和遮罩被缩放到模型友好的尺寸,以便采样器接收一致的输入。
KSampler 和采样处理
WanVideoSampler 是一切的汇合点:身份图像嵌入、文本嵌入和 MultiTalk 音频嵌入结合生成最终帧。下游的 Sampling processing 组在交给视频组合器之前应用任何平滑和一致性所需的后处理步骤。
多人遮罩
对于多人剪辑,在 ComfyUI 的遮罩编辑器中为每张脸绘制一个遮罩。保持遮罩分离,以免相互接触。如果您只提供一个遮罩和一个音轨,工作流程将自动作为单人 MultiTalk 设置运行。
ComfyUI MultiTalk 工作流程中的关键节点
MultiTalkWav2VecEmbeds (#79/#162)
将一个或多个对话音轨转换为 MultiTalk 对话嵌入。从单人音频输入开始,或为多人提供两个输入;需要时添加遮罩以实现每张脸的路由。只调整重要的内容:匹配计划剪辑长度的帧数,以及是否提供 ref_target_masks 以实现精确的说话者到面部对齐。
AudioSeparation (#88/#160/#161)
对嘈杂输入的可选清理。将您的嘈杂剪辑导入此节点,并向前传递 Vocals 输出。当现场录音包含背景音乐或杂音时使用;如果您已经有干净的语音轨道,则跳过此步骤。
IndexTTSNode (#163/#164)
将 Speaker 1 - Text 和 Speaker 2 - Text 转换为对话音频。提供简短的 reference_audio 以克隆语调和节奏,然后提供文本行。为 MultiTalk 保持句子简短自然,以获得最佳的对口型时机。
WanVideoTextEncodeSingle (#18)
为 Wan 2.1 编码您的场景提示。偏好简单、具体的地点、光照和风格描述。避免长列表;一两句话足以让采样器理解。
鸣谢
原始研究:MultiTalk 由 MeiGen-AI 开发,并与该领域的领先研究人员合作。原始论文 "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" 提出了该技术的突破性研究。 ComfyUI 集成:ComfyUI 实现由 Kijai 通过 ComfyUI-WanVideoWrapper 仓库提供,使这一先进技术可供更广泛的创意社区使用。
基础技术:基于 Wan2.1 视频扩散模型,并结合了 Wav2Vec 的音频处理技术,代表了尖端 AI 研究的综合。
链接和资源
- 原始研究: MeiGen-AI MultiTalk Repository
- 项目页面: https://meigen-ai.github.io/multi-talk/
- ComfyUI 集成: ComfyUI-WanVideoWrapper


