ComfyUI>工作流>Multitalk | 逼真的对话视频制作工具

Multitalk | 逼真的对话视频制作工具

Workflow Name: RunComfy/Multitalk

Workflow ID: 0000...1266

此工作流程从肖像和音频生成同步对口型视频，支持单说话者和多说话者输出，具有详细的面部动作和语音对齐。

ComfyUI MultiTalk: 多人和单人对话视频

注意：
这是我们 ComfyUI MultiTalk 单人工作流程的升级版多人版本。
它现在支持多人对话视频生成，同时仍包括我们之前版本的单人模式。

此工作流程非常适合社交内容、产品说明、角色对话和快速预览。它将 MultiTalk 音频嵌入与视频扩散配对，使嘴唇、下颚和细微的面部线索跟随语音。可以用作 Meigen MultiTalk 多说话者场景或精简的单说话者片段的即插即用路径。

ComfyUI MultiTalk 工作流程中的关键模型

Wan 2.1 视频扩散模型

驱动核心文本和图像条件的视频生成。它处理场景外观、摄像机和运动，同时接受额外的指导以处理对话动态。

Wav2Vec 2.0

提取强大的语音表示，MultiTalk 将其转换为特定于对话的嵌入。参考：facebook/wav2vec2-base-960h。

MultiTalk (MeiGen-AI)

音频驱动的多人对话视频的研究方法。参考实现：MeiGen-AI/MultiTalk。

ComfyUI Wan Video Wrapper

ComfyUI 集成，公开 Wan 2.1 的加载、编码器和视频采样器，以及 MultiTalk 嵌入节点。参考：kijai/ComfyUI-WanVideoWrapper。

Index-TTS (可选)

语音参考的文本到语音生成，用于在工作流程内生成干净的对话音轨。参考：chenpipi0807/ComfyUI-Index-TTS。

如何使用 ComfyUI MultiTalk 工作流程

此工作流程从头到尾运行：您准备说话者和音频，设置一个简短的场景提示，然后渲染。它支持多人和单人设置。图中的分组保持组织有序；下面描述了最重要的分组。

输入和输出

加载用于说话者面孔和预览遮罩的身份图像，然后将最终帧与音频混合。LoadImage 节点接受您的肖像，而 VHS_VideoCombine 将渲染的帧与选定的音轨组合成 MP4。在设置期间可以使用 PreviewAudio 刷音频以确认音量和持续时间。

模型

Get_WanModel、Get_WanTextEncoder 和 WanVideoModelLoader 初始化 Wan 2.1 以及文本和 VAE 组件。将其视为引擎室：一旦加载，视频采样器可以接受图像、文本和对话嵌入。您几乎不需要在此更改任何内容，只需确保选择了正确的 Wan 权重。

说话者音频（两种方式）

您可以自带对话音轨或合成它们：

自带音频：使用 LoadAudio 导入每个说话者的台词。如果剪辑中混有音乐或噪音，请通过 AudioSeparation 传递它，并将干净的 Vocals 输出向前传递。
生成音频：使用 Speaker 1 - Text 和 Speaker 2 - Text 与 IndexTTSNode 从输入文本行合成声音，选择性地提供 reference_audio 以获得所需音色。

MultiTalk 音频嵌入

MultiTalkWav2VecEmbeds 将语音转换为 MultiTalk 嵌入，捕捉每个说话者的时间和发音线索。为单人提供一个音频流，或为多人对话提供两个流。如果您的场景需要面部特定的定位，请提供干净的面部遮罩作为 ref_target_masks，以便每个声音驱动正确的人物。

提示和文本上下文

通过 Prompt 和 WanVideoTextEncodeSingle 提供的简短场景提示设置视觉氛围和环境。保持提示简洁和描述性（位置、语气、照明）。文本编码器生成的语义指导与身份和对话信号一起被 Wan 使用。

Uni3C 和 Resize

Uni3C 组准备全局上下文嵌入，以帮助稳定身份、框架和构图。Resize 组确保源图像和遮罩被缩放到模型友好的尺寸，以便采样器接收一致的输入。

KSampler 和采样处理

WanVideoSampler 是一切的汇合点：身份图像嵌入、文本嵌入和 MultiTalk 音频嵌入结合生成最终帧。下游的 Sampling processing 组在交给视频组合器之前应用任何平滑和一致性所需的后处理步骤。

多人遮罩

对于多人剪辑，在 ComfyUI 的遮罩编辑器中为每张脸绘制一个遮罩。保持遮罩分离，以免相互接触。如果您只提供一个遮罩和一个音轨，工作流程将自动作为单人 MultiTalk 设置运行。

ComfyUI MultiTalk 工作流程中的关键节点

`MultiTalkWav2VecEmbeds` (#79/#162)

将一个或多个对话音轨转换为 MultiTalk 对话嵌入。从单人音频输入开始，或为多人提供两个输入；需要时添加遮罩以实现每张脸的路由。只调整重要的内容：匹配计划剪辑长度的帧数，以及是否提供 ref_target_masks 以实现精确的说话者到面部对齐。

`AudioSeparation` (#88/#160/#161)

对嘈杂输入的可选清理。将您的嘈杂剪辑导入此节点，并向前传递 Vocals 输出。当现场录音包含背景音乐或杂音时使用；如果您已经有干净的语音轨道，则跳过此步骤。

`IndexTTSNode` (#163/#164)

将 Speaker 1 - Text 和 Speaker 2 - Text 转换为对话音频。提供简短的 reference_audio 以克隆语调和节奏，然后提供文本行。为 MultiTalk 保持句子简短自然，以获得最佳的对口型时机。

`WanVideoTextEncodeSingle` (#18)

为 Wan 2.1 编码您的场景提示。偏好简单、具体的地点、光照和风格描述。避免长列表；一两句话足以让采样器理解。

鸣谢

原始研究：MultiTalk 由 MeiGen-AI 开发，并与该领域的领先研究人员合作。原始论文 "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" 提出了该技术的突破性研究。 ComfyUI 集成：ComfyUI 实现由 Kijai 通过 ComfyUI-WanVideoWrapper 仓库提供，使这一先进技术可供更广泛的创意社区使用。

基础技术：基于 Wan2.1 视频扩散模型，并结合了 Wav2Vec 的音频处理技术，代表了尖端 AI 研究的综合。

链接和资源

原始研究： MeiGen-AI MultiTalk Repository
项目页面： https://meigen-ai.github.io/multi-talk/
ComfyUI 集成： ComfyUI-WanVideoWrapper

Want More ComfyUI Workflows?

Hallo2 | 唇同步肖像动画

4K肖像动画的音频驱动唇同步。

Sonic | 唇同步肖像动画

Sonic 为肖像提供高级音频驱动的唇同步，具备高质量的动画效果。

IPAdapter Plus (V2) | 更换服装

使用 IPAdapter Plus 进行时尚模特创作，轻松更换服装和风格

EchoMimic | 音频驱动的人像动画

生成与提供的音频同步的逼真说话头像和身体动作。

LatentSync| 口型同步模型

先进的音频驱动口型同步技术。

Consistent Character Creator

从多个角度创建一致的高分辨率角色设计，完全控制情感、照明和环境。

Vid2Vid 第 1 部分 | 组合与遮罩

ComfyUI Vid2Vid 提供了两种不同的工作流程来创建高质量、专业的动画：Vid2Vid 第 1 部分，通过专注于原始视频的组合和遮罩来增强您的创意；Vid2Vid 第 2 部分，利用 SDXL Style Transfer 将视频的风格转变为您想要的美学风格。本页面专门介绍 Vid2Vid 第 1 部分。

舞蹈视频转换 | 场景定制与面部替换

通过场景编辑、面部替换和动作保留来转换舞蹈视频。

关注我们

支持

资源

法律

RunComfy

RunComfy 是首选的 ComfyUI 平台，提供 ComfyUI 在线环境和服务，以及 ComfyUI 工作流具有惊艳的视觉效果。 RunComfy还提供 AI Playground, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。