logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
Loading...
ComfyUI>工作流>Multitalk | 逼真的对话视频制作工具

Multitalk | 逼真的对话视频制作工具

Workflow Name: RunComfy/Multitalk
Workflow ID: 0000...1266
此工作流程从肖像和音频生成同步对口型视频,支持单说话者和多说话者输出,具有详细的面部动作和语音对齐。

ComfyUI Multitalk Workflow

ComfyUI Multitalk Workflow | Multi-Speaker Lip-Synced Video Generator
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI Multitalk Examples

ComfyUI Multitalk Description

ComfyUI MultiTalk: 多人和单人对话视频

注意:
这是我们 ComfyUI MultiTalk 工作流程的升级版多人版本。
它现在支持多人对话视频生成,同时仍包括我们之前版本的单人模式。

此工作流程非常适合社交内容、产品说明、角色对话和快速预览。它将 MultiTalk 音频嵌入与视频扩散配对,使嘴唇、下颚和细微的面部线索跟随语音。可以用作 Meigen MultiTalk 多说话者场景或精简的单说话者片段的即插即用路径。


ComfyUI MultiTalk 工作流程中的关键模型

Wan 2.1 视频扩散模型

驱动核心文本和图像条件的视频生成。它处理场景外观、摄像机和运动,同时接受额外的指导以处理对话动态。

Wav2Vec 2.0

提取强大的语音表示,MultiTalk 将其转换为特定于对话的嵌入。参考:。

MultiTalk (MeiGen-AI)

音频驱动的多人对话视频的研究方法。参考实现:。

ComfyUI Wan Video Wrapper

ComfyUI 集成,公开 Wan 2.1 的加载、编码器和视频采样器,以及 MultiTalk 嵌入节点。参考:。

Index-TTS (可选)

语音参考的文本到语音生成,用于在工作流程内生成干净的对话音轨。参考:。


如何使用 ComfyUI MultiTalk 工作流程

此工作流程从头到尾运行:您准备说话者和音频,设置一个简短的场景提示,然后渲染。它支持多人和单人设置。图中的分组保持组织有序;下面描述了最重要的分组。

输入和输出

加载用于说话者面孔和预览遮罩的身份图像,然后将最终帧与音频混合。LoadImage 节点接受您的肖像,而 VHS_VideoCombine 将渲染的帧与选定的音轨组合成 MP4。在设置期间可以使用 PreviewAudio 刷音频以确认音量和持续时间。

模型

Get_WanModel、Get_WanTextEncoder 和 WanVideoModelLoader 初始化 Wan 2.1 以及文本和 VAE 组件。将其视为引擎室:一旦加载,视频采样器可以接受图像、文本和对话嵌入。您几乎不需要在此更改任何内容,只需确保选择了正确的 Wan 权重。

说话者音频(两种方式)

您可以自带对话音轨或合成它们:

  • 自带音频:使用 LoadAudio 导入每个说话者的台词。如果剪辑中混有音乐或噪音,请通过 AudioSeparation 传递它,并将干净的 Vocals 输出向前传递。
  • 生成音频:使用 Speaker 1 - Text 和 Speaker 2 - Text 与 IndexTTSNode 从输入文本行合成声音,选择性地提供 reference_audio 以获得所需音色。

MultiTalk 音频嵌入

MultiTalkWav2VecEmbeds 将语音转换为 MultiTalk 嵌入,捕捉每个说话者的时间和发音线索。为单人提供一个音频流,或为多人对话提供两个流。如果您的场景需要面部特定的定位,请提供干净的面部遮罩作为 ref_target_masks,以便每个声音驱动正确的人物。

提示和文本上下文

通过 Prompt 和 WanVideoTextEncodeSingle 提供的简短场景提示设置视觉氛围和环境。保持提示简洁和描述性(位置、语气、照明)。文本编码器生成的语义指导与身份和对话信号一起被 Wan 使用。

Uni3C 和 Resize

Uni3C 组准备全局上下文嵌入,以帮助稳定身份、框架和构图。Resize 组确保源图像和遮罩被缩放到模型友好的尺寸,以便采样器接收一致的输入。

KSampler 和采样处理

WanVideoSampler 是一切的汇合点:身份图像嵌入、文本嵌入和 MultiTalk 音频嵌入结合生成最终帧。下游的 Sampling processing 组在交给视频组合器之前应用任何平滑和一致性所需的后处理步骤。

多人遮罩

对于多人剪辑,在 ComfyUI 的遮罩编辑器中为每张脸绘制一个遮罩。保持遮罩分离,以免相互接触。如果您只提供一个遮罩和一个音轨,工作流程将自动作为单人 MultiTalk 设置运行。


ComfyUI MultiTalk 工作流程中的关键节点

MultiTalkWav2VecEmbeds (#79/#162)

将一个或多个对话音轨转换为 MultiTalk 对话嵌入。从单人音频输入开始,或为多人提供两个输入;需要时添加遮罩以实现每张脸的路由。只调整重要的内容:匹配计划剪辑长度的帧数,以及是否提供 ref_target_masks 以实现精确的说话者到面部对齐。

AudioSeparation (#88/#160/#161)

对嘈杂输入的可选清理。将您的嘈杂剪辑导入此节点,并向前传递 Vocals 输出。当现场录音包含背景音乐或杂音时使用;如果您已经有干净的语音轨道,则跳过此步骤。

IndexTTSNode (#163/#164)

将 Speaker 1 - Text 和 Speaker 2 - Text 转换为对话音频。提供简短的 reference_audio 以克隆语调和节奏,然后提供文本行。为 MultiTalk 保持句子简短自然,以获得最佳的对口型时机。

WanVideoTextEncodeSingle (#18)

为 Wan 2.1 编码您的场景提示。偏好简单、具体的地点、光照和风格描述。避免长列表;一两句话足以让采样器理解。


鸣谢

原始研究:MultiTalk 由 MeiGen-AI 开发,并与该领域的领先研究人员合作。原始论文 "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" 提出了该技术的突破性研究。 ComfyUI 集成:ComfyUI 实现由 Kijai 通过 ComfyUI-WanVideoWrapper 仓库提供,使这一先进技术可供更广泛的创意社区使用。

基础技术:基于 Wan2.1 视频扩散模型,并结合了 Wav2Vec 的音频处理技术,代表了尖端 AI 研究的综合。

链接和资源

  • 原始研究:
  • 项目页面:
  • ComfyUI 集成:

Want More ComfyUI Workflows?

Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
关注我们
  • 领英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 电子邮件
  • 系统状态
  • 附属
资源
  • 免费 ComfyUI 在线版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 节点
  • 了解更多
法律
  • 服务条款
  • 隐私政策
  • Cookie 政策
RunComfy
版权 2025 RunComfy. 保留所有权利。

RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Playground, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。