ComfyUI 中的 MultiTalk 工作流程 | 照片生成说话视频

This ComfyUI MultiTalk workflow integrates MeiGen-AI's MultiTalk model with kijai's ComfyUI-WanVideoWrapper implementation. Credit to MeiGen-AI team for the innovative MultiTalk technology and kijai for the ComfyUI workflow integration!

Best used with 2X Large machines for stable memory performance.

ComfyUI MultiTalk Workflow

MultiTalk Workflow in ComfyUI | Photo to Talking Video

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI MultiTalk Examples

⚠️ 重要提示：此 ComfyUI MultiTalk 实现目前仅支持单人生成。多人对话功能即将推出。

1. 什么是 MultiTalk？#

MultiTalk 是由 MeiGen-AI 开发的革命性音频驱动多人对话视频生成框架。与仅对面部动作进行动画处理的传统说话头像生成方法不同，MultiTalk 技术可以生成人们说话、唱歌和互动的逼真视频，同时与音频输入保持完美的唇形同步。MultiTalk 将静态照片转换为动态说话视频，让人物按照您的要求说话或唱歌。

2. MultiTalk 工作原理#

MultiTalk 利用先进的 AI 技术来理解音频信号和视觉信息。ComfyUI MultiTalk 实现结合了 MultiTalk + Wan2.1 + Uni3C 以获得最佳效果：

音频分析： MultiTalk 使用强大的音频编码器（Wav2Vec）来理解语音的细微差别，包括节奏、音调和发音模式。

视觉理解： MultiTalk 建立在强大的 Wan2.1 视频扩散模型之上，能够理解人体解剖学、面部表情和身体动作（您可以访问我们的 Wan2.1 工作流程进行 t2v/i2v 生成）。

摄像头控制： 搭配 Uni3C controlnet 的 MultiTalk 可实现微妙的摄像头移动和场景控制，使视频更加动态和专业。查看我们的 Uni3C 工作流程来创建精美的摄像头运动转移。

完美同步： 通过精密的注意力机制，MultiTalk 学会在保持自然面部表情和肢体语言的同时，将唇部动作与音频完美对齐。

指令跟随： 与更简单的方法不同，MultiTalk 可以在保持音频同步的同时，通过文本提示来控制场景、姿势和整体行为。

3. ComfyUI MultiTalk 的优势#

高质量唇形同步： MultiTalk 实现毫秒级唇形同步精度，在唱歌场景中尤为出色
多样化内容创作： MultiTalk 支持各种角色类型（包括卡通角色）的说话和唱歌生成
灵活分辨率： MultiTalk 以任意宽高比生成 480P 或 720P 视频
长视频支持： MultiTalk 可创建长达 15 秒的视频
指令跟随： MultiTalk 通过文本提示控制角色动作和场景设置

4. 如何使用 ComfyUI MultiTalk 工作流程#

MultiTalk 分步使用指南#

步骤 1：准备 MultiTalk 输入

上传参考图像： 在 Load Image 节点中点击 "choose file to upload"
- 使用清晰的正面照片以获得最佳 MultiTalk 效果
- 图像将自动调整为最佳尺寸（推荐 832px）
上传音频文件： 在 LoadAudio 节点中点击 "choose file to upload"
- MultiTalk 支持多种音频格式（WAV、MP3 等）
- 清晰的语音/歌声在 MultiTalk 中效果最佳
- 对于自定义歌曲制作，可以考虑使用我们的 Ace-Step 音乐生成工作流程，它可以生成带有同步歌词的高质量音乐。
编写文本提示： 在文本编码节点中描述您想要的 MultiTalk 生成场景