注意:
这是我们 ComfyUI MultiTalk 工作流程的升级版多人版本。
它现在支持多人对话视频生成,同时仍包括我们之前版本的单人模式。
此工作流程非常适合社交内容、产品说明、角色对话和快速预览。它将 MultiTalk 音频嵌入与视频扩散配对,使嘴唇、下颚和细微的面部线索跟随语音。可以用作 Meigen MultiTalk 多说话者场景或精简的单说话者片段的即插即用路径。
Wan 2.1 视频扩散模型
驱动核心文本和图像条件的视频生成。它处理场景外观、摄像机和运动,同时接受额外的指导以处理对话动态。
Wav2Vec 2.0
提取强大的语音表示,MultiTalk 将其转换为特定于对话的嵌入。参考:。
MultiTalk (MeiGen-AI)
音频驱动的多人对话视频的研究方法。参考实现:。
ComfyUI Wan Video Wrapper
ComfyUI 集成,公开 Wan 2.1 的加载、编码器和视频采样器,以及 MultiTalk 嵌入节点。参考:。
Index-TTS (可选)
语音参考的文本到语音生成,用于在工作流程内生成干净的对话音轨。参考:。
此工作流程从头到尾运行:您准备说话者和音频,设置一个简短的场景提示,然后渲染。它支持多人和单人设置。图中的分组保持组织有序;下面描述了最重要的分组。
加载用于说话者面孔和预览遮罩的身份图像,然后将最终帧与音频混合。LoadImage
节点接受您的肖像,而 VHS_VideoCombine
将渲染的帧与选定的音轨组合成 MP4。在设置期间可以使用 PreviewAudio
刷音频以确认音量和持续时间。
Get_WanModel
、Get_WanTextEncoder
和 WanVideoModelLoader
初始化 Wan 2.1 以及文本和 VAE 组件。将其视为引擎室:一旦加载,视频采样器可以接受图像、文本和对话嵌入。您几乎不需要在此更改任何内容,只需确保选择了正确的 Wan 权重。
您可以自带对话音轨或合成它们:
LoadAudio
导入每个说话者的台词。如果剪辑中混有音乐或噪音,请通过 AudioSeparation
传递它,并将干净的 Vocals
输出向前传递。Speaker 1 - Text
和 Speaker 2 - Text
与 IndexTTSNode
从输入文本行合成声音,选择性地提供 reference_audio
以获得所需音色。MultiTalkWav2VecEmbeds
将语音转换为 MultiTalk 嵌入,捕捉每个说话者的时间和发音线索。为单人提供一个音频流,或为多人对话提供两个流。如果您的场景需要面部特定的定位,请提供干净的面部遮罩作为 ref_target_masks
,以便每个声音驱动正确的人物。
通过 Prompt
和 WanVideoTextEncodeSingle
提供的简短场景提示设置视觉氛围和环境。保持提示简洁和描述性(位置、语气、照明)。文本编码器生成的语义指导与身份和对话信号一起被 Wan 使用。
Uni3C 组准备全局上下文嵌入,以帮助稳定身份、框架和构图。Resize 组确保源图像和遮罩被缩放到模型友好的尺寸,以便采样器接收一致的输入。
WanVideoSampler
是一切的汇合点:身份图像嵌入、文本嵌入和 MultiTalk 音频嵌入结合生成最终帧。下游的 Sampling processing 组在交给视频组合器之前应用任何平滑和一致性所需的后处理步骤。
对于多人剪辑,在 ComfyUI 的遮罩编辑器中为每张脸绘制一个遮罩。保持遮罩分离,以免相互接触。如果您只提供一个遮罩和一个音轨,工作流程将自动作为单人 MultiTalk 设置运行。
MultiTalkWav2VecEmbeds
(#79/#162)将一个或多个对话音轨转换为 MultiTalk 对话嵌入。从单人音频输入开始,或为多人提供两个输入;需要时添加遮罩以实现每张脸的路由。只调整重要的内容:匹配计划剪辑长度的帧数,以及是否提供 ref_target_masks
以实现精确的说话者到面部对齐。
AudioSeparation
(#88/#160/#161)对嘈杂输入的可选清理。将您的嘈杂剪辑导入此节点,并向前传递 Vocals
输出。当现场录音包含背景音乐或杂音时使用;如果您已经有干净的语音轨道,则跳过此步骤。
IndexTTSNode
(#163/#164)将 Speaker 1 - Text
和 Speaker 2 - Text
转换为对话音频。提供简短的 reference_audio
以克隆语调和节奏,然后提供文本行。为 MultiTalk 保持句子简短自然,以获得最佳的对口型时机。
WanVideoTextEncodeSingle
(#18)为 Wan 2.1 编码您的场景提示。偏好简单、具体的地点、光照和风格描述。避免长列表;一两句话足以让采样器理解。
原始研究:MultiTalk 由 MeiGen-AI 开发,并与该领域的领先研究人员合作。原始论文 "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" 提出了该技术的突破性研究。 ComfyUI 集成:ComfyUI 实现由 Kijai 通过 ComfyUI-WanVideoWrapper 仓库提供,使这一先进技术可供更广泛的创意社区使用。
基础技术:基于 Wan2.1 视频扩散模型,并结合了 Wav2Vec 的音频处理技术,代表了尖端 AI 研究的综合。
RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Playground, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。