ComfyUI中的LongCat头像:单图像到会说话的头像视频
ComfyUI中的LongCat头像将单个参考图像转换为身份稳定、音频驱动的头像视频。基于kijai的WanVideo封装,它专注于面部一致性、流畅的运动连续性和自然的唇同步,无需对每个角色进行精细调整。您只需提供一个角色图像和一段音频轨道;工作流程即可渲染出时间一致的表现,适用于说话头片段、风格化角色表演和快速头像运动测试。
希望快速迭代的创作者会发现ComfyUI中的LongCat头像实用且可靠。工作流程使用LongCat的身份保留模型和窗口化生成方案来扩展序列,同时保持表情稳定。输出与源音频组装成视频,便于直接审阅或发布。
注意:在2XL或更高配置的机器上,请在WanVideo模型加载节点中将注意力后端设置为"sdpa"。默认的segeattn后端可能会在高端GPU上导致兼容性问题。
Comfyui LongCat头像工作流程中的关键模型
- 用于WanVideo的LongCat-Avatar模型。为ComfyUI适配的身份聚焦图像到视频生成,在帧间提供强大的角色保留。请参阅kijai在Hugging Face上的WanVideo Comfy发布以获取检查点和说明。 Hugging Face: Kijai/WanVideo_comfy
- LongCat distill LoRA。一个蒸馏的LoRA,在采样过程中增强面部结构和身份特征,提高运动下的稳定性。与WanVideo Comfy资产一起提供。 Hugging Face: Kijai/WanVideo_comfy
- Wan 2.1 VAE。用于将参考帧编码为潜在变量并将生成的样本解码回图像的视频VAE。 Hugging Face: Kijai/WanVideo_comfy
- UM-T5文本编码器。由WanVideo用于解释文本提示,从而引导场景描述和风格,同时保持身份完整。 Hugging Face: google/umt5-xxl
- Wav2Vec 2.0语音表示。提供驱动唇部和下颌运动的强大语音特征,通过MultiTalk嵌入。背景论文:wav2vec 2.0。 arXiv 和兼容模型变体:Hugging Face: TencentGameMate/chinese-wav2vec2-base
- MelBandRoFormer声乐分离器。可选的声乐-音乐分离,以便唇同步模块接收更干净的语音信号。 Hugging Face: Kijai/MelBandRoFormer_comfy
如何使用Comfyui LongCat头像工作流程
工作流程有三个主要阶段:模型和设置,音频到运动提示,以及参考图像到视频的窗口扩展。它以固定速率渲染,专为音频驱动的运动设计,然后将窗口拼接成无缝剪辑。
- 模型
WanVideoModelLoader(#122) 加载LongCat-Avatar检查点和LongCat distill LoRA,而WanVideoVAELoader(#129) 提供视频VAE。WanVideoSchedulerv2(#325) 准备扩散期间使用的采样器计划。这些组件定义了保真度、身份保留和整体外观。一旦设置,它们将作为所有后续采样步骤的骨干。
- 音频
- 使用
LoadAudio(#125) 加载语音轨道,可选地用TrimAudioDuration(#317) 修剪,并使用MelBandRoFormerSampler(#302) 分离声乐以减少背景渗透。MultiTalkWav2VecEmbeds(#194) 将清理后的语音转换为驱动嘴部运动和微妙头部动态的嵌入。有效帧数由音频持续时间决定,因此较长的音频会导致较长的序列。音频流稍后在视频组合阶段与图像复用。
- 使用
- 输入图像
- 使用
LoadImage(#284) 添加您的角色图像。ImageResizeKJv2(#281) 将其调整为模型的大小,WanVideoEncode(#312) 将其转换为在所有帧中锚定身份的ref_latent。这个潜在变量是ComfyUI中的LongCat头像管道在注入来自音频和提示的时变运动时重复使用的固定参考。
- 使用
- 扩展窗口1
WanVideoLongCatAvatarExtendEmbeds(#345) 将ref_latent与音频嵌入融合以创建第一个窗口的图像嵌入。WanVideoSamplerv2(#324) 然后将潜在变量去噪成短剪辑。WanVideoDecode(#313) 将这些转换为预览图像和第一个视频导出与VHS_VideoCombine(#320)。窗口大小和重叠在内部跟踪,以便下一个窗口可以无缝对齐。
- 扩展窗口2
- 第二个扩展组重复相同的想法以继续序列。
WanVideoLongCatAvatarExtendEmbeds(#346, #461) 计算基于先前潜在变量的嵌入,由当前重叠框定。WanVideoSamplerv2(#327, #456) 生成下一个片段,解码并与ImageBatchExtendWithOverlap(#341, #460) 合并以保持连续性。可以重复额外的窗口步骤以获得更长的结果,每个阶段可以使用VHS_VideoCombine(#386, #453) 导出。
- 第二个扩展组重复相同的想法以继续序列。
Comfyui LongCat头像工作流程中的关键节点
WanVideoModelLoader(#122)- 加载LongCat-Avatar检查点并附加LongCat distill LoRA,定义身份保真度和运动行为。如果运行较大实例,请根据WanVideo封装的建议切换注意力实现以获得更好的吞吐量。参考仓库:github.com/kijai/ComfyUI-WanVideoWrapper。
MultiTalkWav2VecEmbeds(#194)- 从语音生成音频驱动的嵌入,指导嘴唇、下颌和微妙的头部运动。为更强的发音,增加语音影响力,并在音频非常清晰时考虑额外的同步通过。背景模型信息:arXiv: wav2vec 2.0。
WanVideoLongCatAvatarExtendEmbeds(#346)- ComfyUI中的LongCat头像的核心,此节点随着时间的推移扩展图像嵌入,同时保持锚定在参考潜变量上。调整窗口长度和重叠以平衡平滑度、运行时间和长剪辑的稳定性。
WanVideoSamplerv2(#327)- 使用模型、调度器、文本指导和图像嵌入运行扩散过程。调整指导强度以在提示遵从性与变化之间进行权衡;小的变化可以对身份刚性和运动产生可见影响。
VHS_VideoCombine(#320)- 将渲染帧与原始音频复用成易于查看的mp4。使用内置修剪选项,当您希望视觉效果与音频完全一致结束或仅导出最新窗口时。
可选附加项
- 确保音频持续时间覆盖所有计划的扩展窗口,以避免在序列中途耗尽语音。
- 对于长剪辑,适度增加窗口大小,并保持一定的重叠,以保持过渡平滑;过少的重叠可能引入爆裂声,过多的重叠可能减慢渲染速度。
- 管道以固定帧率运行,与语音驱动的步幅绑定,保持唇同步在导出期间对齐。
- 如果您使用大型机器类型,请在模型加载器中设置注意力实现为内存高效选项,以提高速度。
- 不要混合不兼容的模型格式;保持主模型和任何语音组件在WanVideo Comfy发布中提供的匹配系列中。帮助模型中心:Kijai/WanVideo_comfy 和 GGUF 变体如 city96/Wan2.1-I2V-14B-480P-gguf。
致谢
此工作流程实现并建立在以下作品和资源之上。我们衷心感谢Kijai对于ComfyUI-WanVideoWrapper (LongCatAvatar工作流程) 和 @Benji’s AI Playground 参考YouTube视频的创作者对他们的贡献和维护。有关权威细节,请参阅下面链接的原始文档和存储库。
资源
- YouTube/视频教程
- 文档 / 发布说明:Benji’s AI Playground YouTube视频
- Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
注意:使用参考模型、数据集和代码需遵循其作者和维护者提供的各自许可和条款。

