ComfyUI中的LongCat头像 | WanVideo身份保留动画

ComfyUI中的LongCat头像：单图像到会说话的头像视频

ComfyUI中的LongCat头像将单个参考图像转换为身份稳定、音频驱动的头像视频。基于kijai的WanVideo封装，它专注于面部一致性、流畅的运动连续性和自然的唇同步，无需对每个角色进行精细调整。您只需提供一个角色图像和一段音频轨道；工作流程即可渲染出时间一致的表现，适用于说话头片段、风格化角色表演和快速头像运动测试。

希望快速迭代的创作者会发现ComfyUI中的LongCat头像实用且可靠。工作流程使用LongCat的身份保留模型和窗口化生成方案来扩展序列，同时保持表情稳定。输出与源音频组装成视频，便于直接审阅或发布。

注意：在2XL或更高配置的机器上，请在WanVideo模型加载节点中将注意力后端设置为"sdpa"。默认的segeattn后端可能会在高端GPU上导致兼容性问题。

Comfyui LongCat头像工作流程中的关键模型

用于WanVideo的LongCat-Avatar模型。为ComfyUI适配的身份聚焦图像到视频生成，在帧间提供强大的角色保留。请参阅kijai在Hugging Face上的WanVideo Comfy发布以获取检查点和说明。 Hugging Face: Kijai/WanVideo_comfy
LongCat distill LoRA。一个蒸馏的LoRA，在采样过程中增强面部结构和身份特征，提高运动下的稳定性。与WanVideo Comfy资产一起提供。 Hugging Face: Kijai/WanVideo_comfy
Wan 2.1 VAE。用于将参考帧编码为潜在变量并将生成的样本解码回图像的视频VAE。 Hugging Face: Kijai/WanVideo_comfy
UM-T5文本编码器。由WanVideo用于解释文本提示，从而引导场景描述和风格，同时保持身份完整。 Hugging Face: google/umt5-xxl
Wav2Vec 2.0语音表示。提供驱动唇部和下颌运动的强大语音特征，通过MultiTalk嵌入。背景论文：wav2vec 2.0。 arXiv 和兼容模型变体：Hugging Face: TencentGameMate/chinese-wav2vec2-base
MelBandRoFormer声乐分离器。可选的声乐-音乐分离，以便唇同步模块接收更干净的语音信号。 Hugging Face: Kijai/MelBandRoFormer_comfy

如何使用Comfyui LongCat头像工作流程

工作流程有三个主要阶段：模型和设置，音频到运动提示，以及参考图像到视频的窗口扩展。它以固定速率渲染，专为音频驱动的运动设计，然后将窗口拼接成无缝剪辑。

模型
- WanVideoModelLoader (#122) 加载LongCat-Avatar检查点和LongCat distill LoRA，而WanVideoVAELoader (#129) 提供视频VAE。WanVideoSchedulerv2 (#325) 准备扩散期间使用的采样器计划。这些组件定义了保真度、身份保留和整体外观。一旦设置，它们将作为所有后续采样步骤的骨干。
音频
- 使用LoadAudio (#125) 加载语音轨道，可选地用TrimAudioDuration (#317) 修剪，并使用MelBandRoFormerSampler (#302) 分离声乐以减少背景渗透。MultiTalkWav2VecEmbeds (#194) 将清理后的语音转换为驱动嘴部运动和微妙头部动态的嵌入。有效帧数由音频持续时间决定，因此较长的音频会导致较长的序列。音频流稍后在视频组合阶段与图像复用。
输入图像
- 使用LoadImage (#284) 添加您的角色图像。ImageResizeKJv2 (#281) 将其调整为模型的大小，WanVideoEncode (#312) 将其转换为在所有帧中锚定身份的ref_latent。这个潜在变量是ComfyUI中的LongCat头像管道在注入来自音频和提示的时变运动时重复使用的固定参考。
扩展窗口1
- WanVideoLongCatAvatarExtendEmbeds (#345) 将ref_latent与音频嵌入融合以创建第一个窗口的图像嵌入。WanVideoSamplerv2 (#324) 然后将潜在变量去噪成短剪辑。WanVideoDecode (#313) 将这些转换为预览图像和第一个视频导出与VHS_VideoCombine (#320)。窗口大小和重叠在内部跟踪，以便下一个窗口可以无缝对齐。
扩展窗口2
- 第二个扩展组重复相同的想法以继续序列。WanVideoLongCatAvatarExtendEmbeds (#346, #461) 计算基于先前潜在变量的嵌入，由当前重叠框定。WanVideoSamplerv2 (#327, #456) 生成下一个片段，解码并与ImageBatchExtendWithOverlap (#341, #460) 合并以保持连续性。可以重复额外的窗口步骤以获得更长的结果，每个阶段可以使用VHS_VideoCombine (#386, #453) 导出。

Comfyui LongCat头像工作流程中的关键节点

WanVideoModelLoader (#122)
- 加载LongCat-Avatar检查点并附加LongCat distill LoRA，定义身份保真度和运动行为。如果运行较大实例，请根据WanVideo封装的建议切换注意力实现以获得更好的吞吐量。参考仓库：github.com/kijai/ComfyUI-WanVideoWrapper。
MultiTalkWav2VecEmbeds (#194)
- 从语音生成音频驱动的嵌入，指导嘴唇、下颌和微妙的头部运动。为更强的发音，增加语音影响力，并在音频非常清晰时考虑额外的同步通过。背景模型信息：arXiv: wav2vec 2.0。
WanVideoLongCatAvatarExtendEmbeds (#346)
- ComfyUI中的LongCat头像的核心，此节点随着时间的推移扩展图像嵌入，同时保持锚定在参考潜变量上。调整窗口长度和重叠以平衡平滑度、运行时间和长剪辑的稳定性。
WanVideoSamplerv2 (#327)
- 使用模型、调度器、文本指导和图像嵌入运行扩散过程。调整指导强度以在提示遵从性与变化之间进行权衡；小的变化可以对身份刚性和运动产生可见影响。
VHS_VideoCombine (#320)
- 将渲染帧与原始音频复用成易于查看的mp4。使用内置修剪选项，当您希望视觉效果与音频完全一致结束或仅导出最新窗口时。

可选附加项

确保音频持续时间覆盖所有计划的扩展窗口，以避免在序列中途耗尽语音。
对于长剪辑，适度增加窗口大小，并保持一定的重叠，以保持过渡平滑；过少的重叠可能引入爆裂声，过多的重叠可能减慢渲染速度。
管道以固定帧率运行，与语音驱动的步幅绑定，保持唇同步在导出期间对齐。
如果您使用大型机器类型，请在模型加载器中设置注意力实现为内存高效选项，以提高速度。
不要混合不兼容的模型格式；保持主模型和任何语音组件在WanVideo Comfy发布中提供的匹配系列中。帮助模型中心：Kijai/WanVideo_comfy 和 GGUF 变体如 city96/Wan2.1-I2V-14B-480P-gguf。

致谢

此工作流程实现并建立在以下作品和资源之上。我们衷心感谢Kijai对于ComfyUI-WanVideoWrapper (LongCatAvatar工作流程) 和 @Benji’s AI Playground 参考YouTube视频的创作者对他们的贡献和维护。有关权威细节，请参阅下面链接的原始文档和存储库。