logo
RunComfy
  • Models
  • ComfyUI
  • TrainerNew
  • API
  • Pricing
discord logo
ComfyUI>工作流>ComfyUI中的LongCat头像 | 身份一致的头像动画

ComfyUI中的LongCat头像 | 身份一致的头像动画

Workflow Name: RunComfy/LongCat-Avatar-in-ComfyUI
Workflow ID: 0000...1327
使用WanVideo框架,这个强大的工作流程将一张静态图像转化为流畅且富有表现力的动画头像。您可以在每一帧中保持角色身份和面部完整性。它实现了快速、稳定的动画原型制作,设置简单。适合测试头像风格或运动理念,这个系统保持每个动画的连贯性和情感吸引力。完美适合希望探索角色运动的创作者,而无需大量训练或复杂设置。

ComfyUI中的LongCat头像:单图像到会说话的头像视频

ComfyUI中的LongCat头像将单个参考图像转换为身份稳定、音频驱动的头像视频。基于kijai的WanVideo封装,它专注于面部一致性、流畅的运动连续性和自然的唇同步,无需对每个角色进行精细调整。您只需提供一个角色图像和一段音频轨道;工作流程即可渲染出时间一致的表现,适用于说话头片段、风格化角色表演和快速头像运动测试。

希望快速迭代的创作者会发现ComfyUI中的LongCat头像实用且可靠。工作流程使用LongCat的身份保留模型和窗口化生成方案来扩展序列,同时保持表情稳定。输出与源音频组装成视频,便于直接审阅或发布。

注意:在2XL或更高配置的机器上,请在WanVideo模型加载节点中将注意力后端设置为"sdpa"。默认的segeattn后端可能会在高端GPU上导致兼容性问题。

Comfyui LongCat头像工作流程中的关键模型

  • 用于WanVideo的LongCat-Avatar模型。为ComfyUI适配的身份聚焦图像到视频生成,在帧间提供强大的角色保留。请参阅kijai在Hugging Face上的WanVideo Comfy发布以获取检查点和说明。 Hugging Face: Kijai/WanVideo_comfy
  • LongCat distill LoRA。一个蒸馏的LoRA,在采样过程中增强面部结构和身份特征,提高运动下的稳定性。与WanVideo Comfy资产一起提供。 Hugging Face: Kijai/WanVideo_comfy
  • Wan 2.1 VAE。用于将参考帧编码为潜在变量并将生成的样本解码回图像的视频VAE。 Hugging Face: Kijai/WanVideo_comfy
  • UM-T5文本编码器。由WanVideo用于解释文本提示,从而引导场景描述和风格,同时保持身份完整。 Hugging Face: google/umt5-xxl
  • Wav2Vec 2.0语音表示。提供驱动唇部和下颌运动的强大语音特征,通过MultiTalk嵌入。背景论文:wav2vec 2.0。 arXiv 和兼容模型变体:Hugging Face: TencentGameMate/chinese-wav2vec2-base
  • MelBandRoFormer声乐分离器。可选的声乐-音乐分离,以便唇同步模块接收更干净的语音信号。 Hugging Face: Kijai/MelBandRoFormer_comfy

如何使用Comfyui LongCat头像工作流程

工作流程有三个主要阶段:模型和设置,音频到运动提示,以及参考图像到视频的窗口扩展。它以固定速率渲染,专为音频驱动的运动设计,然后将窗口拼接成无缝剪辑。

  • 模型
    • WanVideoModelLoader (#122) 加载LongCat-Avatar检查点和LongCat distill LoRA,而WanVideoVAELoader (#129) 提供视频VAE。WanVideoSchedulerv2 (#325) 准备扩散期间使用的采样器计划。这些组件定义了保真度、身份保留和整体外观。一旦设置,它们将作为所有后续采样步骤的骨干。
  • 音频
    • 使用LoadAudio (#125) 加载语音轨道,可选地用TrimAudioDuration (#317) 修剪,并使用MelBandRoFormerSampler (#302) 分离声乐以减少背景渗透。MultiTalkWav2VecEmbeds (#194) 将清理后的语音转换为驱动嘴部运动和微妙头部动态的嵌入。有效帧数由音频持续时间决定,因此较长的音频会导致较长的序列。音频流稍后在视频组合阶段与图像复用。
  • 输入图像
    • 使用LoadImage (#284) 添加您的角色图像。ImageResizeKJv2 (#281) 将其调整为模型的大小,WanVideoEncode (#312) 将其转换为在所有帧中锚定身份的ref_latent。这个潜在变量是ComfyUI中的LongCat头像管道在注入来自音频和提示的时变运动时重复使用的固定参考。
  • 扩展窗口1
    • WanVideoLongCatAvatarExtendEmbeds (#345) 将ref_latent与音频嵌入融合以创建第一个窗口的图像嵌入。WanVideoSamplerv2 (#324) 然后将潜在变量去噪成短剪辑。WanVideoDecode (#313) 将这些转换为预览图像和第一个视频导出与VHS_VideoCombine (#320)。窗口大小和重叠在内部跟踪,以便下一个窗口可以无缝对齐。
  • 扩展窗口2
    • 第二个扩展组重复相同的想法以继续序列。WanVideoLongCatAvatarExtendEmbeds (#346, #461) 计算基于先前潜在变量的嵌入,由当前重叠框定。WanVideoSamplerv2 (#327, #456) 生成下一个片段,解码并与ImageBatchExtendWithOverlap (#341, #460) 合并以保持连续性。可以重复额外的窗口步骤以获得更长的结果,每个阶段可以使用VHS_VideoCombine (#386, #453) 导出。

Comfyui LongCat头像工作流程中的关键节点

  • WanVideoModelLoader (#122)
    • 加载LongCat-Avatar检查点并附加LongCat distill LoRA,定义身份保真度和运动行为。如果运行较大实例,请根据WanVideo封装的建议切换注意力实现以获得更好的吞吐量。参考仓库:github.com/kijai/ComfyUI-WanVideoWrapper。
  • MultiTalkWav2VecEmbeds (#194)
    • 从语音生成音频驱动的嵌入,指导嘴唇、下颌和微妙的头部运动。为更强的发音,增加语音影响力,并在音频非常清晰时考虑额外的同步通过。背景模型信息:arXiv: wav2vec 2.0。
  • WanVideoLongCatAvatarExtendEmbeds (#346)
    • ComfyUI中的LongCat头像的核心,此节点随着时间的推移扩展图像嵌入,同时保持锚定在参考潜变量上。调整窗口长度和重叠以平衡平滑度、运行时间和长剪辑的稳定性。
  • WanVideoSamplerv2 (#327)
    • 使用模型、调度器、文本指导和图像嵌入运行扩散过程。调整指导强度以在提示遵从性与变化之间进行权衡;小的变化可以对身份刚性和运动产生可见影响。
  • VHS_VideoCombine (#320)
    • 将渲染帧与原始音频复用成易于查看的mp4。使用内置修剪选项,当您希望视觉效果与音频完全一致结束或仅导出最新窗口时。

可选附加项

  • 确保音频持续时间覆盖所有计划的扩展窗口,以避免在序列中途耗尽语音。
  • 对于长剪辑,适度增加窗口大小,并保持一定的重叠,以保持过渡平滑;过少的重叠可能引入爆裂声,过多的重叠可能减慢渲染速度。
  • 管道以固定帧率运行,与语音驱动的步幅绑定,保持唇同步在导出期间对齐。
  • 如果您使用大型机器类型,请在模型加载器中设置注意力实现为内存高效选项,以提高速度。
  • 不要混合不兼容的模型格式;保持主模型和任何语音组件在WanVideo Comfy发布中提供的匹配系列中。帮助模型中心:Kijai/WanVideo_comfy 和 GGUF 变体如 city96/Wan2.1-I2V-14B-480P-gguf。

致谢

此工作流程实现并建立在以下作品和资源之上。我们衷心感谢Kijai对于ComfyUI-WanVideoWrapper (LongCatAvatar工作流程) 和 @Benji’s AI Playground 参考YouTube视频的创作者对他们的贡献和维护。有关权威细节,请参阅下面链接的原始文档和存储库。

资源

  • YouTube/视频教程
    • 文档 / 发布说明:Benji’s AI Playground YouTube视频
  • Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
    • GitHub: kijai/ComfyUI-WanVideoWrapper
    • 文档 / 发布说明:LongCatAvatar_testing_wip.json (branch longcat_avatar)

注意:使用参考模型、数据集和代码需遵循其作者和维护者提供的各自许可和条款。

Want More ComfyUI Workflows?

Wan 2.1 | 革命性的视频生成

利用突破性的 AI 在普通 CPU 上从文本或图像创建令人难以置信的视频。

Wan 2.1 LoRA

使用LoRA模型增强Wan 2.1视频生成,以改善风格和定制化。

Wan 2.1 控制 LoRA | 深度和瓦片

使用轻量级深度和瓦片 LoRAs 改进结构和细节,推进 Wan 2.1 视频生成。

Janus-Pro | T2I + I2T 模型

Janus-Pro:高级文本到图像和图像到文本生成。

Wan FusionX | T2V+I2V+VACE 完整

迄今为止最强大的视频生成解决方案!影院级细节,您的个人电影工作室。

Blender + ComfyUI | AI 渲染 3D 动画

使用 Blender 设置 3D 场景并生成图像序列,然后使用 ComfyUI 进行 AI 渲染。

FLUX Img2Img | 合并视觉效果和提示

FLUX Img2Img | 合并视觉效果和提示

合并视觉效果和提示,获得令人惊叹的增强效果。

ReActor | 快速换脸

使用 ComfyUI ReActor,您可以轻松地在图像或视频中交换一个或多个角色的面孔。

关注我们
  • 领英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 电子邮件
  • 系统状态
  • 附属
资源
  • 免费 ComfyUI 在线版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 节点
  • 了解更多
法律
  • 服务条款
  • 隐私政策
  • Cookie 政策
RunComfy
版权 2025 RunComfy. 保留所有权利。

RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。