LongCat 视频头像 1.5 单角色 ComfyUI#
此工作流将单个参考图像和语音轨道转换为同步的垂直会说话的头像。基于 LongCat-Avatar-15 和 WanVideoWrapper 自定义节点构建,使用 Whisper 提取语音提示,Wan 2.1 VAE 进行潜在编码/解码,并使用精炼的 LongCat LoRA 保持身份。结果是一个保持角色外观和嘴部运动同步的 MP4 纵向视频。
设计为单角色路径,LongCat 视频头像 1.5 单角色 ComfyUI 工作流是想要 RunComfy 准备模板的创作者的理想选择,具有清晰的输入和可再现的输出。您只需提供一个面部图像和一个音频片段,调整几个风格提示,就可以渲染一致的头像视频,无需额外布线。
Comfyui LongCat 视频头像 1.5 单角色 ComfyUI 工作流中的关键模型#
- LongCat-Avatar-15(精炼)和 LongCat Avatar LoRA:适用于 ComfyUI 的身份保留视频生成权重。提供在社区包中,以便头像在说话时保持外观。模型文件
- Wan 2.1 VAE:用于将参考帧编码为潜在空间并将最终帧解码回图像的视频导向变分自编码器。与相同的社区包一起提供。模型文件
- OpenAI Whisper large v3:驱动嘴部形状和时序的语音表示,实现准确的唇同步。模型卡
- Google UMT5-XXL 文本编码器:将正/负提示转换为运动和姿势细微差别的条件。模型卡
如何使用 Comfyui LongCat 视频头像 1.5 单角色 ComfyUI 工作流#
图形遵循从输入到视频的清晰路径:加载资产,计算音频嵌入,准备文本指导,编码外观,采样帧,然后混合音频并保存。
参考图像#
将单个正面肖像加载到 LoadImage (#26)。图像由 ImageResizeKJv2 (#25) 正常化为垂直的 9:16 画布,以便角色填满帧而不失真。使用干净、光线均匀的面孔,遮挡最小,以获得最佳身份保留。如果您的来源比高更宽,请以头部和肩部为中心裁剪。
语音音频#
将音频文件放入 LoadAudio (#5)。如有需要,使用 TrimAudioDuration (#29) 剪辑,以便最终视频长度符合您的目标。小型数学工具 (Evaluate Floats (#39)) 将您选择的秒数乘以每秒帧数,以自动设置总帧数。调整秒数或 FPS 是控制时长的快捷方式。
语音嵌入(唇同步)#
LongCatAvatarWhisperEmbeds (#3) 运行 Whisper 以生成 MultiTalk 嵌入,编码音素、停顿和强调。这些嵌入是嘴部形状和微妙头部运动的时序骨架。确保此处的总帧数和 FPS 与您的导出设置匹配,以防止漂移。录音电平变化时,选择启用响度规范化。
文本指导#
LoadWanVideoT5TextEncoder (#16) 和 WanVideoTextEncode (#15) 将您的正面和负面提示转换为条件。使用正面提示描述您想要的自然行为(如平静的头部转动、细微的点头),使用负面提示避免不想要的伪影(如僵硬的运动、变形的手)。文本指导在不改变角色身份的情况下引导运动风格。
编码外观#
WanVideoVAELoader (#19) 和 WanVideoEncode (#24) 将您的肖像转换为潜在空间。WanVideoLongCatAvatarExtendEmbeds (#6) 然后将参考潜在空间与音频嵌入融合,以便身份在帧之间保持稳定,而嘴部跟随语音。如果音频比剪辑短,节点可以智能填充或循环,以保持时间的平滑。
加载头像模型#
WanVideoLoraSelect (#27) 将精炼的 LongCat Avatar LoRA 附加到 LongCat-Avatar-15 基础模型,所有这些都由 WanVideoModelLoader (#8) 加载。此配对在启用富有表现力的说话动作的同时保持面部特征。内部块交换助手在共享或中等 GPU 上保持 VRAM 使用的可预测性。
采样帧#
WanVideoSchedulerv2 (#52) 选择适用于 LongCat 精炼的求解器时间表,WanVideoSamplerv2 (#51) 生成潜在视频。设置种子以获得可再现的结果,并根据需要调整指导强度,以获得更多或更少的提示遵从性。采样器将图像、文本和音频驱动的图像嵌入一起使用,以便嘴部、头部和身份保持一致。
解码并保存 MP4#
WanVideoDecode (#20) 将最终的潜在空间转换回图像。VHS_VideoCombine (#14) 将帧和音频合并为指定帧率和文件名前缀的 H.264 MP4。输出是一个准备分享的垂直会说话的头像剪辑,保持唇同步和风格完整。
Comfyui LongCat 视频头像 1.5 单角色 ComfyUI 工作流中的关键节点#
LongCatAvatarWhisperEmbeds (#3)#
从 Whisper 创建驱动唇同步和微时序的 MultiTalk 音频嵌入。保持 fps 和 num_frames 与您的导出对齐,以避免不同步。当录音电平变化时,启用响度规范化。此节点来自 WanVideoWrapper LongCat 集成。Repo
WanVideoLongCatAvatarExtendEmbeds (#6)#
将参考潜在空间和音频嵌入融合为帧感知的图像嵌入。如果您的语音比目标长度短,选择如何填充或循环,以保持动作自然。重叠和参考帧设置有助于在较长剪辑中保持身份稳定性。Repo
WanVideoModelLoader (#8)#
加载 LongCat-Avatar-15 基础模型以及选定的 LongCat Avatar LoRA,以保持身份忠实。在受限硬件上运行时,使用包含的 VRAM 管理和块交换选项。可以在这里切换到不同的 LongCat 变体或 LoRA,以在不重新布线的情况下改变风格。Repo
WanVideoSamplerv2 (#51)#
主要生成器,从模型、调度器、文本和图像嵌入合成帧。如果需要更紧密的提示遵从性或更松散的运动,请调整无分类器指导。固定种子以锁定多次渲染的一致性。Repo
ImageResizeKJv2 (#25)#
准备一个纵向画布,使头像填满 9:16 帧。在面部和肩部周围保持正确的裁剪,以确保可靠的身份编码。匹配编码器/解码器的可分性可避免边缘伪影。
VHS_VideoCombine (#14)#
将帧和音频合并为一个具有您选择的帧率和文件名前缀的 MP4。启用元数据保存以便于迭代跟踪。此节点是 VideoHelperSuite 的一部分。Repo
可选额外功能#
- 使用中性、正面照片,眼睛和嘴巴清晰;避免重遮挡和极端角度。
- 清理音频(去除长时间静音,减少背景噪音)以获得更稳定的嘴部运动。
- 在 whisper 嵌入阶段和最后的导出之间保持 FPS 一致,以保持紧密的唇同步。
- 为了更强的身份保留,请坚持使用提供的 LongCat Avatar LoRA;仅在您打算改变风格时更换 LoRA。模型文件
- 在需要相同的重新渲染或仅测试单个提示更改时设置固定种子。
- 在较低的 VRAM 上,在模型加载器中启用块交换,以在速度和稳定性之间进行权衡。
鸣谢#
此工作流实现并构建在以下作品和资源之上。我们衷心感谢 RunningHub 提供工作流来源,Meigen AI 提供 LongCat 视频头像 1.5,以及 Kijai 提供 LongCat-Video_comfy 模型文件和 ComfyUI-WanVideoWrapper 的贡献和维护。有关权威详情,请参阅以下链接的原始文档和存储库。
资源#
- RunningHub/Workflow source
- 文档 / 发布说明: RunningHub workflow source
- Meigen AI/LongCat 视频头像 1.5 项目页面
- 文档 / 发布说明: LongCat Video Avatar 1.5 project page
- Kijai/LongCat 视频 Comfy 模型文件
- Hugging Face: Kijai/LongCat-Video_comfy
- Kijai/ComfyUI-WanVideoWrapper
- GitHub: kijai/ComfyUI-WanVideoWrapper
注意:使用引用的模型、数据集和代码需遵循其作者和维护者提供的相应许可证和条款。
