ComfyUI>工作流>LTX-2.3 ICLoRA LipDub工作流程 | 唇同步视频生成器

LTX-2.3 ICLoRA LipDub工作流程 | 唇同步视频生成器

Workflow Name: RunComfy/LTX-2.3-ICLoRA-LipDub
Workflow ID: 0000...1424
此工作流程允许您从现有素材和音轨生成完美同步的对话视频。借助高级的Lightricks模型,确保自然的唇部运动和语音对齐。您可以快速创建令人信服的对话场景,而无需手动编辑。对于寻求精确语音同步和在视觉上表现真实感的创作者来说,这是理想的选择。通过标准化输入和输出,简化了高效使用和可重复的结果。

ComfyUI LTX-2.3 ICLoRA LipDub Workflow

LTX-2.3 ICLoRA LipDub in ComfyUI | Precise Lip-Sync Video Creation
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI LTX-2.3 ICLoRA LipDub Examples

LTX-2.3 ICLoRA LipDub for ComfyUI#

LTX-2.3 ICLoRA LipDub是一个双通道、视频和音频控制的ComfyUI工作流程,在保持身份和运动一致的同时为对话者配音。它结合了Lightricks LTX-2.3文本和视频条件与LipDub IC-LoRA,以精确对齐嘴部运动到提供的语音,然后在更高分辨率下细化结果以获得清晰的细节。该图为RunComfy准备,具有标准化输入/输出名称,因此您可以可靠地交换媒体和重复运行。

这个ComfyUI LTX-2.3 ICLoRA LipDub工作流程非常适合需要多语言配音、改写或类似ADR修正的创作者,同时保留原始表演。提供已经包含目标语音的源视频,描述场景和人物应该说的话,工作流程将合成同步的视觉和音频到一个完成的剪辑。

ComfyUI LTX-2.3 ICLoRA LipDub工作流程中的关键模型#

  • LTX-2.3 22B基础视频模型。生成视频的基础扩散模型,控制提示如何引导外观、运动和风格。
  • LTX-2.3 IC-LoRA LipDub。专门用于唇同步的LoRA,条件模型遵循提供的语音并将嘴形对齐到音素,同时保留身份和头部运动。模型卡
  • LTX-2.3音频VAE。将输入语音编码为音频潜在空间,可以注入文本条件并稍后解码回波形,确保时间保持与帧同步。
  • LTX-2.3空间上采样器x2。在高分辨率细化通过前将视频潜在空间上采样到更高的空间分辨率,改善纹理而不改变运动。
  • LTX-2.3蒸馏LoRA (384)。与基础检查点一起使用的强化LoRA,以提高细节和时间稳定性而不过度拟合参考帧。

如何使用ComfyUI LTX-2.3 ICLoRA LipDub工作流程#

此工作流程在两个协调阶段运行:低分辨率通过将时间和嘴形锁定到音频,然后是高分辨率通过上采样和细化细节,同时保持同步。首先加载已包含所需语音的源视频,然后编写您希望人物说的文本行。

加载原始视频#

LoadVideo (#5002)节点导入嵌入音频的源剪辑。GetVideoComponents (#5010)提取帧、音频和帧率;帧率在整个图中共享,因此视频和音频保持对齐。两个调整器,Resize Image/Mask (s1 size) (#5009)和Resize Image/Mask (s2 size) (#5003),为低分辨率和高分辨率通过准备工作图像流。帧数被测量并四舍五入为采样器友好的长度,以保持解码稳定。

加载模型#

CheckpointLoaderSimple (#5017)加载整个图中使用的LTX-2.3 22B基础模型和VAE。两个加载器,LoraLoaderModelOnly (#5018)和LTXICLoRALoaderModelOnly (#5012),在基础上添加蒸馏LoRA和IC-LoRA LipDub,因此生成器在保持身份的同时遵循语音。LTXVAudioVAELoader (#4010)提供编码/解码音轨的音频VAE。IC-LoRA加载器的latent_downscale_factor输出在此处故意未使用,因为LipDub训练假定全分辨率参考帧,与附带注释匹配。

设置提示#

CLIP Text Encode (Positive Prompt) (#2483)中编写场景描述和确切的口语行。使用CLIP Text Encode (Negative Prompt) (#2612)来最小化不希望的特征或伪影。这些输入到LTXVConditioning (#1241),它将条件适应到视频领域并将帧率上下文向前传递。对于低VRAM运行,图中还包括基于API的编码器(🅛🅣🅧 Gemma API Text Encode - POSITIVE (#4980)和... - NEGATIVE (#4981)),通过LTX API KEY字符串 (#4979)进行门控;默认接线使用本地编码器。

预处理#

LTXVAudioVAEEncode (#5005)将源语音转换为音频潜在空间,LTXVSetAudioRefTokens (#5006)将该潜在空间注入文本条件,因此生成器“听到”时间和音素。EmptyLTXVLatentVideo (#3059)准备一个具有正确空间尺寸和帧数对齐输入的视频潜在占位符。LTXAddVideoICLoRAGuide (#5004)使用s1帧附加IC-LoRA参考指导,在采样前建立身份和嘴部区域关注。

生成低分辨率#

标准扩散循环由CFGGuider (#4828)、KSamplerSelect (#4831)、ManualSigmas (#4984)和SamplerCustomAdvanced (#4829)形成。采样器在由LTXVConcatAVLatent (#4528)组成的音频+视频潜在空间上运行,确保音频条件参与每一步。采样后,LTXVSeparateAVLatent (#4845)分离潜在空间,以便LTXVSetAudioRefTokens (#5013)可以冻结相同的语音表示用于高分辨率通过。此阶段将嘴形锁定到语音并在s1尺寸设定运动基线。

生成高分辨率#

LTXVLatentUpsampler (#4975)使用空间上采样器x2提升视频潜在空间,在增加空间细节容量的同时保持运动。LTXAddVideoICLoRAGuide (#5014)在高分辨率使用s2帧重新应用IC-LoRA,因此细化通过保留相同的说话者身份和准确的嘴形。如果更改高分辨率帧大小,请重新访问此节点以保持参考指导与目标输出一致。第二个扩散循环(CFGGuider (#4964)、KSamplerSelect (#4976)、ManualSigmas (#4985)、SamplerCustomAdvanced (#4971))在LTXVConcatAVLatent (#4969)保持冻结语音潜在空间同步时细化上采样潜在空间。LTXVCropGuides (#5011, #5015)管理安全裁剪和区域指导,因此面部在两个通过中保持正确框定。

解码#

LTXVTiledVAEDecode (#4995)使用瓦片将最终视频潜在空间转换为图像以提高VRAM效率,LTXVAudioVAEDecode (#4848)返回同步音频。CreateVideo (#4849)以原始帧率组装帧和音频,SaveVideo (#4852)以预填充的RunComfy名称写入文件;更改此值以为您的输出添加品牌标识。结果是一个完全同步的LTX-2.3 ICLoRA LipDub剪辑,准备好供审查或交付。

ComfyUI LTX-2.3 ICLoRA LipDub工作流程中的关键节点#

LTXICLoRALoaderModelOnly (#5012)#

加载LipDub IC-LoRA并将其附加到基础模型上,因此嘴部运动遵循输入语音而不覆盖身份。如果需要更强或更微妙的唇控,请在此处调整LoRA权重;保持它与您在堆栈中应用的任何其他LoRA协调,以避免过度条件化。

LTXAddVideoICLoRAGuide (#5004)#

在低分辨率阶段使用缩小的参考帧应用IC-LoRA指导。这是工作流程首次锁定身份和嘴部区域关注的地方;通过切换指南进行A/B测试,查看参考指导对时间和发音的影响。

LTXAddVideoICLoRAGuide (#5014)#

在高分辨率使用s2帧重新应用IC-LoRA指导,因此细化通过保留相同的说话者身份和准确的嘴形。如果更改高分辨率帧大小,请重新访问此节点以保持参考指导与目标输出一致。

LTXVSetAudioRefTokens (#5006)#

将编码的语音绑定到文本条件,以便采样器将视觉音素与音素对齐。在两个通过中使用相同的音频潜在空间以获得稳定的结果;此图表自动处理此问题,但如果您在运行中更换音频,您应该刷新条件和连接的潜在空间。

LTXVLatentUpsampler (#4975)#

使用LTX-2.3空间上采样器x2上采样视频潜在空间,在高分辨率采样器之前为细节留出空间。如果VRAM紧张,请将其与较小的s2尺寸或解码器中的较轻瓦片配对,以平衡质量和吞吐量。

LTXVTiledVAEDecode (#4995)#

使用瓦片解码最终潜在空间为帧,以适应有限GPU上的大输出。调整瓦片数量和重叠以在速度和内存占用之间进行权衡;更少的瓦片速度更快但需要更多VRAM,而更多的瓦片减少VRAM但以时间为代价。

可选附加项#

  • 配音提示:包括您希望说的确切词语;模型不会自动翻译。使用目标语言的母语脚本,保持单一说话者,并尽量与原始行长度相似,以便节奏保持自然。
  • 性能提示:如果遇到VRAM限制,请在Resize Image/Mask (s2 size) (#5003)中减少s2调整,并在LTXVTiledVAEDecode (#4995)中增加瓦片。为了可重复性,保持RandomNoise种子在两个通过中固定。
  • 工作流程默认值:示例输入文件名在LoadVideo (#5002)中预填充,保存器设置一致的输出名称。更换两者以批量运行多个LTX-2.3 ICLoRA LipDub而不覆盖结果。
  • 裁剪:如果面部在边缘附近漂移,请调整LTXVCropGuides (#5011, #5015)以便嘴部区域在两个通过中保持稳定裁剪。

致谢#

此工作流程实现并基于以下作品和资源。我们对Lightricks的LTX-2.3-22b-IC-LoRA-LipDub模型和RunComfy的共享ComfyUI工作流程(云存储源)表示感谢,感谢他们的贡献和维护。有关权威详情,请参考下列链接的原始文档和存储库。

资源#

注意:使用参考的模型、数据集和代码需遵循其作者和维护者提供的各自许可证和条款。

RunComfy
版权 2026 RunComfy. 保留所有权利。

RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。