LTX-2.3 ICLoRA LipDub in ComfyUI | 精确的唇同步视频制作

ComfyUI LTX-2.3 ICLoRA LipDub Workflow

LTX-2.3 ICLoRA LipDub in ComfyUI | Precise Lip-Sync Video Creation

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX-2.3 ICLoRA LipDub Examples

LTX-2.3 ICLoRA LipDub for ComfyUI#

LTX-2.3 ICLoRA LipDub是一个双通道、视频和音频控制的ComfyUI工作流程，在保持身份和运动一致的同时为对话者配音。它结合了Lightricks LTX-2.3文本和视频条件与LipDub IC-LoRA，以精确对齐嘴部运动到提供的语音，然后在更高分辨率下细化结果以获得清晰的细节。该图为RunComfy准备，具有标准化输入/输出名称，因此您可以可靠地交换媒体和重复运行。

这个ComfyUI LTX-2.3 ICLoRA LipDub工作流程非常适合需要多语言配音、改写或类似ADR修正的创作者，同时保留原始表演。提供已经包含目标语音的源视频，描述场景和人物应该说的话，工作流程将合成同步的视觉和音频到一个完成的剪辑。

ComfyUI LTX-2.3 ICLoRA LipDub工作流程中的关键模型#

LTX-2.3 22B基础视频模型。生成视频的基础扩散模型，控制提示如何引导外观、运动和风格。
LTX-2.3 IC-LoRA LipDub。专门用于唇同步的LoRA，条件模型遵循提供的语音并将嘴形对齐到音素，同时保留身份和头部运动。模型卡
LTX-2.3音频VAE。将输入语音编码为音频潜在空间，可以注入文本条件并稍后解码回波形，确保时间保持与帧同步。
LTX-2.3空间上采样器x2。在高分辨率细化通过前将视频潜在空间上采样到更高的空间分辨率，改善纹理而不改变运动。
LTX-2.3蒸馏LoRA (384)。与基础检查点一起使用的强化LoRA，以提高细节和时间稳定性而不过度拟合参考帧。

如何使用ComfyUI LTX-2.3 ICLoRA LipDub工作流程#

此工作流程在两个协调阶段运行：低分辨率通过将时间和嘴形锁定到音频，然后是高分辨率通过上采样和细化细节，同时保持同步。首先加载已包含所需语音的源视频，然后编写您希望人物说的文本行。

加载原始视频#

LoadVideo (#5002)节点导入嵌入音频的源剪辑。GetVideoComponents (#5010)提取帧、音频和帧率；帧率在整个图中共享，因此视频和音频保持对齐。两个调整器，Resize Image/Mask (s1 size) (#5009)和Resize Image/Mask (s2 size) (#5003)，为低分辨率和高分辨率通过准备工作图像流。帧数被测量并四舍五入为采样器友好的长度，以保持解码稳定。

加载模型#

CheckpointLoaderSimple (#5017)加载整个图中使用的LTX-2.3 22B基础模型和VAE。两个加载器，LoraLoaderModelOnly (#5018)和LTXICLoRALoaderModelOnly (#5012)，在基础上添加蒸馏LoRA和IC-LoRA LipDub，因此生成器在保持身份的同时遵循语音。LTXVAudioVAELoader (#4010)提供编码/解码音轨的音频VAE。IC-LoRA加载器的latent_downscale_factor输出在此处故意未使用，因为LipDub训练假定全分辨率参考帧，与附带注释匹配。

设置提示#

在CLIP Text Encode (Positive Prompt) (#2483)中编写场景描述和确切的口语行。使用CLIP Text Encode (Negative Prompt) (#2612)来最小化不希望的特征或伪影。这些输入到LTXVConditioning (#1241)，它将条件适应到视频领域并将帧率上下文向前传递。对于低VRAM运行，图中还包括基于API的编码器（🅛🅣🅧 Gemma API Text Encode - POSITIVE (#4980)和... - NEGATIVE (#4981)），通过LTX API KEY字符串 (#4979)进行门控；默认接线使用本地编码器。

预处理#

LTXVAudioVAEEncode (#5005)将源语音转换为音频潜在空间，LTXVSetAudioRefTokens (#5006)将该潜在空间注入文本条件，因此生成器“听到”时间和音素。EmptyLTXVLatentVideo (#3059)准备一个具有正确空间尺寸和帧数对齐输入的视频潜在占位符。LTXAddVideoICLoRAGuide (#5004)使用s1帧附加IC-LoRA参考指导，在采样前建立身份和嘴部区域关注。

生成低分辨率#

标准扩散循环由CFGGuider (#4828)、KSamplerSelect (#4831)、ManualSigmas (#4984)和SamplerCustomAdvanced (#4829)形成。采样器在由LTXVConcatAVLatent (#4528)组成的音频+视频潜在空间上运行，确保音频条件参与每一步。采样后，LTXVSeparateAVLatent (#4845)分离潜在空间，以便LTXVSetAudioRefTokens (#5013)可以冻结相同的语音表示用于高分辨率通过。此阶段将嘴形锁定到语音并在s1尺寸设定运动基线。

生成高分辨率#

LTXVLatentUpsampler (#4975)使用空间上采样器x2提升视频潜在空间，在增加空间细节容量的同时保持运动。LTXAddVideoICLoRAGuide (#5014)在高分辨率使用s2帧重新应用IC-LoRA，因此细化通过保留相同的说话者身份和准确的嘴形。如果更改高分辨率帧大小，请重新访问此节点以保持参考指导与目标输出一致。第二个扩散循环（CFGGuider (#4964)、KSamplerSelect (#4976)、ManualSigmas (#4985)、SamplerCustomAdvanced (#4971)）在LTXVConcatAVLatent (#4969)保持冻结语音潜在空间同步时细化上采样潜在空间。LTXVCropGuides (#5011, #5015)管理安全裁剪和区域指导，因此面部在两个通过中保持正确框定。

解码#

LTXVTiledVAEDecode (#4995)使用瓦片将最终视频潜在空间转换为图像以提高VRAM效率，LTXVAudioVAEDecode (#4848)返回同步音频。CreateVideo (#4849)以原始帧率组装帧和音频，SaveVideo (#4852)以预填充的RunComfy名称写入文件；更改此值以为您的输出添加品牌标识。结果是一个完全同步的LTX-2.3 ICLoRA LipDub剪辑，准备好供审查或交付。

ComfyUI LTX-2.3 ICLoRA LipDub工作流程中的关键节点#

`LTXICLoRALoaderModelOnly` (#5012)#

加载LipDub IC-LoRA并将其附加到基础模型上，因此嘴部运动遵循输入语音而不覆盖身份。如果需要更强或更微妙的唇控，请在此处调整LoRA权重；保持它与您在堆栈中应用的任何其他LoRA协调，以避免过度条件化。

`LTXAddVideoICLoRAGuide` (#5004)#

在低分辨率阶段使用缩小的参考帧应用IC-LoRA指导。这是工作流程首次锁定身份和嘴部区域关注的地方；通过切换指南进行A/B测试，查看参考指导对时间和发音的影响。

`LTXAddVideoICLoRAGuide` (#5014)#

在高分辨率使用s2帧重新应用IC-LoRA指导，因此细化通过保留相同的说话者身份和准确的嘴形。如果更改高分辨率帧大小，请重新访问此节点以保持参考指导与目标输出一致。

`LTXVSetAudioRefTokens` (#5006)#

将编码的语音绑定到文本条件，以便采样器将视觉音素与音素对齐。在两个通过中使用相同的音频潜在空间以获得稳定的结果；此图表自动处理此问题，但如果您在运行中更换音频，您应该刷新条件和连接的潜在空间。

`LTXVLatentUpsampler` (#4975)#

使用LTX-2.3空间上采样器x2上采样视频潜在空间，在高分辨率采样器之前为细节留出空间。如果VRAM紧张，请将其与较小的s2尺寸或解码器中的较轻瓦片配对，以平衡质量和吞吐量。

`LTXVTiledVAEDecode` (#4995)#

使用瓦片解码最终潜在空间为帧，以适应有限GPU上的大输出。调整瓦片数量和重叠以在速度和内存占用之间进行权衡；更少的瓦片速度更快但需要更多VRAM，而更多的瓦片减少VRAM但以时间为代价。

可选附加项#

配音提示：包括您希望说的确切词语；模型不会自动翻译。使用目标语言的母语脚本，保持单一说话者，并尽量与原始行长度相似，以便节奏保持自然。
性能提示：如果遇到VRAM限制，请在Resize Image/Mask (s2 size) (#5003)中减少s2调整，并在LTXVTiledVAEDecode (#4995)中增加瓦片。为了可重复性，保持RandomNoise种子在两个通过中固定。
工作流程默认值：示例输入文件名在LoadVideo (#5002)中预填充，保存器设置一致的输出名称。更换两者以批量运行多个LTX-2.3 ICLoRA LipDub而不覆盖结果。
裁剪：如果面部在边缘附近漂移，请调整LTXVCropGuides (#5011, #5015)以便嘴部区域在两个通过中保持稳定裁剪。

致谢#

此工作流程实现并基于以下作品和资源。我们对Lightricks的LTX-2.3-22b-IC-LoRA-LipDub模型和RunComfy的共享ComfyUI工作流程（云存储源）表示感谢，感谢他们的贡献和维护。有关权威详情，请参考下列链接的原始文档和存储库。

资源#

Lightricks/LTX-2.3-22b-IC-LoRA-LipDub
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3-22b-IC-LoRA-LipDub
- arXiv: arXiv:2601.22143
RunComfy/Cloud Save source
- 文档/发布说明: RunComfy共享工作流程

注意：使用参考的模型、数据集和代码需遵循其作者和维护者提供的各自许可证和条款。

Want More ComfyUI Workflows?

Multitalk | 逼真的对话视频制作工具

一键从肖像和声音创建多说话者同步对口型视频！

LatentSync| 口型同步模型

先进的音频驱动口型同步技术。

Hallo2 | 唇同步肖像动画

4K肖像动画的音频驱动唇同步。

EchoMimic | 音频驱动的人像动画

生成与提供的音频同步的逼真说话头像和身体动作。

InfiniteTalk | 同步口型头像生成器

照片 + 语音 = 几分钟内完美同步的讲话头像

FLUX.1 Dev LoRA 推理 | AI Toolkit ComfyUI

使用单个 RCFluxDev 自定义节点在 ComfyUI 中运行您的 AI Toolkit 训练的 FLUX.1 Dev LoRA，并实现与训练匹配的行为。

Wan 2.1 Fun | 轨迹运动控制

设计运动路径，将静态照片动画化为视频。

Z Image Real Skin 工作流程 | 现实肖像生成器

创建具有真实人体皮肤纹理和自然光照的肖像。

关注我们

支持

资源

法律

RunComfy

RunComfy 是首选的 ComfyUI 平台，提供 ComfyUI 在线环境和服务，以及 ComfyUI 工作流具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。

LTX-2.3 ICLoRA LipDub工作流程 | 唇同步视频生成器