LTX 2.3 MSR 多主体身份视频工作流用于 ComfyUI#
此工作流利用 LTX 2.3 MSR 将多个角色或对象参考转化为单一、一致、适合故事的视频。它在利用 LTX‑2.3 音视频模型进行运动、电影摄影和同步声音的同时,保留了多个主体的身份。创作者可以结合多达四个主体图像加上背景,然后通过对话、群体镜头和动态生活方式序列的提示来指导场景。
为讲故事者、广告商和社交创作者而建,图形将参考汇集到 MSR 指南中,通过图像条件化的 LoRA 传递注入身份,并对音视频潜在变量进行采样,以解码为帧和可选音频。LTX 2.3 MSR 是身份保真的锚点;其余管道负责合成、运动指导和导出。
Comfyui LTX 2.3 MSR 工作流中的关键模型#
- LTX‑2.3 22B distilled (1.1) 由 Lightricks 制作。基础音视频模型生成运动、视觉和同步音频。权重发布在 Hugging Face 上,属于 LTX‑2.3。 Lightricks/LTX-2.3
- Gemma 3 12B 指令文本编码器 (fp4 混合)。用于 LTX 堆栈中的提示编码,将文本转换为生成的条件信号。包装在 ComfyUI 的 LTX 资产中。 Comfy-Org/ltx-2
- LTX 2.3 MSR LoRA (Licon MSR V1)。专为 LTX‑2.3 设计的多主体参考 LoRA,一次锁定多个身份,稳定整个剪辑的面孔、服装和对象特征。 liconstudio/ComfyUI-Licon-MSR
- LTX‑2 音频 VAE。提供潜在音频空间和解码,用于生成或附加同步声音与 LTX‑2.x 资产。 Comfy-Org/ltx-2
如何使用 Comfyui LTX 2.3 MSR 工作流#
此图形有三个阶段:从参考中构建 MSR 指南,用多图像指导和提示调节视频潜在变量,然后采样并解码为帧和音频。
- 配置
- 在配置节点中设置画布的
width、height、总frames和fps。这些设置会影响空视频和音频潜在变量以及导出阶段,使从条件化到最终渲染的时间一致。 - 选择适合您故事的长宽比和持续时间。较高的帧数增加运动连续性,但也增加 VRAM 和运行时间。
- 在配置节点中设置画布的
- 参考加载器
- 加载多达四个主体图像(
img1、img2、img3、img4)和一个背景(bg)。这些映射到refimg1..4和refbg获取器,以便您可以快速更换来源而无需重新布线。 - 使用清晰、光线充足的图像,主体位于中心且无遮挡。对于希望保留的服装或道具,请确保它们在至少一个参考中可见。
- 加载多达四个主体图像(
- MSR 作曲器
LiconMSR(#28) 将主体参考和背景汇集为单一 MSR 图像输出。这成为 LTX 2.3 MSR 的视觉身份蓝图,在采样之前对齐面部特征、服装和对象细节。- 一个小的
VHS_VideoCombine(#66) 从 MSR 输出创建快速低 FPS 预览,以便在运行完整渲染之前进行合成检查。
- 多重指导条件
LTXVAddGuideMulti(#108) 吸收多达五个图像(您的四个主体加上背景),以及正负提示,以产生具有空间和外观指导的初始视频潜在变量。- 正面提示文本描述场景、相机和氛围;负面文本避免伪影和风格偏差。
LTXVConditioning(#7) 附加您的fps以使运动时间与导出器匹配。
- LoRA 身份控制
- LTX 2.3 MSR LoRA 加载到模型中,并使用 MSR 图像通过
LTXAddVideoICLoRAGuide(#9) 应用图像条件化的 LoRA 传递。这在不冻结动作的情况下在帧之间加强身份。 - 使用此阶段平衡身份强度与自然运动和表情的自由度。
- LTX 2.3 MSR LoRA 加载到模型中,并使用 MSR 图像通过
- 采样
- 采样器堆栈使用
CFGGuider(#37) 、KSamplerSelect(#13) 、ManualSigmas(#27) 和RandomNoise(#15) 通过SamplerCustomAdvanced(#16) 。结果是一个反映您参考、提示和 MSR 约束的联合音视频潜在变量。 - 如果需要新变化,改变噪声种子或采样器,同时保持参考和 MSR 设置不变以保持一致性。
- 采样器堆栈使用
- 裁剪指导和解码
LTXVCropGuides(#17) 将视频潜在变量调整为目标帧大小,避免不必要的裁剪。然后,视频和音频潜在变量通过LTXVSeparateAVLatent(#24) 分离。VAEDecode(#38) 将视频潜在变量转换为帧;LTXVAudioVAEDecode(#25) 重建音频。
- 导出
VHS_VideoCombine(#96) 将帧和可选音频组装为 H.264 MP4 ,使用您选择的fps和filename_prefix。这是 LTX 2.3 MSR 工作流生成的最终视频。
Comfyui LTX 2.3 MSR 工作流中的关键节点#
LiconMSR (#28)#
将 1–4 个主体参考加背景汇集为单一 MSR 指南。设置 width 和 height 以匹配目标画布,以便合成指南和最终帧对齐。如果看到身份漂移,请重新检查输入参考或增加关键主体在其源图像中出现的显著性。
LTXVAddGuideMulti (#108)#
将多个指导图像与您的提示结合形成初始视频潜在变量。使用它优先考虑哪些参考主导场景,稍微偏向于英雄主体。保持背景指导活跃,以确保环境稳定和减少场景跳跃。
LTXAddVideoICLoRAGuide (#9)#
使用合成的 MSR 图像注入图像条件化的 MSR LoRA。增加 strength 以加强面孔、服装或道具的身份保留;如果运动感觉太受限,则减少它。裁剪选择应反映主体在框架中最常出现的位置。
CFGGuider (#37)#
控制采样器跟随提示的强度。较高的 cfg 提高对文本意图的遵循,但可能减少多样性;适中的值保持自然外观,同时尊重 MSR 指导。
SamplerCustomAdvanced (#16)#
使用您选择的采样器、sigma 和噪声种子运行去噪过程。Euler 或 DPM 风格的采样器与 LTX‑2.3 配合良好;探索种子以获得替代方案,同时保持相同的参考以保留身份。
VHS_VideoCombine (#96)#
构建最终的 MP4,带有可选音频。将 frame_rate 与条件化阶段匹配,并设置清晰的 filename_prefix 以供版本控制。使用此节点的预览在共享之前检查节奏和身份一致性。
可选附加功能#
- 准备参考时,采用中性、前视角度,遮挡最小;为复杂的发型或配饰添加第二个角度。
- 保持服装和道具参考足够大,以便纹理和标识清晰可见;避免在源图像中出现严重的运动模糊。
- 当身份完美但运动僵硬时,稍微降低 LTX 2.3 MSR 阶段的 LoRA 指导强度,并添加提示线索以促进运动。
- 对于较长的故事,增加
frames并保持fps一致以维护时间;对于较快的剪辑,提升fps并缩短frames。 - 使用与预期场景在照明和视角上相似的背景参考,以减少不一致。
致谢#
此工作流实现并构建于以下作品和资源之上。我们感谢 LTX 项目对 LTX 2.3 MSR(多主体参考)工作流的贡献和维护。有关权威详细信息,请参阅以下链接的原始文档和存储库。
资源#
- LTX/LTX 2.3 MSR 工作流来源
- 文档 / 发布说明:RunningHub post
注意:使用所引用的模型、数据集和代码须遵循其作者和维护者提供的相应许可和条款。

