LTX-2 ComfyUI 工作流 | 实时视频生成速度

LTX-2 ComfyUI：实时文本、图像、深度和姿态到视频，带同步音频

这个一体化的 LTX-2 ComfyUI 工作流让您可以在几秒钟内生成并迭代带有音频的短视频。它配备了文本到视频 (T2V)、图像到视频 (I2V)、深度到视频、姿态到视频和 canny 到视频的路径，因此您可以从提示、静止图像或结构化指导开始，并保持相同的创作循环。

基于 LTX-2 的低延迟 AV 管道和多 GPU 序列并行性，图形强调快速反馈。描述运动、相机、外观和声音一次，然后调整宽度、高度、帧数或控制 LoRAs 以优化结果，无需重新连接任何东西。

注意：关于 LTX-2 工作流兼容性的说明 — LTX-2 包含 5 个工作流：文本到视频 和 图像到视频 可在所有机器类型上运行，而 深度到视频、Canny 到视频 和 姿态到视频 需要 2X-Large 机器或更大；在较小的机器上运行这些 ControlNet 工作流可能会导致错误。

LTX-2 ComfyUI 工作流中的关键模型

LTX-2 19B (dev FP8) 检查点。核心视听生成模型，从多模态条件生成视频帧和同步音频。 Lightricks/LTX-2
LTX-2 19B Distilled 检查点。更轻、更快的变体，适用于快速草稿或 canny 控制的运行。 Lightricks/LTX-2
Gemma 3 12B IT 文本编码器。工作流的提示编码器使用的主要文本理解骨干。 Comfy-Org/ltx-2 split files
LTX-2 空间放大器 x2。潜在的放大器，在图形中间加倍空间细节，以获得更清晰的输出。 Lightricks/LTX-2
LTX-2 音频 VAE。对音频潜变量进行编码和解码，以便可以生成和与视频一起混合声音。包含在上面的 LTX-2 版本中。
Lotus Depth D v1‑1。用于在深度引导的视频生成之前从图像推导出稳健深度图的深度 UNet。 Comfy‑Org/lotus
SD VAE (MSE, EMA pruned)。用于深度预处理分支的 VAE。 stabilityai/sd-vae-ft-mse-original
LTX‑2 的控制 LoRAs。可选的即插即用 LoRAs 以引导运动和结构：
- Distilled LoRA 384 (general refinement) link
- 相机控制：Dolly Left link
- 姿态控制 link
- 深度控制 link
- Canny 控制 link

如何使用 LTX-2 ComfyUI 工作流

图形包含五个可以独立运行的路径。所有路径共享相同的导出路径并使用相同的提示到条件逻辑，因此一旦您学习了一个，其他的就会感觉熟悉。

T2V：从提示生成视频和音频

T2V 路径从 CLIP Text Encode (Prompt) (#3) 开始，并在 CLIP Text Encode (Prompt) (#4) 中有一个可选的负向。LTXVConditioning (#22) 将您的文本和选定的帧率绑定到模型。EmptyLTXVLatentVideo (#43) 和 LTX LTXV Empty Latent Audio (#26) 创建视频和音频潜变量，通过 LTX LTXV Concat AV Latent (#28) 融合在一起。去噪循环通过 LTXVScheduler (#9) 和 SamplerCustomAdvanced (#41) 运行，然后 VAE Decode (#12) 和 LTX LTXV Audio VAE Decode (#14) 产生帧和音频。Video Combine 🎥🅥🅗🅢 (#15) 保存一个带同步声音的 H.264 MP4。

I2V：动画化静止图像

使用 LoadImage (#98) 加载静止图像，并使用 ResizeImageMaskNode (#99) 调整大小。在 T2V 子图中，LTX LTXV Img To Video Inplace 将第一帧注入潜在序列中，因此运动从您的静止图像而不是纯噪声中构建。保持您的文本提示专注于运动、相机和环境；内容来自图像。

深度到视频：从深度图生成的结构感知运动

使用“图像到深度图 (Lotus)”预处理器将输入转换为深度图像，由 VAEDecode 解码，并可选地反转以获得正确的极性。“深度到视频 (LTX 2.0)”路径然后通过 LTX LTXV Add Guide 提供深度指导，以便模型在动画化时遵循全局场景结构。该路径重用相同的调度器、采样器和放大器阶段，并以平铺解码为图像和混合音频导出结束。

姿态到视频：从人体姿态驱动运动

使用 VHS_LoadVideo (#198) 导入片段；DWPreprocessor (#158) 在帧之间可靠地估计人体姿态。“姿态到视频 (LTX 2.0)”子图将您的提示、姿态条件和可选的姿态控制 LoRA 结合在一起，以保持四肢、方向和节拍的一致性，同时允许风格和背景从文本中流出。将此用于舞蹈、简单特技或对镜头谈话的镜头，其中身体时间很重要。

Canny 到视频：边缘忠实动画和蒸馏速度模式

将帧输入到 Canny (#169) 以获得稳定的边缘图。“Canny 到视频 (LTX 2.0)”分支接受边缘和可选的 Canny 控制 LoRA，以高保真度保持轮廓，而“Canny 到视频 (LTX 2.0 Distilled)”提供更快的蒸馏检查点以快速迭代。两个变体都允许您可选地注入第一帧并选择图像强度，然后通过 CreateVideo 或 VHS_VideoCombine 导出。

视频设置和导出

通过 Width (#175) 和 height (#173) 设置宽度和高度，通过 Frame Count (#176) 设置总帧数，如果您想锁定初始参考，请切换 Enable First Frame (#177)。在每个路径的末尾使用 VHS_VideoCombine 节点来控制 crf、frame_rate、pix_fmt 和元数据保存。对于蒸馏 canny 路径，提供了一个专用的 SaveVideo (#180)，当您更喜欢直接视频输出时。

性能和多 GPU

图形应用了 LTXVSequenceParallelMultiGPUPatcher (#44)，启用 torch_compile 以跨 GPU 分割序列以降低延迟。KSamplerSelect (#8) 让您可以在包括 Euler 和梯度估计样式的采样器之间进行选择；较小的帧数和较低的步骤减少了周转时间，因此您可以快速迭代，并在满意时进行扩展。

LTX-2 ComfyUI 工作流中的关键节点

LTX Multimodal Guider (#17)。协调文本条件如何引导视频和音频分支。调整 cfg 和 modality 在链接的 LTX Guider Parameters (#18 对于视频，#19 对于音频) 中，以平衡忠实与创造力；提高 cfg 以更紧密地遵循提示，增加 modality_scale 以强调特定分支。
LTXVScheduler (#9)。构建一个适合 LTX-2 潜在空间的 sigma 调度。使用 steps 在速度和质量之间进行权衡；在原型设计时，较少的步骤可以减少延迟，然后在最终渲染时增加步骤。
SamplerCustomAdvanced (#41)。将 RandomNoise、从 KSamplerSelect (#8) 选择的采样器、调度器的 sigmas 和 AV 潜变量绑在一起的去噪器。切换采样器以获得不同的运动纹理和收敛行为。
LTX LTXV Img To Video Inplace (见 I2V 分支，例如 #107)。将图像注入视频潜变量中，因此第一帧锚定内容，而模型合成运动。调整 strength 以决定第一帧的保留程度。
LTX LTXV Add Guide (在引导路径中，例如深度/姿态/canny)。直接在潜在空间中添加结构指南（图像、姿态或边缘）。使用 strength 平衡指南的保真度与生成的自由度，并仅在您需要时间锚定时启用第一帧。
Video Combine 🎥🅥🅗🅢 (#15 及其同类)。将解码的帧和生成的音频打包成 MP4。对于预览，提高 crf（更多压缩）；对于最终版本，降低 crf 并确认 frame_rate 与您在条件中设置的匹配。
LTXVSequenceParallelMultiGPUPatcher (#44)。启用带有编译优化的序列并行推理。保持开启以获得最佳吞吐量；仅在调试设备放置时禁用。

可选额外功能

LTX-2 ComfyUI 的提示技巧
- 描述随时间变化的核心动作，而不仅仅是静态外观。
- 指定您必须在视频中看到的重要视觉细节。
- 撰写音轨：环境声、音效、音乐和任何对话。
尺寸规则和帧率
- 使用宽度和高度为 32 的倍数（例如 1280×720）。
- 使用帧数为 8 的倍数（此模板中的 121 是一个不错的长度）。
- 保持帧率一致；图形包含浮点和整型框，它们应匹配。
LoRA 指导
- 相机、深度、姿态和 canny LoRAs 已集成；开始时相机移动的强度为 1，然后仅在需要时添加第二个 LoRA。在 Lightricks/LTX‑2 浏览官方收藏。
更快的迭代
- 降低帧数，减少 LTXVScheduler 中的步骤，并尝试 canny 路径的蒸馏检查点。当运动有效时，增加分辨率和步骤以获得最终结果。
可重复性
- 锁定 noise_seed 在随机噪声节点中，以便在调整提示、尺寸和 LoRAs 时获得可重复的结果。

致谢

此工作流实现并建立在以下工作和资源之上。我们对 Lightricks 的 LTX-2 多模态视频生成模型和 LTX-Video 研究代码库，以及 Comfy Org 的 ComfyUI LTX-2 合作节点/集成的贡献和维护表示感谢。有关权威细节，请参阅下面链接的原始文档和存储库。

资源

Comfy Org/LTX-2 现在在 ComfyUI 中可用！
- GitHub: Lightricks/LTX-Video
- Hugging Face: Lightricks/LTX-Video-ICLoRA-detailer-13b-0.9.8
- arXiv: 2501.00103
- 文档/发布说明: LTX-2 现在在 ComfyUI 中可用！

注意：使用参考的模型、数据集和代码须遵循其作者和维护者提供的相关许可证和条款。

Want More ComfyUI Workflows?

Wan 2.1 | 革命性的视频生成

利用突破性的 AI 在普通 CPU 上从文本或图像创建令人难以置信的视频。

PuLID Flux II | 一致的角色生成

在保持艺术风格的同时生成具有精确角色控制的图像。

CogvideoX Fun | 视频到视频模型

CogVideoX Fun: 高级视频到视频模型，用于高质量视频生成。

Wan 2.1 Fun | I2V + T2V

通过Wan 2.1 Fun增强您的AI视频。

Wan 2.2 | 开源视频生成领导者

现已推出！更高精度 + 更流畅的运动。

Qwen Image 2512 | 精确的 AI 图像生成器

超详细的艺术创作，具有下一代视觉精度和控制。

DreamO | 统一多任务图像定制框架

从 1–3 个参考中执行身份、风格、试穿和多条件图像生成

Qwen-Image Lightning | 8步加速提升

将生成时间减半。

关注我们

支持

资源

法律

RunComfy

RunComfy 是首选的 ComfyUI 平台，提供 ComfyUI 在线环境和服务，以及 ComfyUI 工作流具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。

LTX-2 ComfyUI | 实时视频生成器