logo
RunComfy
  • Models
  • ComfyUI
  • TrainerNew
  • API
  • Pricing
discord logo
ComfyUI>工作流>LTX-2 ComfyUI | 实时视频生成器

LTX-2 ComfyUI | 实时视频生成器

Workflow Name: RunComfy/LTX-2-ComfyUI
Workflow ID: 0000...1333
通过 LTX-2 工作流,您可以实时生成视频,并立即优化运动或构图。它帮助您快速测试新的动画想法,立即看到结果,并简化您的创作过程。该工作流专为交互式视频原型设计而设计,在保持视觉精确度的同时最大限度地减少等待时间。非常适合寻求即时视觉反馈的动画设计师、动作艺术家和视频创作者。构建、迭代和发展视频概念,比以往更快。

LTX-2 ComfyUI:实时文本、图像、深度和姿态到视频,带同步音频

这个一体化的 LTX-2 ComfyUI 工作流让您可以在几秒钟内生成并迭代带有音频的短视频。它配备了文本到视频 (T2V)、图像到视频 (I2V)、深度到视频、姿态到视频和 canny 到视频的路径,因此您可以从提示、静止图像或结构化指导开始,并保持相同的创作循环。

基于 LTX-2 的低延迟 AV 管道和多 GPU 序列并行性,图形强调快速反馈。描述运动、相机、外观和声音一次,然后调整宽度、高度、帧数或控制 LoRAs 以优化结果,无需重新连接任何东西。

注意:关于 LTX-2 工作流兼容性的说明 — LTX-2 包含 5 个工作流:文本到视频 和 图像到视频 可在所有机器类型上运行,而 深度到视频、Canny 到视频 和 姿态到视频 需要 2X-Large 机器或更大;在较小的机器上运行这些 ControlNet 工作流可能会导致错误。

LTX-2 ComfyUI 工作流中的关键模型

  • LTX-2 19B (dev FP8) 检查点。核心视听生成模型,从多模态条件生成视频帧和同步音频。 Lightricks/LTX-2
  • LTX-2 19B Distilled 检查点。更轻、更快的变体,适用于快速草稿或 canny 控制的运行。 Lightricks/LTX-2
  • Gemma 3 12B IT 文本编码器。工作流的提示编码器使用的主要文本理解骨干。 Comfy-Org/ltx-2 split files
  • LTX-2 空间放大器 x2。潜在的放大器,在图形中间加倍空间细节,以获得更清晰的输出。 Lightricks/LTX-2
  • LTX-2 音频 VAE。对音频潜变量进行编码和解码,以便可以生成和与视频一起混合声音。包含在上面的 LTX-2 版本中。
  • Lotus Depth D v1‑1。用于在深度引导的视频生成之前从图像推导出稳健深度图的深度 UNet。 Comfy‑Org/lotus
  • SD VAE (MSE, EMA pruned)。用于深度预处理分支的 VAE。 stabilityai/sd-vae-ft-mse-original
  • LTX‑2 的控制 LoRAs。可选的即插即用 LoRAs 以引导运动和结构:
    • Distilled LoRA 384 (general refinement) link
    • 相机控制:Dolly Left link
    • 姿态控制 link
    • 深度控制 link
    • Canny 控制 link

如何使用 LTX-2 ComfyUI 工作流

图形包含五个可以独立运行的路径。所有路径共享相同的导出路径并使用相同的提示到条件逻辑,因此一旦您学习了一个,其他的就会感觉熟悉。

T2V:从提示生成视频和音频

T2V 路径从 CLIP Text Encode (Prompt) (#3) 开始,并在 CLIP Text Encode (Prompt) (#4) 中有一个可选的负向。LTXVConditioning (#22) 将您的文本和选定的帧率绑定到模型。EmptyLTXVLatentVideo (#43) 和 LTX LTXV Empty Latent Audio (#26) 创建视频和音频潜变量,通过 LTX LTXV Concat AV Latent (#28) 融合在一起。去噪循环通过 LTXVScheduler (#9) 和 SamplerCustomAdvanced (#41) 运行,然后 VAE Decode (#12) 和 LTX LTXV Audio VAE Decode (#14) 产生帧和音频。Video Combine 🎥🅥🅗🅢 (#15) 保存一个带同步声音的 H.264 MP4。

I2V:动画化静止图像

使用 LoadImage (#98) 加载静止图像,并使用 ResizeImageMaskNode (#99) 调整大小。在 T2V 子图中,LTX LTXV Img To Video Inplace 将第一帧注入潜在序列中,因此运动从您的静止图像而不是纯噪声中构建。保持您的文本提示专注于运动、相机和环境;内容来自图像。

深度到视频:从深度图生成的结构感知运动

使用“图像到深度图 (Lotus)”预处理器将输入转换为深度图像,由 VAEDecode 解码,并可选地反转以获得正确的极性。“深度到视频 (LTX 2.0)”路径然后通过 LTX LTXV Add Guide 提供深度指导,以便模型在动画化时遵循全局场景结构。该路径重用相同的调度器、采样器和放大器阶段,并以平铺解码为图像和混合音频导出结束。

姿态到视频:从人体姿态驱动运动

使用 VHS_LoadVideo (#198) 导入片段;DWPreprocessor (#158) 在帧之间可靠地估计人体姿态。“姿态到视频 (LTX 2.0)”子图将您的提示、姿态条件和可选的姿态控制 LoRA 结合在一起,以保持四肢、方向和节拍的一致性,同时允许风格和背景从文本中流出。将此用于舞蹈、简单特技或对镜头谈话的镜头,其中身体时间很重要。

Canny 到视频:边缘忠实动画和蒸馏速度模式

将帧输入到 Canny (#169) 以获得稳定的边缘图。“Canny 到视频 (LTX 2.0)”分支接受边缘和可选的 Canny 控制 LoRA,以高保真度保持轮廓,而“Canny 到视频 (LTX 2.0 Distilled)”提供更快的蒸馏检查点以快速迭代。两个变体都允许您可选地注入第一帧并选择图像强度,然后通过 CreateVideo 或 VHS_VideoCombine 导出。

视频设置和导出

通过 Width (#175) 和 height (#173) 设置宽度和高度,通过 Frame Count (#176) 设置总帧数,如果您想锁定初始参考,请切换 Enable First Frame (#177)。在每个路径的末尾使用 VHS_VideoCombine 节点来控制 crf、frame_rate、pix_fmt 和元数据保存。对于蒸馏 canny 路径,提供了一个专用的 SaveVideo (#180),当您更喜欢直接视频输出时。

性能和多 GPU

图形应用了 LTXVSequenceParallelMultiGPUPatcher (#44),启用 torch_compile 以跨 GPU 分割序列以降低延迟。KSamplerSelect (#8) 让您可以在包括 Euler 和梯度估计样式的采样器之间进行选择;较小的帧数和较低的步骤减少了周转时间,因此您可以快速迭代,并在满意时进行扩展。

LTX-2 ComfyUI 工作流中的关键节点

  • LTX Multimodal Guider (#17)。协调文本条件如何引导视频和音频分支。调整 cfg 和 modality 在链接的 LTX Guider Parameters (#18 对于视频,#19 对于音频) 中,以平衡忠实与创造力;提高 cfg 以更紧密地遵循提示,增加 modality_scale 以强调特定分支。
  • LTXVScheduler (#9)。构建一个适合 LTX-2 潜在空间的 sigma 调度。使用 steps 在速度和质量之间进行权衡;在原型设计时,较少的步骤可以减少延迟,然后在最终渲染时增加步骤。
  • SamplerCustomAdvanced (#41)。将 RandomNoise、从 KSamplerSelect (#8) 选择的采样器、调度器的 sigmas 和 AV 潜变量绑在一起的去噪器。切换采样器以获得不同的运动纹理和收敛行为。
  • LTX LTXV Img To Video Inplace (见 I2V 分支,例如 #107)。将图像注入视频潜变量中,因此第一帧锚定内容,而模型合成运动。调整 strength 以决定第一帧的保留程度。
  • LTX LTXV Add Guide (在引导路径中,例如深度/姿态/canny)。直接在潜在空间中添加结构指南(图像、姿态或边缘)。使用 strength 平衡指南的保真度与生成的自由度,并仅在您需要时间锚定时启用第一帧。
  • Video Combine 🎥🅥🅗🅢 (#15 及其同类)。将解码的帧和生成的音频打包成 MP4。对于预览,提高 crf(更多压缩);对于最终版本,降低 crf 并确认 frame_rate 与您在条件中设置的匹配。
  • LTXVSequenceParallelMultiGPUPatcher (#44)。启用带有编译优化的序列并行推理。保持开启以获得最佳吞吐量;仅在调试设备放置时禁用。

可选额外功能

  • LTX-2 ComfyUI 的提示技巧
    • 描述随时间变化的核心动作,而不仅仅是静态外观。
    • 指定您必须在视频中看到的重要视觉细节。
    • 撰写音轨:环境声、音效、音乐和任何对话。
  • 尺寸规则和帧率
    • 使用宽度和高度为 32 的倍数(例如 1280×720)。
    • 使用帧数为 8 的倍数(此模板中的 121 是一个不错的长度)。
    • 保持帧率一致;图形包含浮点和整型框,它们应匹配。
  • LoRA 指导
    • 相机、深度、姿态和 canny LoRAs 已集成;开始时相机移动的强度为 1,然后仅在需要时添加第二个 LoRA。在 Lightricks/LTX‑2 浏览官方收藏。
  • 更快的迭代
    • 降低帧数,减少 LTXVScheduler 中的步骤,并尝试 canny 路径的蒸馏检查点。当运动有效时,增加分辨率和步骤以获得最终结果。
  • 可重复性
    • 锁定 noise_seed 在随机噪声节点中,以便在调整提示、尺寸和 LoRAs 时获得可重复的结果。

致谢

此工作流实现并建立在以下工作和资源之上。我们对 Lightricks 的 LTX-2 多模态视频生成模型和 LTX-Video 研究代码库,以及 Comfy Org 的 ComfyUI LTX-2 合作节点/集成的贡献和维护表示感谢。有关权威细节,请参阅下面链接的原始文档和存储库。

资源

  • Comfy Org/LTX-2 现在在 ComfyUI 中可用!
    • GitHub: Lightricks/LTX-Video
    • Hugging Face: Lightricks/LTX-Video-ICLoRA-detailer-13b-0.9.8
    • arXiv: 2501.00103
    • 文档/发布说明: LTX-2 现在在 ComfyUI 中可用!

注意:使用参考的模型、数据集和代码须遵循其作者和维护者提供的相关许可证和条款。

Want More ComfyUI Workflows?

Wan 2.1 | 革命性的视频生成

利用突破性的 AI 在普通 CPU 上从文本或图像创建令人难以置信的视频。

PuLID Flux II | 一致的角色生成

在保持艺术风格的同时生成具有精确角色控制的图像。

CogvideoX Fun | 视频到视频模型

CogVideoX Fun: 高级视频到视频模型,用于高质量视频生成。

Wan 2.1 Fun | I2V + T2V

通过Wan 2.1 Fun增强您的AI视频。

Wan 2.2 | 开源视频生成领导者

现已推出!更高精度 + 更流畅的运动。

HunyuanCustom | 多主体视频生成器

创建具有卓越身份保留能力的双主体视频。

MMAudio | 视频到音频

MMAudio:用于高质量音频生成的先进视频到音频模型。

ComfyUI Vid2Vid 舞蹈传输

将源视频中的动作和风格传输到目标图像或对象上。

关注我们
  • 领英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 电子邮件
  • 系统状态
  • 附属
资源
  • 免费 ComfyUI 在线版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 节点
  • 了解更多
法律
  • 服务条款
  • 隐私政策
  • Cookie 政策
RunComfy
版权 2026 RunComfy. 保留所有权利。

RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。