LTX-2 ControlNet在ComfyUI中的使用 | 深度控制视频工作流

ComfyUI LTX-2 ControlNet Workflow

LTX-2 ControlNet in ComfyUI | Depth-Controlled Video Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX-2 ControlNet Examples

LTX-2 ControlNet: 在ComfyUI中结构引导、音频同步的视频生成#

LTX-2 ControlNet是一个控制驱动的ComfyUI工作流，用于ComfyUI-LTXVideo扩展，允许您通过深度、Canny边缘和姿态引导来引导LTX-2视频生成，同时保持音频和视觉同步。它在一个统一的视听潜在空间中运行，因此语音、音效和运动一起生成并从第一帧到最后一帧保持对齐。

针对文本到视频、图像到视频和视频到视频，工作流添加了基于IC LoRA的ControlNet条件以实现精确的布局和运动控制，场景连续性的首帧初始化，以及具有潜在放大的两阶段管道，以在不增加VRAM的情况下获得清晰的结果。LTX-2 ControlNet完全开放，快速迭代，面向需要可重复、高质量输出的创作者。

Comfyui LTX-2 ControlNet工作流中的关键模型#

LTX-2 19B (开发 FP8和蒸馏)。用于在单个潜在空间中采样视频和音频的核心视听生成模型。模型系列
Gemma 3 12B IT文本编码器。通过LTX-2使用的打包编码器提供对提示和否定的强大语言理解。编码器文件
LTX-2 Spatial Upscaler x2。用于第二阶段的潜在放大模型以细化空间细节。放大器
LTX-2 Audio VAE。专门的音频解码编码器，使生成的声音与帧保持对齐。包含在LTX-2检查点中。检查点
IC LoRA控制系列用于LTX-2。添加ControlNet风格的条件：
- 深度控制LoRA: ltx-2-19b-IC-LoRA-Depth-Control
- Canny控制LoRA: ltx-2-19b-IC-LoRA-Canny-Control
- 姿态控制LoRA: ltx-2-19b-IC-LoRA-Pose-Control
- 蒸馏LoRA以实现质量/效率权衡: ltx-2-19b-distilled-lora-384
Lotus Depth D v1.1。用于深度控制路径的深度估计器。模型
SD VAE FT MSE (Stability AI)。用于深度预计算和平铺解码的图像VAE。VAE
ComfyUI-LTXVideo扩展。提供在整个过程中使用的LTX-2采样器、AV潜在变量、音频VAE和引导节点。仓库

如何使用Comfyui LTX-2 ControlNet工作流#

在高层次上，LTX-2 ControlNet接受您的提示和可选参考，构建一个带有ControlNet风格引导的视听潜在变量，进行第一次采样，然后放大潜在变量以获得清晰的视频和同步的音频。选择三种引导路径之一（深度、Canny、姿态）或独立使用它们，然后在导出前设置长度和大小。

图像/视频预处理
- 如果您正在进行从图像到视频或从视频到视频，请使用加载器导入您的参考媒体。VHS_LoadVideo (#196, #197, #198)分割帧以进行分析，而LoadImage (#189)处理静帧。该组提供便利的缩放，以便下游引导看到一致的帧大小。
- 可以传递“首帧”图像以进行场景初始化；稍后将在生成组中启用它。
图像深度预处理
- 对于深度引导，“Image to Depth Map (Lotus)”子图使用Lotus Depth将您的输入转换为标准化深度图。这准备了一个单帧或多帧的深度表示，LTX-2可以遵循。
- 路径包括可选的调整大小和强度控制，以便引导编码广泛的结构而不过度拟合小的伪影。
视频姿态预处理
- 对于姿态引导，DWPreprocessor (#158)从输入视频中检测全身关键点并对其进行缩放以实现稳定的条件。这产生了一个干净的姿态图像序列，强调骨架和肢体方向。
- 预览节点帮助您快速验证检测和纵横比在生成前看起来是否正确。
Canny到视频
- 此控制路径使用Canny (#169)提取边缘，然后使用控制图像序列构建一个AV潜在变量。当您希望保留轮廓、主要轮廓或参考中的排版边缘时使用它。
- 提供首帧图像输入以进行一致的初始化；仅在您希望开头帧匹配特定静帧时启用它。
深度到视频
- 此路径将Lotus深度图作为控制图像。深度控制非常适合在选择纹理和照明时执行相机几何、大规模布局和主体距离。
- 您可以提供首帧以锁定初始构图，然后让运动在深度提示的引导下演变。
姿态到视频
- 姿态路径使用来自预处理器的关键点渲染，指导身体方向和运动时间。它在角色阻挡、手提时间和行走循环方面特别有效。
- 如同其他模式，您可以将提示时间与可选的首帧条件结合使用以实现连续性。
视频设置和长度
- 在“视频设置”和“视频长度”组中设置工作宽度、高度和帧数。工作流自动调整无效值到LTX-2的潜在网格和步幅的最近兼容尺寸，以便您可以安全地迭代。
- 保持目标帧速率在节点之间一致；条件节点和最终复合尊重它以实现平滑的视听同步。
生成、放大和导出
- 在采样期间，LTXVAddGuide将您的正/负条件与选择的控制图像相结合，然后SamplerCustomAdvanced从LTXVScheduler执行视频和音频潜在变量的计划。可选的首帧通过LTXVImgToVideoInplace注入以启用。
- 第二阶段运行LTXVLatentUpsampler以使用x2潜在放大器细化细节。最终解码通过平铺的VAEDecodeTiled进行帧和LTXVAudioVAEDecode进行音频，然后视频通过VHS_VideoCombine或CreateVideo根据选择的分支写入。

Comfyui LTX-2 ControlNet工作流中的关键节点#

LTXVAddGuide (#132)
- 将文本条件和IC LoRA控制合并到AV潜在变量中，作为LTX-2 ControlNet引导的核心。仅调整少数重要控制：选择与您的路径（深度、Canny或姿态）匹配的控制LoRA，并在可用时调整image_strength以调整模型对引导的跟随程度。参考实现和节点行为由LTXVideo扩展提供。文档/代码
LTXVImgToVideoInplace (#149, #155)
- 将首帧图像注入AV潜在变量以实现一致的场景初始化。使用strength在对首帧的忠实度与自由演变之间取得平衡；保持较低以获得更多运动，较高以获得更紧密的锚点。当您希望完全由文本或控制驱动的开头时，绕过它。文档/代码
LTXVScheduler (#95)
- 驱动统一潜在变量的去噪轨迹，以便音频和视频一起收敛。增加步骤以适应复杂场景和细节；缩短以进行草稿和快速迭代。计划设置与引导强度相互作用，因此当引导强时避免极端值。文档/代码
LTXVLatentUpsampler (#112)
- 使用LTX-2 x2空间放大器执行第二阶段潜在放大，通过最小的VRAM增长提高清晰度。在第一次通过后使用它，而不是增加基础分辨率，以保持迭代响应。放大器模型
DWPreprocessor (#158)
- 为姿态控制路径生成干净的人体姿态关键点。通过预览验证检测；如果手或小肢体有噪声，在预处理前将输入缩放到适度的最大尺寸。由ControlNet辅助套件提供。仓库
VHS_VideoCombine / CreateVideo (#195, #106)
- 将解码的帧和音频以选定的帧速率和像素格式合并为MP4。仅在确认音频解码在预览中看起来对齐后使用它们。由视频助手套件提供。仓库

可选附加功能#

LTX-2 ControlNet的提示
- 描述随时间变化的动作，而不仅仅是静态属性。
- 包含所需的声音提示或对话，以便音频按节拍生成。
- 使用简洁的负面提示来抑制您反复看到的伪影。
大小和长度
- 使用形式为32k + 1的图像大小；如果您错过了，图表会自动校正，但精确的值会加速迭代。
- 形式为8k + 1的帧数对于调度来说通常是最稳定的。
首帧一致性
- 仅在需要锁定的开头构图时启用首帧；将其与中等的image_strength配对以避免过度约束。
VRAM和吞吐量
- 工作流在LTXVideo补丁中包含序列并行和torch编译选项，适用于多GPU或内存受限的设置。对于长片段保持开启，调试节点行为时关闭。扩展