logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>工作流>LTX 2.3 IC-LoRA | 动作跟踪 AI 视频生成器

LTX 2.3 IC-LoRA | 动作跟踪 AI 视频生成器

Workflow Name: LTX 2.3 IC-LoRA
Workflow ID: 0000...1372
借助最新的上下文控制模型,此工作流程帮助您实现精确的动作引导视频生成。从参考片段转移动作,锁定摄像机路径,并精确调整场景结构。风格控制保持独立,允许您通过提示或 LoRAs 自由更改美学。对于需要可预测、生产就绪结果的设计师来说,它在动作一致性和创意自由之间架起了桥梁。非常适合动作重定向、动画和场景指导,此系统简化了复杂的视频转换。

LTX 2.3 IC-LoRA: ComfyUI 中的动作跟踪视频生成

此工作流程将 LTX 2.3 IC-LoRA 系统引入 ComfyUI,让您在自由使用提示或额外的 LoRAs 进行风格化的同时引导动作和场景结构。它将 LTX-2.3 视频生成器基于深度、姿态和边缘等参考信号进行条件化,支持动作转移、摄像机锁定和可预测的构图。

从事视频到视频、动作重定向和控制 AI 动画的创作者会发现 LTX 2.3 IC-LoRA 将动作控制与视觉风格分开。您可以通过文本和风格 LoRAs 引导外观,通过结构化指南引导动作,所有这些都在单个 ComfyUI 图中完成。

Comfyui LTX 2.3 IC-LoRA 工作流程中的关键模型

  • Lightricks 的 LTX-2.3。高保真潜在视频扩散转换器,生成时间一致的序列,并支持结构和动作控制的条件化。 Hugging Face: Lightricks/LTX-2.3
  • LTX 2.3 IC-LoRA 联合控制权重。上下文 LoRA 权重旨在将结构化指导信号注入 LTX-2.3,以实现精确的动作和几何控制。与工作流程的模型链一起提供,并在生成之前加载。
  • LTX-2.3 的视频和音频 VAEs。与 LTX-2.3 配对的潜在编码器/解码器,用于在采样期间压缩和重建视频和音频特征。在图中预配置,并在使用量化构建时可切换。分包示例在此处提供:Hugging Face: unsloth/LTX-2.3-GGUF
  • Depth Anything V2。稳健的单目深度估计,用于锁定摄像机运动或在生成期间保持场景布局。Hugging Face: LiheYoung/Depth-Anything-V2
  • DWPose。轻量级多人体姿态估计器,通过关键点重新定位或保持角色动作。Hugging Face: yzd-v/DWPose

如何使用 Comfyui LTX 2.3 IC-LoRA 工作流程

图表被组织成清晰的组。您准备提示和参考视频,选择一个或多个结构化指南,然后生成和导出。

设置提示

使用 CLIP Text Encode (Positive Prompt) (#2483) 和 CLIP Text Encode (Negative Prompt) (#2612) 描述视觉风格并排除不需要的特征。文本编码器加载在模型组中,并路由到 LTXVConditioning (#1241),它还接收工作帧速率,以便条件与您的剪辑时间匹配。保持提示集中在外观上,因为 LTX 2.3 IC-LoRA 将处理动作和结构。

预处理

将参考剪辑加载或传递到 VHS_LoadVideo (#5182)。帧在 ImageResizeKJv2 (#5080) 中调整大小,并送入指南提取器:DepthAnythingV2Preprocessor (#5064) 用于深度,DWPreprocessor (#4986) 用于姿态,CannyEdgePreprocessor (#4991) 用于边缘。下游调整大小节点确保指南映射与模型友好的倍数匹配,GetImageSize (#5029) 记录宽度、高度和帧数,以供管道的其余部分使用。生成的指南图像序列由 Set_video_controlnet (#5100) 存储,以供 IC-LoRA 使用。

加载模型

基础模型和 LoRAs 在此组中组装。CheckpointLoaderSimple (#3940) 加载 LTX-2.3;LoraLoaderModelOnly (#4922) 应用蒸馏 LTX LoRA 以提高质量和速度;LTXICLoRALoaderModelOnly (#5011) 添加 LTX 2.3 IC-LoRA 权重,并发布所需的潜在缩放因子。为视频和音频加载 VAEs,Boolean - Use GGUF? (#5158) 可以通过 GGUFLoaderKJ (#5150) 使用兼容的文本编码器和 VAEs 在 VRAM 紧张时切换到量化 GGUF 构建。

加载图像(如果 t2v,设置 bypass=True)

如果您希望使用静态参考或第一帧锚定构图,请使用 LoadImage (#2004)。它通过 ImageResizeKJv2 (#5076) 调整大小,并预览以进行快速检查。布尔值 bypass_i2v 控制是否使用图像;对于纯文本到视频的 LTX 2.3 IC-LoRA,将其设置为 True。

生成

EmptyLTXVLatentVideo (#3059) 创建潜在画布。如果启用图像锚定,LTXVImgToVideoConditionOnly (#3159) 只注入图像的结构信息,而不烘焙风格。核心步骤在 LTXAddVideoICLoRAGuide (#5012) 中完成,它使用 IC-LoRA 加载器的潜在缩放因子将您选择的指南序列附加到模型。音频条件也通过 LTXVEmptyLatentAudio (#3980) 或自定义音频路径流入潜在空间。CFGGuider (#4828)、KSamplerSelect (#4831)、ManualSigmas (#5025) 和 SamplerCustomAdvanced (#4829) 然后执行去噪,以合成最终的潜在视频,同时尊重提示和 LTX 2.3 IC-LoRA 控制。

解码

LTXVSeparateAVLatent (#4845) 分离生成的音频和视频潜在空间以进行解码。LTXVCropGuides (#5013) 在需要时对齐和裁剪,然后 VAEDecodeTiled (#4851) 高效地重建帧。VHS_VideoCombine (#5070) 将帧合成为 MP4,默认使用参考剪辑的音频。如果您希望单独试听生成的音频潜在空间,可以使用 LTXVAudioVAEDecode (#4848) 解码。

准备参考视频

此辅助区域显示参考帧管道。VHS_VideoInfoLoaded (#5073) 提取 fps 和持续时间,这些信息被传播到条件节点和导出器,以确保时间同步。一个小的合并节点提供源序列的快速视觉预览,以进行理智检查。

自定义音频

如果您希望进行音频感知生成,参考音频将通过 LTXVAudioVAEEncode (#5146) 编码,并在 SetLatentNoiseMask (#5148) 中应用简单的掩码。标题为 Switch - Custom Audio? (#5149) 的开关在空或编码的音频潜在空间之间进行选择,然后在 LTXVConcatAVLatent (#4528) 中连接。在最终导出时仍默认使用参考音频;如果您更喜欢模型解码的音频,请将 LTXVAudioVAEDecode 输出路由到导出器的音频输入。

LTX 官方 Sigma 设置

调度节点 ManualSigmas (#5025) 定义了一个简明的 sigma 配置文件,针对 LTX-2.3 进行了调整,SigmasPreview (#5142) 可视化它,以便您可以推理关于噪声分配随时间的情况。这样您可以在保持 LTX 2.3 IC-LoRA 特有的时间稳定性的同时,在速度和细节之间进行权衡。

Comfyui LTX 2.3 IC-LoRA 工作流程中的关键节点

  • LTXICLoRALoaderModelOnly (#5011)。加载 LTX 2.3 IC-LoRA 权重,并输出指南注入器所需的潜在缩放因子。如果您添加额外的风格 LoRAs,请将它们放在此加载器之前,以保持动作指导的主导地位。
  • LTXAddVideoICLoRAGuide (#5012)。深度、姿态或边缘序列作为上下文指导进入模型的点。调整其强度,以在严格的结构遵从和从您的提示和风格 LoRAs 中获得的风格自由之间进行平衡。
  • LTXVImgToVideoConditionOnly (#3159)。提供可选的图像到视频条件,仅从静态图像中传输构图和粗略结构。在 i2v 和纯文本到视频之间切换时,使用其 bypass 切换。
  • CFGGuider (#4828)。控制模型相对于 LTX 2.3 IC-LoRA 指导遵循提示的强度。当风格忠实度最重要时增加指导,减少它以在最小漂移的情况下保留动作和几何。
  • SamplerCustomAdvanced (#4829) 和 ManualSigmas (#5025)。一个紧凑的调度和多步采样器配对,为 LTX-2.3 提供良好的时间一致性。如果您修改调度,请保持其平滑递减,并在进行较长渲染之前测试短片段。

可选附加项

  • 选择合适的指南。使用深度锁定摄像机和布局,使用姿态进行角色动作,使用边缘处理刚性物体或干净的轮廓。如果它们描述不同的方面,可以混合使用两个指南。
  • 保持尺寸对采样器友好。预处理器已经将尺寸四舍五入到模型友好的倍数;保持您的源接近目标纵横比,以最大限度地减少填充。
  • 在不破坏动作的情况下样式化。在 IC-LoRA 加载器之前添加一个轻风格 LoRA,并保持其权重适中,以便 LTX 2.3 IC-LoRA 可以保持几何和时间。
  • 低 VRAM 模式。切换使用 GGUF 以运行量化蒸馏模型和匹配的文本编码器/VAEs,如果您的 GPU 受限。 Hugging Face: unsloth/LTX-2.3-GGUF
  • 稳定的时间。参考视频读取的帧速率被注入到条件和导出器中,以便动作和音频保持对齐。如果您覆盖 fps,请在条件和导出中保持一致。

致谢

此工作流程实现并基于以下作品和资源构建。我们感谢 @Benji’s AI Playground 的 LTX 2.3 IC-LoRA Source 提供的源材料和指导。有关权威细节,请参阅以下链接的原始文档和存储库。

资源

  • LTX 2.3 IC-LoRA Source
    • 文档 / 发布说明:YouTube @Benji’s AI Playground

注意:使用引用的模型、数据集和代码受制于其作者和维护者提供的各自许可和条款。

Want More ComfyUI Workflows?

Uni3C 视频参考的摄像机与动作转移

从参考视频中提取摄像机运动和人物动作,用于专业视频生成

ComfyUI Vid2Vid 舞蹈传输

将源视频中的动作和风格传输到目标图像或对象上。

CogVideoX Tora | 图像到视频模型

CogVideoX 的主题轨迹视频演示

Omni Kontext | 无缝场景整合

完美场景契合。独特风格。身份保持。Kontext 保持真实。

Stable Audio Open 1.0 | 文本到音乐工具

将文本提示无缝快速地转化为电影音乐。

Multitalk | 逼真的对话视频制作工具

一键从肖像和声音创建多说话者同步对口型视频!

Flux填充 | 修复和扩展

官方Flux工具 - 用于修复和扩展的Flux填充

OmniGen | 图像到图像

OmniGen:根据参考图像和提示修改图像

关注我们
  • 领英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 电子邮件
  • 系统状态
  • 附属
资源
  • 免费 ComfyUI 在线版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 节点
  • 了解更多
法律
  • 服务条款
  • 隐私政策
  • Cookie 政策
RunComfy
版权 2026 RunComfy. 保留所有权利。

RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。