LTX 2.3 Director: 基于时间线的 AI 电影制作工具,适用于 ComfyUI#
LTX 2.3 Director 是一个电影级、时间线驱动的工作流,用于创建具有精确创意控制的结构化 AI 视频。围绕 LTX‑2.3 视频模型构建,允许您通过在熟悉的时间线上安排提示、参考图像、过渡和音乐来指导多场景序列。结果是在 ComfyUI 中获得导演风格的体验,从头到尾连贯地处理运动连续性、镜头构图和音频同步。
专为讲故事者、音乐视频制作者、预告片编辑者以及任何构建 AI 电影制作管道的人设计,LTX 2.3 Director 将提示工程转化为全生产流程。您可以设定全局基调,使用局部提示优化每个镜头,并在提交高质量放大和最终导出之前快速预览。
Comfyui LTX 2.3 Director 工作流中的关键模型#
- LTX‑2.3 22B (FP8) 视频生成模型。核心扩散骨干,将文本和参考转化为连贯的视频潜在变量。 Model repo
- LTX‑2.3 视频 VAE (bf16)。对视频帧进行编码和解码,将其压缩到潜在空间中,以实现高效采样和高保真重建。 Model repo
- LTX‑2.3 音频 VAE (bf16)。将音频打包并恢复到联合 AV 潜在变量中,以保持运动和音轨同步。 Model repo
- LTX‑2.3 空间放大器 x2 v1.1。专用 x2 潜在放大器,在细化过程中提升细节和清晰度。 Model repo
- LTX‑2.3 22B 蒸馏 LoRA (384)。可选的 LoRA 提高质量/效率,并可改变模型的外观。 Model card
- Tiny VAE (taeltx2_3)。轻量级 VAE 用于在放大过程前快速预览。 Model repo
- LTX‑2.3 文本投影 (bf16)。官方文本到视频投影,用于高质量提示条件。 Model repo
如何使用 Comfyui LTX 2.3 Director 工作流#
工作流分为两个阶段运行。阶段 #1 在预览速度下建立组合、运动和音频对齐。阶段 #2 放大、重新引导并细化细节以获得最终质量。完成块解码、混合音频并写入视频。
模型#
此部分准备 LTX 2.3 Director 所需的模型堆栈和文本编码器。加载 LTX‑2.3 基础模型,并在需要时添加 LoRAs 以调整风格或效率。轻量级 VAE 加速预览,而完整的 VAEs 确保后期的保真度。LTX‑2.3 捆绑的双文本组件提供稳健的提示条件,无需额外设置。
需要注意的关键节点: CheckpointLoaderSimple (#77), DualCLIPLoader (#84), LoraLoaderModelOnly (#80, #93, #95), VAELoaderKJ (#78, #4, #3), 和 LTX2SamplingPreviewOverride (#79)。
阶段 #1#
阶段 #1 将您的时间线转换为具有同步音频的连贯首通视频。将您的全局基调和每个镜头的提示输入到 LTXDirector (#46) 中,并组装图像和时长的段序列;该节点返回组合的 AV 潜在变量、指南数据和帧率。LTXVConditioning (#5) 和 LTXDirectorGuide (#8) 将这些方向转化为结构化指导。带有 CFGGuider (#9), BasicScheduler (#11), KSamplerSelect (#29), 和 SamplerCustomAdvanced (#10) 的采样器堆栈生成整个时间线的初始 AV 潜在变量。使用此通道验证场景顺序、节奏和广泛运动,然后再投入计算进行放大。
阶段 #2 放大#
阶段 #2 在提高分辨率和保真度的同时保留首通的意图。LTXVCropGuides (#55) 在镜头之间对齐构图,然后 LTXVLatentUpsampler (#52) 应用由 LatentUpscaleModelLoader (#57) 加载的 x2 空间放大器。第二个 LTXDirectorGuide (#58) 以更高的细节重新注入时间线线索,而采样器堆栈 (CFGGuider (#49), BasicScheduler (#54), KSamplerSelect (#53), SamplerCustomAdvanced (#47)) 细化纹理、面孔和边缘。然后将 AV 潜在变量分离进行最终解码,同时保留链接的音频和视频时间。
处理视频#
完成块解码帧和音频,重建序列并保存结果。LTXVCropGuides (#14) 确保覆盖所选纵横比,VAEDecodeTiled (#94) 在不耗尽内存的情况下安全解码高分辨率视频。LTXVAudioVAEDecode (#16) 从音频潜在变量中恢复音轨。CreateVideo (#17) 按您选择的 fps 组装帧和音频,SaveVideo (#30) 写入最终文件。
Comfyui LTX 2.3 Director 工作流中的关键节点#
LTXDirector(#46)。LTX 2.3 Director 的核心。它接受全局提示、镜头段时间线和可选的每镜头局部提示,然后输出结构化指导加上同步的 AV 潜在变量。调整全局和局部提示之间的平衡,以控制每个镜头如何紧密地遵循其自身描述。对于以剪辑为驱动的编辑,保持段定义清晰;对于流畅的过渡,允许重叠和一致的风格语言。LTXDirectorGuide(#8)。将导演的提示转化为可操作的指南,用于阶段 #1。调整其规模和重采样方法,以在预览通过期间以速度换取保真度。如果场景看起来过于粗糙,请增加其影响;如果过于受限,请减少它以便采样器可以自由发挥。LTXDirectorGuide(#58)。阶段 #2 的第二个高保真指南。用于在放大后重新确认构图、相机意图和风格。与放大器平衡此节点:更强的指导锁定构图,而较轻的触感让放大器强调细节和微观纹理。LTXVCropGuides(#55)。在放大之前规范化构图并执行纵横比规则。用它来稳定剪辑之间的地平线、头顶空间和兴趣中心。如果角色在帧间漂移,请在重采样前加强这些裁剪指南。LTXVLatentUpsampler(#52)。将 LTX‑2.3 空间放大器 x2 应用于潜在变量。这是从阶段 #1 预览中恢复清晰细节的主要杠杆。确保所选放大器模型与您的 VAE 配对匹配,以避免不匹配伪影。CFGGuider(#9, #49)。在采样期间控制提示遵从性。较低的值通常会产生更平滑的运动和更自然的过渡;较高的值则加强文本精度。如果面孔或道具漂移,请稍微提高指导;如果运动看起来僵硬,请放松它。BasicScheduler(#11, #54) 和KSamplerSelect(#29, #53)。定义噪声计划和采样方法。它们共同决定运动的纹理、时间稳定性和渲染时间。如果您看到闪烁,请尝试更平滑的计划或已知时间一致性的采样器;如果结果缺乏细节,请测试偏好锐度的采样器。SamplerCustomAdvanced(#10, #47)。两次传递的工作马去噪器。它结合了您的噪声种子、计划、指南和当前潜在变量以生成 AV 潜在变量。在迭代提示时保持种子固定以比较编辑;当您想要新的阻挡或时间时更改种子。VAEDecodeTiled(#94)。使用可配置的瓦片解码高分辨率帧。如果您注意到接缝,请增加重叠;如果遇到内存限制,请减小瓦片尺寸。即使在中档 GPU 上也使用瓦片解码以保持稳定性。CreateVideo(#17) 和SaveVideo(#30)。以所选 fps 混合帧和音频并写入最终容器。保持 fps 与您的时间线一致,否则您将改变节奏。对于存档母版,以原生阶段 #2 大小导出;对于社交平台,可以在导出期间调整大小。
可选附加功能#
- 使用清晰的脊椎构建您的时间线:全局提示中的全局风格,局部提示中的镜头细节,并在段之间保持角色/相机名词一致。
- 参考图像锚定外观和布局。将它们用于关键镜头,如建立镜头或特写,然后让相邻段更多依赖文本以保持流畅性。
- 对于音乐视频,提前添加音频,并迭代种子直到运动强调落在节拍上;然后锁定种子并优化提示。
- 如果过渡感觉跳跃,延长相邻段提示以共享风格语言并在剪辑中保持构图指南相似。
- LoRAs 堆叠,但微妙的强度通常效果最佳。开始时适度,只同时结合几个,并在短切片上测试它们的交互。
- 可重现性很重要:在您批准外观时,保留噪声种子、采样器选择和任何使用的 LoRAs 的记录。
- 如果面孔在放大后摇摆,增加阶段 #2
LTXDirectorGuide(#58) 中的指导影响,或切换到偏好时间稳定性的计划。 - 通过社区策展列表探索其他 LTX‑2.3 资源和模型。 awesome‑ltx2 on GitHub
使用 LTX 2.3 Director,您可以以类似于 Premiere 或 After Effects 的时间线编辑器的方式指导复杂的多场景视频,同时保留 ComfyUI 节点图的灵活性。在阶段 #1 中塑造故事,在阶段 #2 中增加保真度,并通过一个连贯的工作流发布具有同步音频的电影级结果。
致谢#
此工作流实现并基于以下作品和资源构建。我们对 Aiwood爱屋研究室 为 LTX 2.3 Director 工作流所做的贡献和维护表示衷心感谢。有关权威详细信息,请参考下方链接的原始文档和存储库。
资源#
- Aiwood爱屋研究室/LTX 2.3 Director 工作流来源
- 文档 / 发布说明: LTX 2.3 Director 工作流来源
注意:使用参考的模型、数据集和代码受其作者和维护者提供的各自许可证和条款的约束。

