LTX 2.3 ComfyUI 工作流程 | 高质量 AI 视频创建器

LTX 2.3 ComfyUI Workflow

想要运行这个工作流吗？

完全可操作的工作流
没有缺失的节点或模型
无需手动设置
具有惊艳的视觉效果

LTX 2.3 ComfyUI Examples

LTX 2.3 ComfyUI: 文本到视频，配有清晰音频、双阶段采样和2×空间放大#

此 LTX 2.3 ComfyUI 工作流程将短提示转换为精致的电影视频，并配有同步音频。它围绕 Lightricks 的 LTX‑2.3 模型构建，配置为高视觉连贯性、稳定运动和广播友好输出。创作者、编辑和技术艺术家可以通过一次操作从单个提示生成带有音频的 MP4，使用包含提示增强器、两个采样阶段和2×潜空间放大的简化图形。

与典型的文本到视频设置相比，此图强调场景一致性和提示保真度。默认路径生成一个 AV 潜在变量，在潜在空间中放大以获得更锐利的细节，然后解码为帧和音频，最后将所有内容打包成一个准备分享的视频文件。如果您正在探索现代开源视频模型，此 LTX 2.3 ComfyUI 工作流程是获得生产质量运动的快速方法。

Comfyui LTX 2.3 ComfyUI 工作流程中的关键模型#

LTX‑2.3 22B (dev) checkpoint by Lightricks. 核心文本到视频模型，产生高连贯运动和强场景一致性。 Hugging Face • GitHub
Gemma 3 12B Instruct text encoder (FP4 mixed). 提供强大的语言理解能力，以更好地支持提示定位和丰富的场景细节。 Hugging Face
LTX‑2.3 Spatial Upscaler x2 1.0. 一个潜空间上采样器，在不破坏运动一致性的情况下锐化空间细节。 Hugging Face
LTX‑2.3 22B Distilled LoRA (384). 一个蒸馏适配器，在放大/精炼阶段精细化纹理保真度并稳定风格。 Hugging Face
LTX Audio VAE. 与 LTX‑2.3 配对的音频模块，可从同一提示生成清晰、同步的声音。 Hugging Face

如何使用 Comfyui LTX 2.3 ComfyUI 工作流程#

图形在协调的两次通过中运行。首先，它在工作分辨率下使用您的提示生成 AV 潜在变量。然后执行2×潜在放大和一个蒸馏 LoRA 的第二次采样通过，最后解码为帧和音频，最终复用为 MP4。

提示增强器#

TextGenerateLTX2Prompt (#149) 节点将普通语言重写为模型友好的提示，涵盖动作、视觉和音频线索。输入您的场景描述；如果需要框架或风格的指导，可以连接可选的参考图像。生成的文本被路由到一个正向编码器，而一个质量导向的负向提示则保持伪影减少。这种平衡帮助 LTX‑2.3 模型在不过度限制创造力的情况下保持任务。

模型#

CheckpointLoaderSimple (#146) 加载 LTX‑2.3 22B 检查点并公开模型及其 VAE。LTXAVTextEncoderLoader (#147) 引入工作流程使用的 Gemma 3 12B Instruct 文本编码器，用于正向和负向条件。除非您正在测试其他 LTX 变体，否则请保持这些选择，因为其余图形已针对该配对进行调整。

视频设置#

分辨率和持续时间通过轻量级图像支架和 Length 控件设置。图形读取图像大小，将其缩放为工作分辨率，并将这些值转发到视频潜在创建器。LTX 模型有步幅约束；请坚持遵循32步幅模式的大小和与模型的帧节奏一致的长度。图形会轻微调整非法值到最近的有效值，但预先选择有效大小会产生最佳构图。

帧率#

两个小控件设置用于条件和最终编码的 FPS：Frame Rate(int) (#141) 和 Frame Rate(float) (#140)。保持它们相同，以便在整个管道中运动时间和音频对齐保持一致。如果您想要更流畅的运动，请选择电影帧率；如果针对社交格式，请匹配平台默认设置。

潜在#

EmptyLTXVLatentVideo (#121) 初始化视频潜在，LTXVEmptyLatentAudio (#119) 对音频进行同样操作。LTXVConcatAVLatent (#122) 将它们合并为单个 AV 潜在，以便文本引导可以同时引导两种模式。LTXVConditioning (#120) 附加正向和负向条件，LTXVCropGuides (#115) 将引导适应潜在的空间布局，以实现更可靠的构图。

采样器阶段 1#

此阶段使用 RandomNoise (#151)、KSamplerSelect (#144) 和 LTX 感知的 LTXVScheduler (#112) 以及 CFGGuider (#139) 创建初始 AV 潜在。调度程序专为 LTX 量身定制，以平衡时间稳定性和提示遵循性。如果您想要更多变化，请更改噪声种子；如果想让脚本更稳定地遵循，请选择保持时间连贯性的采样器。

模型 (LoRA)#

LoraLoaderModelOnly (#143) 在精炼前应用 LTX‑2.3 蒸馏 LoRA。此适配器在不失去运动一致性的情况下，微妙地提升纹理光泽和风格保真度。它在皮肤、织物和镜面高光上最为明显。

放大采样 (2×)#

LTXVLatentUpsampler (#130) 使用加载的 LatentUpscaleModelLoader (#114) 和基础 VAE 在潜空间中执行2×空间放大。因为放大在解码之前进行，您保留时间平滑性，同时获得细致的空间细节。放大的视频和音频潜在变量然后与 LTXVConcatAVLatent (#129) 重新结合进行精炼通道。

采样器阶段 2 (2×)#

第二次通过使用 RandomNoise (#127)、KSamplerSelect (#145) 和 ManualSigmas 调度 (#113) 在 CFGGuider (#116) 下细化放大的潜在变量。此阶段是微细节和边缘锐度最终确定的地方。当 LoRA 活跃且提示具体到纹理和光照时效果最佳。

解码和输出#

LTXVSeparateAVLatent (#135) 拆分精炼的潜在变量，以便 VAEDecodeTiled (#137) 可以重建帧，而 LTXVAudioVAEDecode (#138) 恢复音频。CreateVideo (#133) 在选定的 FPS 下将帧和音频进行复用，顶层 SaveVideo 节点将 MP4 写入工作流程的视频文件夹。结果是一个在 LTX 2.3 ComfyUI 管道内部完全生成的干净、准备分享的文件。

Comfyui LTX 2.3 ComfyUI 工作流程中的关键节点#

TextGenerateLTX2Prompt (#149): 将简单描述转化为涵盖运动、视觉属性和音频的结构化提示。首先在此处调整您的措辞以引导故事情节或节奏；通常比采样器调整获得更大收益。
LTXVScheduler (#112): 一个特定于 LTX 的调度程序，塑造噪声随时间的去除方式。明智地与您选择的采样器配对，以平衡时间稳定性和提示保真度。
LTXVLatentUpsampler (#130): 直接在潜空间中执行2×空间放大，保留运动连续性，同时增加清晰细节。需要更锐利的结果时使用它，而不是依赖解码后的放大器。
LoraLoaderModelOnly (#143): 应用 LTX‑2.3 蒸馏 LoRA 进行精炼。增加影响以更紧密地控制风格；如果想要基础模型的更广泛外观，则减少它。
CreateVideo (#133): 在选定的 FPS 下将解码的帧与生成的音频进行复用，以保持时间和口型同步。如果更改 FPS，请保持两个帧率控件匹配。

可选扩展#

提示技巧：描述随时间变化的动作，列出关键视觉元素，并指定期望的声音或对话。清晰、简洁的措辞为 LTX‑2.3 编码器提供最佳信号。
尺寸和长度：偏好32步幅的大小和尊重模型帧节奏的长度。尽管图形自动调整接近值，但有效输入改善构图并减少细微抖动。
快速迭代：在运行之间更改 RandomNoise 种子，以探索变体，同时保持相同的提示和设置。
模型切换：默认设置已针对 LTX‑2.3 22B 与 Gemma 3 12B IT 和2×空间放大器调优。仅在您了解每个如何影响条件和解码时交换模型。

致谢#

此工作流程实现并构建在以下作品和资源之上。我们诚挚感谢 Lightricks 提供的 LTX-2.3 模型和 EyeForAILabs 提供的 YouTube 教程的贡献和维护。有关权威细节，请参阅以下链接的原始文档和存储库。

资源#

Lightricks/LTX-2.3
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3
- arXiv: 2601.03233
EyeForAILabs/YouTube Tutorial
- 文档 / 发布说明: YouTube Channel from @eyeforailabs

注意：使用引用的模型、数据集和代码需遵循其作者和维护者提供的相关许可证和条款。

Want More ComfyUI Workflows?

FLUX.2 [klein] 4B & 9B | 超快速 Flux 图像生成器

通过统一的编辑控制实现超快速的视觉创作。

Blender + ComfyUI | AI 渲染 3D 动画

使用 Blender 设置 3D 场景并生成图像序列，然后使用 ComfyUI 进行 AI 渲染。

动态图形动画效果 | Vid2Vid

从预先存在的视频输入开始实现动态图形动画效果。

OmniGen2 | 文本到图像 & 编辑

用于图像生成和编辑的强大统一模型

IPAdapter Plus (V2) + ControlNet | 图像转视频

使用 ComfyUI IPAdapter Plus 和 ControlNet QRCode 将图像转换为动画。

ComfyUI Grounding | 对象跟踪工作流

以像素级精度跟踪任何主体，获得令人惊叹的 VFX 效果。

Ace Step 1.5 | 商业级AI音乐生成器

通过智能规划和扩散能力将文本转化为完整的歌曲。

Krea 2 多图像编辑器 | 智能视觉融合

将多个参考合并为一个清晰、无缝的视觉杰作。

关注我们

支持

资源

法律

RunComfy

RunComfy 是首选的 ComfyUI 平台，提供 ComfyUI 在线环境和服务，以及 ComfyUI 工作流具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。

LTX 2.3 ComfyUI | 高质量 AI 视频生成器