ComfyUI>工作流>LTX 2.3 电影生成器工作流程 | AI 电影生成器

LTX 2.3 电影生成器工作流程 | AI 电影生成器

Workflow Name: RunComfy/LTX-2.3-Movie-Builder
Workflow ID: 0000...1409
使用 LTX 2.3 电影生成器系统,您可以构建具有多场景连续性和电影质量的连贯 AI 驱动电影。它简化了场景规划和提示序列,同时保持角色和运动的一致性。您可以创建文本到视频、图像到视频以及基于音频的叙事,无需复杂的手动设置。该系统确保长片项目的镜头平滑过渡和真实节奏。对于创作者来说,它为您的 AI 电影制作过程带来了速度、结构和创意控制。

ComfyUI LTX 2.3 Movie Builder Workflow Workflow

LTX 2.3 Movie Builder Workflow in ComfyUI | Multi-Scene AI Filmmaking
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI LTX 2.3 Movie Builder Workflow Examples

LTX 2.3 电影生成器工作流程:在 ComfyUI 中实现连贯的多场景、音频感知电影制作#

LTX 2.3 电影生成器工作流程是一个电影级 AI 电影制作系统,将 Qwen/Gemma 提示智能与 LTX‑2.3 视频模型结合,生成连贯的多场景电影、故事驱动的剪辑和音乐视频。它自动化场景规划、提示序列和镜头组装,同时保留角色身份、运动连续性和电影节奏。您可以仅使用文本驱动结果、图像到视频的起始或音频参考进行唇形同步和手势定时,保持对风格、镜头运动、长度和编辑顺序的创意控制。

由 Mickmumpitz.ai 为生产工作流构建,此 ComfyUI 图形整合了起始图像创建与 FLUX.2、结构化语音提示、音频感知条件、可选的潜在上采样以及最终的镜头组装器。如果您需要一个准备拍摄的管道,LTX 2.3 电影生成器工作流程可以将您从参考和脚本行快速带到成品剪辑,几乎无需手动设置。

Comfyui LTX 2.3 电影生成器工作流程中的关键模型#

  • Lightricks LTX‑2.3 22B (transformer only, FP8): 主要的文本到视频骨干,用于图像到视频和文本到视频生成。Model
  • LTX‑2.3 Distilled LoRA 384 1.1: 蒸馏的权重加速并稳定 LTX‑2.3 采样。LoRA
  • LTX‑2.3 Spatial Upscaler x2 1.1: 可选的潜在上采样器,用于更清晰、更大的视频。Model
  • LTX‑2.3 Video VAE (BF16) 和 Audio VAE (BF16): 用于 LTX 视频和音频潜在变量的 VAE。Video VAE · Audio VAE
  • LTX‑2.3 ID LoRA TalkVid 3k: 识别感知 LoRA,改进说话身份和口部动作。LoRA
  • Gemma 3 12B IT + LTX‑2.3 Text Projection: 用于 LTX 提示的文本编码栈。Encoder · Projection
  • FLUX.2‑klein‑9B FP8: 快速图像生成器,用于起始帧、道具和外观开发。Model
  • FLUX.2‑klein‑9B Consistency LoRA V2 和 360 ERP Outpaint LoRA: 改善资产的时间稳定性和广泛背景。Consistency · 360 ERP
  • Flux2 VAE 和 Qwen 3 8B 文本编码器用于 FLUX: 用于资产创建路径的编码器。Flux2 VAE · Qwen 3 8B
  • 可选的低 VRAM 路径: LTX‑2.3 GGUF 量化 UNet。GGUF

如何使用 Comfyui LTX 2.3 电影生成器工作流程#

概览:选择您的电影分辨率和帧率,加载主角图像(面部/身体),添加可选的语音参考,用 FLUX 生成起始帧或提供您自己的静止图像,编写结构化提示,然后渲染镜头。为新场景复制镜头并在组装器中重新排序以导出最终电影。

设置#

LtxResolutionPicker (#13492) 和 Frame Rate (#13480) 中设置您的视频画布和节奏。全局采样控制位于 Set_steps (#845) 和 Set_cfg (#851),影响资产创建和 LTX 视频生成。如果您只在静止图像上迭代,切换 ENABLE / DISABLE VIDEO GENERATION (#13715) 旁路以节省时间。这些设置定义了每个剪辑运行的时间长度以及如何组合到最终时间线上。

加载 LTX 模型#

LTX 栈通过 UNETLoader (#13450)、两个 Load Distilled LoRA 节点 (#10370, #10159) 和用于角色一致性的 ID LoRA LoraLoaderModelOnly (#10324) 加载。提示通过 DualCLIPLoader (#13451) 使用 Gemma + LTX 投影进行编码。视频和音频 VAE 通过 VAELoader (#13449) 和 VAELoader (#13832) 加载,可选的潜在上采样器由 LatentUpscaleModelLoader (#10349) 提供。图形将这些存储为可重复使用的“Get/Set”值,以便每个镜头读取相同的模型包。

加载 FLUX 模型#

对于起始图像创建和外观开发,FLUX 路径加载 UNETLoader (#1992),使用 Consistency 和 360 ERP LoRA (LoraLoaderModelOnly #6228, #13261)。文本通过 CLIPLoader (#362) 使用 Qwen 编码,图像通过 VAELoader (#360) 解码。此阶段是独立的,因此您可以在道具、环境或建立镜头上快速迭代,然后再将它们交给 LTX。

加载主角图像#

使用 LoadImage (#4867, #1284) 和配套集 (#13472, #13473) 添加您的面部和身体参考(如果需要)。嵌入的“REMOVE BG”工具链自动裁剪面部并去除背景,以生成 FACEBODYFACEBODY 集(Set_FACE #3093, Set_BODY #3291, Set_FACEBODY #1334)。干净的参考对于镜头间的身份保留至关重要。

资产创建者(可选)#

如果您希望工作流程创建一个准确的起始静止图像,请在 Text Prompt (#13442) 中编写描述并运行 FLUX 采样器 KSampler (#13361)。生成的帧被缓存为 OUT_01 并通过 SaveImage (#13439) 保存,然后可选地通过 ColorMatch (#13478) 与您的参考进行协调。这成为随后的图像到视频传递的视觉锚点。

音频参考(可选)#

使用 LoadAudio (#10343) 加载语音或表演提示,并在 TrimAudioDuration (#10344) 中修剪;使用 PreviewAudio (#10346) 预览。当 Enable Voice Reference (#13320) 启动时,音频传递给 LTXVReferenceAudio (#13329),指导口型、措辞和手势节拍。如果您希望在迭代中期比较或切换拍摄,有第二个参考插槽 (AUDIO REFERENCE 02) 可用。

镜头 01#

每个镜头从共享池中读取模型和设置,然后将您的资产、提示和可选音频融合为一个视频。在 Text Prompt (#13384) 中输入电影描述或以语音驱动的提示;使用包含的格式 [VISUAL] / [SPEECH] / [SOUNDS] 以获得最佳效果。起始静止图像在 LTXVPreprocess (#13308) 中预处理,并在 LTXVImgToVideoInplace (#13289) 中动画化,启用时由 LTXVReferenceAudio (#13329) 提供音频条件。管道运行一个两阶段采样器 (SamplerCustomAdvanced #13316, #13331),如果 Enable Upscale (#13322) 启动,则使用 LTXVLatentUpsampler (#13306) 提炼细节。CreateVideo (#13310) 将帧和音频混合;您可以通过 ShotVideoOutput (#13379) 和 Video Output (#13393) 保存每个镜头的输出。

最终电影输出#

使用帮助节点 MickmumpitzShotOrder (#8230) 和 MickmumpitzShotDuplicator (#6357) 安排镜头顺序,然后在 Video Output - Shot Assembler (#5598) 中组装您的剪辑。组装器裁剪和连接剪辑,准备单个时间线以供导出。使用 Video Output (#5521) 渲染最终电影。要制作更长的电影,请复制镜头 01,调整提示和进出位置,然后重新导出。

Comfyui LTX 2.3 电影生成器工作流程中的关键节点#

LTXVImgToVideoInplace (#13289)#

将高质量的静止图像转化为时间一致的视频潜在变量,同时保留身份和构图。使用它将 FLUX 制作的起始图像或您自己的参考转化为运动。与 Text Prompt 中的清晰场景方向配对,并在希望获得可比较的替代时保持相同的种子。

LTXVReferenceAudio (#13329)#

从语音或音乐背景中注入时间和音素提示,使讲话和手势自然对齐。与分离 [VISUAL]、[SPEECH] 和 [SOUNDS] 的提示结合使用效果最佳。切换 Enable Voice Reference 在音频引导和纯提示驱动运动之间切换。

LTXVLatentUpsampler (#13306)#

使用 LTX‑2.3 空间上采样器在潜在空间中精细化细节,以获得更清晰的纹理和边缘。当镜头将与特写镜头或文本覆盖混合时启用它;在外观开发期间禁用它以更快地迭代。

ColorMatch (#13478)#

将起始静止图像与参考输出的颜色匹配,以在场景之间保持连续性。当合成多个 FLUX 生成的资产或混合照明设置时很有帮助。

KSampler (#13361)#

FLUX 资产生成器,为视频阶段创建道具、场景和主要静止图像。锁定种子以在序列中保持一致的视觉语言,然后微调文本以探索小的风格变化而不破坏连续性。

Video Output - Shot Assembler (#5598)#

收集单个镜头渲染并输出单个剪辑。使用它重新排序场景、保持一致的裁剪并一次性导出电影。

可选附加功能#

  • 使用图形提示中显示的提示结构:[VISUAL] 场景描述、[SPEECH] 精确词汇、[SOUNDS] 声音风格和氛围。这有助于 LTX 文本和音频编码器协作。
  • 通过提供面部和身体参考并启用 LTX‑2.3 ID LoRA 来保持角色身份稳定。
  • 为快速迭代,禁用上采样器和语音参考,缩短镜头长度,并使用视频旁路仅生成起始帧。
  • 在低 VRAM 系统上,尝试使用 LTX‑2.3 的 GGUF 版本,并避免在最终通过前堆叠额外的 LoRA。GGUF
  • 为新场景复制镜头 01,在镜头间最小化提示变化,并重用种子以在整个 LTX 2.3 电影生成器工作流程中保持剪辑间的色调和照明稳定。

致谢#

此工作流程实现并基于以下作品和资源构建。我们感谢 Mickmumpitz 对 LTX 2.3 电影生成器工作流程源的贡献和维护。有关权威详细信息,请参阅下方链接的原始文档和资源库。

资源#

注意:使用参考的模型、数据集和代码需遵循其作者和维护者提供的相应许可和条款。

RunComfy
版权 2026 RunComfy. 保留所有权利。

RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。