ComfyUI的3D电影流程#
3D电影流程是由Mickmumpitz.ai开发的专注于制作的ComfyUI工作流,将结构化的3D场景片段转化为电影级AI视频。它结合了深度布局、粘土渲染、摄像机移动和可选的嘴部遮罩,通过LTX‑2.3视频模型保持空间布局、镜头和连续性,同时您可以引导运动、外观和时间。
专为电影制作人、动画师和视觉叙事者设计,3D电影流程简化了多镜头制作。您可以获得帧位置控制、物体和区域引导的高级注意力、从语音轨道获取的可选唇同步,以及用于快速镜头预览的辅助图像阶段,所有这些都在ComfyUI中。
ComfyUI 3D电影流程工作流中的关键模型#
核心视频栈
- LTX‑2.3 (22B) 由Lightricks提供。主要的视频生成模型,遵循文本、控制信号和3D引导,合成时间上连贯的镜头。 Model card
- LTX Audio VAE(与LTX‑2.3捆绑)。将音频编码和解码为音频潜在,以便模型可以将嘴形和运动与语音同步。 Model bundle
- Gemma 3 12B指令文本编码器用于LTX‑2.x。提供LTX‑2.3用于提示的语言嵌入。为ComfyUI预打包。 Files
- LTX‑2.3 Distilled LoRA 384‑1.1。加速少步采样并在与dev检查点一起使用时稳定外观。 LoRA
- LTX‑2 19B IC‑LoRA Detailer。增强生成视频的局部细节和边缘保真度。 LoRA
- LTX‑2.3 OmniNFT RL LoRA。视频栈的风格增强和一致性助手。 LoRA
- IC‑LoRA Union‑Control (ref 0.5)。用于保持颜色和结构与引导一致的参考对齐LoRA;19B构建常用于LTX‑2.3。 LoRA family
可选预览图像栈
- FLUX.2 Klein 9B (FP8)。快速图像生成器,用于将Canny + Depth转化为样式化帧以进行外观开发。 Model card
- Qwen 3 8B文本编码器用于FLUX‑2。 Files
- Flux‑2 VAE。与FLUX‑2匹配的图像VAE。 Files
- Flux2‑Klein‑9B‑Consistency‑V2 LoRA。提高预览帧的颜色和内容一致性。 LoRA
ComfyUI的LTX节点参考实现:ComfyUI‑LTXVideo
如何使用ComfyUI 3D电影流程工作流#
3D电影流程融合了来自您的DCC或布局工具的三个输入——深度电影、粘土/布局电影和可选的嘴部遮罩电影——然后运行LTX‑2.3,利用高级注意力、参考帧和可选的唇同步来渲染最终镜头。使用FLUX.2的图像预览分支可以在进行完整通过之前调整外观。
分辨率和镜头设置#
使用ResolutionPicker (#6082)设置您的工作宽度和高度。管道期望维度可被64整除,以便于高效平铺和稳定注意力。保持所有输入的相同纵横比,以便3D电影流程可以在不意外裁剪或加框的情况下对齐片段。如果您想进行快速测试,请使用FRAME LOAD CAP (#6214)降低帧数。
输入帧(开始,中间,结束)#
在START (LoadImage (#6108)),MIDDLE (#6139)和END (#6102)中加载参考静态图像。工作流通过GetImageSize+ (#6071)读取它们的大小并相应调整引导的大小。这些帧可以放置在时间线的特定索引处以锁定关键姿势、设置故事节奏或强制外观转换。3D电影流程使用这些参考作为锚点,同时在它们之间插入运动和连续性。
渲染通道:深度、粘土/布局、嘴部遮罩#
DEPTH(VHS_LoadVideo(#5893))从3D应用程序中引入您的深度电影。这指导了透视、遮挡和体积放置,以便LTX‑2.3尊重摄像机移动和阻挡。CLAY / LAYOUT(VHS_LoadVideo(#6094))提供平面着色或灰色着色渲染以驱动轮廓、场景设计和照明提示。由此派生的Canny边缘通道 (CannyEdgePreprocessor(#6095))用于锐化结构引导。MOUTH MASK(VHS_LoadVideo(#6059))是可选的,标记每帧的嘴部区域。3D电影流程将其用作注意力遮罩,以便唇部运动可以在不干扰脸部其他部分的情况下进行优化。
嘴部遮罩调整#
如果您提供了遮罩视频,ImageToMask (#6060)将帧转换为遮罩,GrowMaskWithBlur (#6197)扩展并柔化边缘,以便更宽容的填充。USE MASK VIDEO? (#6244)允许您在生成的实心遮罩和传入的遮罩视频之间切换。这使唇同步编辑范围严格限定,并减少说话区外的伪影。
驱动视频组装#
深度和布局流通过ImageResizeKJv2 (#6097, #6099, #6103)进行标准化。BatchColorCorrector (#6100)平衡色调和颜色,以便模型在整个序列中看到一致的曝光和色调。然后,3D电影流程使用ImageBlend (#6096)将Canny轮廓与校正后的布局混合,形成统一的驱动视频,生成器遵循该视频。
语音解说#
使用LoadAudio (#5883)添加旁白或对话。通过Set_VoiceOver (#6248)和Get_VoiceOver (#6249)将其路由到模型。当在采样器中启用唇同步时,3D电影流程使用此音频为口型和微小运动定时。
使用LTX‑2.3生成#
采样器节点LTX 2.3 (#6202)是3D电影流程的核心。它接收模型、文本编码器、VAE和音频VAE;混合驱动视频;可选的注意力遮罩;以及来自PROMPT (#6203)的提示。切换允许您在定义的位置放置开始/中间/结束帧,混合它们的影响,启用或绕过控制信号,并打开或关闭唇同步。高级注意力路径通过LTX视频引导节点路由,以权衡帧和区域,使重要主题保持模型一致。
输出#
节点使用SaveVideo (#6109)写入一个准备编辑的电影。对于备用管道或并排预览,工作流还包括VHS_VideoCombine (#6057)。在所有步骤中使用相同的帧率,以保持音频、遮罩和引导在3D电影流程中的完美对齐。
使用FLUX.2的可选图像预览#
为了在不重新渲染完整镜头的情况下进行快速外观开发,图像分支加载Canny (CANNY (#7468))和深度 (DEPTH (#7469))静态图像,进行混合 (ImageBlend (#7466)),并提示FLUX.2 Klein 9B (SAMPLER (#7465))。一致性LoRA有助于保持颜色和细节与您的引导一致。使用SaveImage (#7444)导出预览帧,这些帧为您的提示和LoRA选择提供信息,然后运行完整的3D电影流程。
ComfyUI 3D电影流程工作流中的关键节点#
LTX 2.3 (#6202)
- 角色:主要视频生成器,将文本、3D引导、控制通道和音频融合到最终序列中。
- 调整内容:在提供音频时打开唇同步;打开或关闭ControlNet风格引导并调整整体强度;放置
START、MIDDLE和END帧并混合它们的影响以锁定重要节拍。保持帧率与输入一致,以避免时间漂移。
DEPTH (#5893)
- 角色:加载建立场景几何和摄像机运动的深度电影。
- 调整内容:将分辨率匹配到
ResolutionPicker,并保持与布局和遮罩剪辑相同的长度。使用FRAME LOAD CAP进行外观开发时的快速迭代。
CLAY / LAYOUT (#6094)
- 角色:提供用于提取边缘和引导构图、照明意图和轮廓的布局或粘土渲染。
- 调整内容:对齐到深度通道分辨率;如果您在上游更改分级,重新运行
BatchColorCorrector以保持引导一致。
USE MASK VIDEO? (#6244)
- 角色:在生成的实心嘴部遮罩和传入的遮罩视频之间切换。
- 调整内容:当唇同步需要逐帧精度时使用视频遮罩;当您只需要一个广泛的保护区域时切换到实心遮罩。
LTXICLoRALoaderModelOnly (#6223)
- 角色:加载用于参考对齐和颜色/结构忠实度的union-control IC-LoRA。
- 调整内容:选择在您的测试中与LTX-2.3最佳匹配的变体;许多制作更喜欢19B构建,因为在运行3D电影流程时更紧密地遵循。
可选额外功能#
- 保持所有输入的相同时长和帧率,以在3D电影流程中保持同步。
- 深度应保持干净和时间稳定。如果您的DCC导出EXR或16位PNG,请转换一次为中间格式并在所有迭代中重复使用。
- 开始/中间/结束帧在显示不同的、与故事相关的姿势或照明状态时效果最佳;避免近似重复。
- 如果嘴部区域闪烁,请稍微扩展
GrowMaskWithBlur中的遮罩,以包括嘴唇、牙齿和一小块皮肤边界。 - 对于大镜头,使用
FRAME LOAD CAP和较小的分辨率进行迭代,然后切换回全分辨率以进行最终渲染。 - 当从开发检查点切换到蒸馏检查点时,禁用蒸馏LoRA以防止过度约束。
- 使用FLUX.2预览分支,在运行完整的3D电影流程之前,使用您的实际Canny和Depth引导测试调色板和风格。
致谢#
此工作流实现并构建在以下作品和资源之上。我们对MickMumpitz.ai为3D电影流程工作流来源的贡献和维护表示由衷的感谢。有关权威详细信息,请参阅以下链接的原始文档和存储库。
资源#
- MickMumpitz.ai/3D电影流程工作流来源
注意:所引用的模型、数据集和代码的使用受其作者和维护者提供的各自许可证和条款的约束。

