LTX-2 第一最后帧在 ComfyUI | 音频视觉运动控制

ComfyUI LTX-2 First Last Frame Workflow

LTX-2 First Last Frame in ComfyUI | Audio-Visual Motion Control

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX-2 First Last Frame Examples

LTX-2 第一最后帧：在 ComfyUI 中从头到尾控制的音频同步视频生成#

LTX-2 第一最后帧是一个适用于创作者的 ComfyUI 工作流程，他们希望在生成同步音频和视觉效果的同时，在定义的起始帧和结束帧之间实现精确的电影运动。通过对图像（以及可选的指导中间帧）进行条件化，管道在整个镜头中保持身份、构图和光照，然后引导运动准确地落在最后一帧上。它专为叙事节拍、标题或场景过渡、相机移动以及任何时间连续性和音频对齐重要的时刻而设计。

由 LTX-2 实时模型提供支持，工作流程保持快速迭代，同时提供对提示、通过 LoRAs 控制相机行为以及第一/最后帧强度的精细控制。结果是一个流畅、一致的序列，其时间、外观和声音从第一帧到最后一帧都遵循您的指示。

注意：对于低于 2x Large 的机器类型，请使用 "ltx-2-19b-dev-fp8.safetensors" 模型！

Comfyui LTX-2 第一最后帧工作流程中的关键模型#

LTX-2 19B (dev)。核心视频生成模型，从文本和帧控制中生成联合音频视频潜变量；支持实时迭代和相机感知 LoRAs。参见官方存储库和权重：Lightricks/LTX-2 on GitHub 和 Lightricks/LTX-2 on Hugging Face。
Gemma 3 12B 指令文本编码器用于 LTX-2。提供强大的、指令调整的语言理解，用于此管道中的视觉和音频提示；打包为 ComfyUI 兼容的文本编码器。权重参考：Comfy-Org/ltx-2 分割文本编码器。
LTXV 音频 VAE (24 kHz vocoder)。对音频潜变量进行编码和解码，因此音轨与视频一起生成并保持同步。参见模型系列上下文：Lightricks/LTX-2。
LTX-2 空间放大器 x2。用于在基础传递后获得更清晰的高分辨率结果的潜变量放大器，使用于放大采样阶段。权重可在 Lightricks/LTX-2 下获得。
LTX-2 LoRA 包用于相机控制和细节。可选的 LoRAs，如 Dolly In/Out/Left/Right、Jib Up/Down、静态和图像条件细节器，塑造相机运动和细节。浏览官方收藏：Lightricks LTX-2 LoRAs。

如何使用 Comfyui LTX-2 第一最后帧工作流程#

此工作流程从输入和提示移动到基础音频视频样本，然后在解码和音频混合到 MP4 之前执行指导的 2x 放大传递。它依赖于基础和放大阶段的第一/最后帧控制，具有稳定轨迹的可选中间帧。

模型#

模型组加载 LTX-2 检查点、Gemma 3 12B 指令文本编码器和 LTXV 音频 VAE。使用 ckpt_name 面板选择基于 GPU 的标准和 FP8 变体。文本编码器由 LTXAVTextEncoderLoader 提供，并向正负提示提供。音频 VAE 启用联合音频视频生成，因此提示中描述的对话、效果或环境与视觉效果一起出现。

提示#

在正面提示中编写场景，并在负面提示中列出不良特征。按发生顺序描述动作、关键视觉细节和声音事件。LTXVConditioning 块将您的提示与所选帧率一起应用，以便时间和运动被一致地解释。需要语音、效果或环境时，将音频视为提示的一部分。

视频设置#

设置 Width、Height 和总 Video Frames，然后在需要时选择 Length 进行第一/最后控制间距。工作流程确保尺寸符合模型要求并适当缩放输入。如果您的输入图像较大，图形会读取其大小以初始化潜在画布并调整提供的帧以适应。选择与您的预期交付相匹配的帧率。

潜变量#

此组构建一个空的视频潜变量和一个匹配的音频潜变量，然后将它们连接起来，以便模型同时对音频和视频进行采样。这是基础传递中首先注入第一/最后帧指导的地方。提供中间帧是可选的，但对于在中途稳定身份或关键姿势非常有用。结果是一个为基础采样准备的单个 AV 潜变量。

基本采样器#

基础传递使用随机噪声、调度器和配置的向导将您的提示解析为一致的 AV 潜变量。向导接收正负条件加上任何 LoRA 修改的模型。采样后，潜变量被分回视频和音频，以便视频可以放大，而音频保持对齐。此阶段设置放大传递将要改进的全局运动、节奏和音频节奏。

放大#

放大器在第二次采样传递之前将潜变量提升到更高的空间分辨率。在更高分辨率下重新应用第一/最后帧控制，以精确锁定开头和结尾帧。您还可以在此处提供中间帧，以保持特征在放大过程中稳定。结果是一个更清晰的 AV 潜变量，保留了计划的运动。

模型#

此模型组加载放大组使用的 LTX-2 潜变量放大器。它准备特定的 x2 空间模型，并将其暴露给潜变量放大节点。如果您维护多个放大器，请在此处切换模型。如果您对默认的 x2 行为满意，请保持此组不变。

放大采样(2x)#

第二次传递在放大的潜变量上使用单独的采样器和 sigma 调度执行指导采样。一个裁剪感知指南将条件与新分辨率对齐，以便细节保持一致。输出再次分为视频和音频以进行解码。此传递主要锐化边缘、改善小文本或纹理，并保持第一/最后帧匹配。

LTX-2-19b-IC-LoRA-Detailer#

此组应用为 LTX-2 的图像条件路径调整的细节导向 LoRA。当您希望在对真实图像进行条件化后获得更多微观细节或更紧密的纹理时启用。保持强度适中，以免压倒您的提示或帧约束。如果您的输入已经清晰且光线充足，您可以绕过此 LoRA。

相机控制-推入#

当相机应随着时间的推移向主体推进时使用此 LoRA。它使模型倾向于前进运动，同时尊重第一/最后目标。将其与描述移动的文本提示配对以获得最强效果。如果运动超过了您的预期构图，请降低强度。

相机控制-推出#

选择此选项当镜头应从主体拉出时。它有助于随着序列的进展创建负视差和拓宽的上下文。保持最后一帧与您的退出构图对齐，以干净地完成移动。结合大气音频提示以获得电影揭示。

相机控制-推左#

应用向左的横向移动，读作推车或推车。适用于会话节拍或跨场景揭示。如果物体模糊或漂移，稍微增加第一/最后强度或添加中间帧。通过“小幅左移”等小文本提示来平衡以补充 LoRA。

相机控制-推右#

推左的镜像，此选项偏向于右侧的运动。适合跟随角色或平移到新主体。保持 LoRA 强度适中，如果您还请求推入以避免冲突信号。确保最后一帧的构图与您期望的终点匹配。

相机控制-升起#

创建一个垂直上升，适用于提升揭示或建立镜头。结合关于视角变化和地平线变化的浅显提示以获得清晰度。当移动强烈时，注意天花板或天空曝光；调整负面提示以避免高光爆炸。如果需要，添加显示中途上升构图的中间帧。

相机控制-下降#

产生受控下降，通常用于定格在细节或角色上。可以与较安静的音频床结合以强调。确保最后一帧包含目标对象或面孔，以便运动果断解决。如果下降感觉太快，请调整 LoRA 强度。

相机控制-静态#

当您希望动作不伴随相机运动时，将虚拟相机固定在原位。这对于对话或产品镜头非常有用，其中只有主体移动。结合第一/最后帧控制以保持构图完美稳定。通过文本提示而不是相机 LoRA 添加细微运动。

Comfyui LTX-2 第一最后帧工作流程中的关键节点#

`LTXVFirstLastFrameControl_TTP` (#227)#

将第一和最后的图像约束注入到基础 AV 潜变量中。调整 first_strength 以控制第一帧匹配的严格程度，调整 last_strength 以确定序列落在最终帧上的难度。如果剪辑中间漂移，通过 LTXVMiddleFrame_TTP 提供中间帧，并保持强度适中以避免过度限制运动。

`LTXVMiddleFrame_TTP` (#181)#

可选地在开始和结束之间的选定 position 插入指导帧，以稳定身份或姿势。当主体在中途变化过大时增加 strength。谨慎使用；最佳结果来自单个精心选择的中间参考，而不是许多竞争约束。

`LTXVLatentUpsampler` (#217)#

使用 LTX-2 空间放大器在潜变量空间中执行 x2 空间放大。请在 2x 采样传递之前使用此功能，以便更高分辨率的细节由模型而不是拉伸进行细化。如果内存紧张，请在此阶段保持 LoRA 使用最小。

`LTXVFirstLastFrameControl_TTP` (#223)#

在 x2 放大后重新应用开始/结束（和可选的中间）指导。这确保了最终解码的帧在交付分辨率上准确匹配您的第一和最后参考。如果放大引入微移，请在此处而不是基础阶段稍微提高 last_strength。

`LTXVSpatioTemporalTiledVAEDecode` (#230)#

使用时空平铺解码高分辨率视频潜变量到帧。仅在看到接缝或时间闪烁时调整平铺和重叠设置；更大的重叠消耗更多 VRAM 但提高一致性。保持 last_frame_fix 以应对最终帧显示轻微漂移的边缘情况。

`VHS_VideoCombine` (#254)#

将解码帧和生成的音频混合为单个 MP4。设置输出 format、pix_fmt 和 crf 以匹配您的交付目标，并选择与条件一致的 frame_rate。启用元数据保存，以便在每次渲染时保留可重现性记录。

可选扩展#

如果您的 GPU 受限，请使用 LTX-2 的 FP8 权重；当 VRAM 允许时切换回全精度以获得最高保真度。权重在 Lightricks/LTX-2。
当宽度和高度为 32n + 1 形式时，尺寸效果最佳；总帧数为 8n + 1 效果最佳。如果需要，工作流程会自动更正为最近的有效值。
在正面提示中直接描述音频提示（对话、效果、环境）。模型的联合 AV 潜变量保持嘴唇、动作和声音对齐。
从适度的第一/最后强度开始；提高最后强度以固定最终姿势，或添加中间帧以稳定身份。
每次仅应用一个相机 LoRA，以确保意图明确。在 Lightricks LTX-2 LoRA collection 中浏览官方选项。

致谢#

此工作流程实现并建立在以下工作和资源的基础上。我们感谢 @AIKSK 对 LTX-2 第一最后帧工作流程参考的贡献和维护。有关权威详细信息，请参阅以下链接的原始文档和存储库。

资源#

RunningHub/LTX-2 First Last Frame Workflow Reference
- 文档 / 发布说明：LTX-2 第一最后帧工作流程参考来自 AIKSK

注意：使用引用的模型、数据集和代码需遵循各自作者和维护者提供的许可和条款。

Want More ComfyUI Workflows?

Wan 2.2 | 开源视频生成领导者

现已推出！更高精度 + 更流畅的运动。

Wan 2.2 FLF2V | 首尾帧视频生成

使用 Wan 2.2 FLF2V 从起始和结束帧生成流畅视频。

Wan 2.2 + Lightx2v V2 | 超快速 I2V & T2V

双 Light LoRA 设置，速度提高 4 倍。

Wan 2.2 Lightning T2V I2V | 4步超高速

Wan 2.2 现在快20倍！T2V + I2V 仅需4步。

Wan 2.1 FLF2V | 首尾帧视频

使用 Wan 2.1 FLF2V 从起始和结束帧生成流畅视频。

AnimateDiff + 批量提示计划 | 文本到视频

AnimateDiff 的批量提示计划为动画创作中的叙事和视觉提供了精确控制。

Krea 2 Turbo I2I ComfyUI | 智能图像风格切换器

快速翻转照片风格。将现实主义在几秒钟内变为动漫。

SDXL LoRA 推理 | AI Toolkit ComfyUI

使用单个 RC 自定义节点，在 ComfyUI 中运行您的 AI Toolkit 训练的 SDXL LoRA，并使用训练匹配的默认设置。

关注我们

支持

资源

法律

RunComfy

RunComfy 是首选的 ComfyUI 平台，提供 ComfyUI 在线环境和服务，以及 ComfyUI 工作流具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。

LTX-2 第一最后帧 | 关键帧视频生成器