logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>工作流>LTX 2.3 首尾帧 | 无缝视频生成器

LTX 2.3 首尾帧 | 无缝视频生成器

Workflow Name: RunComfy/LTX-2.3-First-Last-Frame
Workflow ID: 0000...1375
此工作流程让您将起始和结束帧转换为自然流畅的视频序列,具有自然的运动和一致的风格。您提供两个关键图像和对运动或场景的简短描述,它会自动生成中间帧。它使用高级文本编码器精确解释您的提示,实现电影般的过渡。非常适合动画分镜板、可视化运动创意或制作循环内容。快速、高效,旨在以最小的设置实现一致的创意结果。

LTX 2.3 首尾帧到视频

LTX 2.3 首尾帧到视频是一个 ComfyUI 工作流程,将两张静止图像转换为流畅、连续的视频,并同步音频。您提供第一帧、最后一帧以及描述运动、场景细节和声音的自然语言提示。由 LTX-2.3 22B distilled FP8 检查点驱动,管道在图像之间进行插值,同时保持外观和时间的一致性。非常适合需要无缝过渡或直接在 ComfyUI 中创建短循环剪辑的编辑者、运动设计师和故事板艺术家。

此 LTX 2.3 首尾帧工作流程强调高效推理和高提示保真度。FP8 权重控制 VRAM 使用,同时 Gemma 3 12B 文本编码器提高了对视觉和音频指令的语义理解。结果是一个从第一帧到最后一帧的连贯视觉过程,尊重您的提示,并与生成的音频保持同步。

ComfyUI LTX 2.3 首尾帧工作流程中的关键模型

  • LTX-2.3 22B Distilled FP8 检查点由 Lightricks 提供。核心视频生成模型经过蒸馏以实现高效推理,这里用于在两个图像引导和文本提示的条件下合成时间一致的帧。Model card
  • Gemma 3 12B IT 文本编码器。提供对提示的视觉和音频方面的强大语言理解,能够准确地实现运动、场景属性和音轨提示。Model card
  • LTX-2.3 潜变量 VAEs 用于视频和音频。这些组件在解码过程中将图像和波形音频映射到紧凑的潜变量并返回,保持质量同时使采样效率更高。随 LTX-2.3 FP8 版本一起发布。Model card

如何使用 ComfyUI LTX 2.3 首尾帧工作流程

此工作流程需要两个参考图像和一个提示,使用首尾帧引导建立条件,采样具有同步音频的视频潜变量,并将所有内容解码为可播放的文件。

设置

  • 在设置组中设置您的目标分辨率、帧数和帧率。宽度和高度定义工作画布;输入帧被调整大小以匹配,因此模型可以干净地插值。帧数控制过渡持续时间,帧率设置播放速度。选择与您的来源匹配的长宽比以避免不必要的裁剪。节点 WIDTH (#113)、HEIGHT (#98)、Length (#102) 和 Frame Rate(int) (#114) 锚定这些选择。

第一帧

  • 在 Load First Frame (#31) 中加载您的起始图像。通过 ResizeImageMaskNode (#124) 调整为目标尺寸,并通过 LTXVPreprocess (#104) 进行标准化。这为剪辑开头作为强大的结构和色彩引导做好准备。使用清晰、光线充足的图像以获得最佳效果。

最后一帧

  • 在 Load Last Frame (#39) 中加载您的结束图像。通过 ResizeImageMaskNode (#125) 调整为相同大小,并通过 LTXVPreprocess (#99) 进行标准化。这确保了您希望在过渡结束时获得的最终外观和布局。对于循环,确保最后一帧与第一帧视觉兼容。

提示

  • LTXAVTextEncoderLoader (#103) 提供文本编码器,两个 CLIPTextEncode 节点捕获您的正面和负面提示。在正面提示 (CLIPTextEncode (#128)) 中,描述相机运动、主体、照明,并包括音频提示,例如“音乐:环境垫子与柔和打击乐”或“对话:轻声耳语”。负面提示 (CLIPTextEncode (#112)) 可以列出您想要抑制的伪影或特征。

条件

  • LTXVConditioning (#109) 将文本条件与时间信息合并,以便运动和音频与您选择的帧率对齐。EmptyLTXVLatentVideo (#108) 在您的分辨率和长度上创建视频潜变量。两次 LTXVAddGuide 通过先附加第一帧 (LTXVAddGuide (#115)) 然后是最后一帧 (LTXVAddGuide (#111)),以便模型知道从哪里开始和结束。LTXVEmptyLatentAudio (#101) 初始化匹配持续时间的音频潜变量,LTXVConcatAVLatent (#119) 将音频和视频潜变量捆绑在一起进行采样。

模型

  • CheckpointLoaderSimple (#127) 加载 LTX-2.3 22B distilled FP8 权重和视频 VAE,而 LTXVAudioVAELoader (#126) 提供音频 VAE。这些都已预配置,因此您可以专注于创意输入而不是设置细节。

采样

  • CFGGuider (#116) 在您的文本和引导帧的遵循程度与创意自由之间进行平衡。RandomNoise (#100) 设置种子以便可重复性。采样器使用 SamplerEulerAncestral (#117) 和来自 ManualSigmas (#118) 的自定义计划,由 SamplerCustomAdvanced (#120) 协调,逐步将潜变量细化为遵循您的运动和音频指令的连贯序列。

解码

  • 采样后,LTXVSeparateAVLatent (#121) 将组合的潜变量分开为视频和音频。LTXVCropGuides (#106) 精细化空间引导以减少边缘伪影,然后进行图像解码。VAEDecodeTiled (#105) 生成帧序列,LTXVAudioVAEDecode (#107) 生成音频波形。CreateVideo (#122) 以您选择的 fps 将帧和声音混合为最终剪辑,SaveVideo (#68) 将最终文件写入您的 ComfyUI 输出。

ComfyUI LTX 2.3 首尾帧工作流程中的关键节点

EmptyLTXVLatentVideo (#108)

  • 定义剪辑的工作分辨率和持续时间。在此调整宽度、高度和长度以设置视觉尺度和过渡时间。较长的持续时间需要提示中更强的运动提示以避免停滞。

LTXVAddGuide (#115)

  • 在序列开始时注入第一帧作为结构和颜色锚。如果开头偏离您的来源,增加此引导的影响力;如果感觉过于受限,可稍微减少以允许更多的运动。

LTXVAddGuide (#111)

  • 使用最后一帧在剪辑结束时锚定目标外观。如果过渡超出范围或从未完全到达您的最后一帧,提升引导影响力;如果在结束时过于紧绷,则稍微降低。

CFGGuider (#116)

  • 控制模型遵循文本和图像条件的强度。较高的引导强调您的提示和引导,但可能降低平滑度;较低的值感觉更自由,但可能偏离预期外观。以小步骤调整并在比较时重复使用相同的种子。

SamplerCustomAdvanced (#120) 与 SamplerEulerAncestral (#117) 和 ManualSigmas (#118)

  • 使用一致的计划驱动去噪以实现稳定运动。较短的计划渲染速度更快但可能粗糙;较长或较温和的计划在额外的计算成本下提高一致性。在 A/B 测试其他参数时保持计划一致。

CreateVideo (#122)

  • 将解码的帧和音频混合为最终剪辑,使用您选择的帧率。使用与您条件化的相同 fps,以便唇形、脚步声或音乐脉搏保持对齐。

可选附加功能

  • 使用动词和时间编写提示:“相机向前移动”,“灯光在我们接近时变暗”,“音乐:稀疏钢琴与柔和混响”。清晰的动词帮助 LTX 2.3 首尾帧管道推断运动和节奏。
  • 匹配您两个图像的长宽比和方向。大的不匹配可能会引入不必要的裁剪或拉伸。
  • 对于无缝循环,使最后一帧与第一帧几乎匹配,并保持相机运动循环。
  • 在 RandomNoise 中重用种子以在迭代提示或引导强度时重复一种外观;更改种子以探索新变化。
  • 如果您需要实现细节或自定义节点参考,请参阅 ComfyUI 的 LTX 集成和实用工具,如 ComfyUI-LTXTricks。Repository

致谢

此工作流程实施并构建于以下作品和资源之上。我们感谢 Lightricks 提供的 LTX-2.3 22B Distilled FP8 Checkpoint、Google 提供的 Gemma 3 12B IT FP4 Text Encoder、logtd 提供的 ComfyUI-LTXTricks Custom Nodes 和 Comfy.org 提供的 Comfy.org Official Workflow 的贡献和维护。有关权威详细信息,请参阅下面链接的原始文档和存储库。

资源

  • Lightricks/LTX-2.3 22B Distilled FP8 Checkpoint
    • Hugging Face: Lightricks/LTX-2.3-fp8
  • Google/Gemma 3 12B IT FP4 Text Encoder
    • Hugging Face: google/gemma-3-12b-it
  • logtd/ComfyUI-LTXTricks Custom Nodes
    • GitHub: logtd/ComfyUI-LTXTricks
  • Comfy.org/Comfy.org Official Workflow
    • Docs / Release Notes: comfy.org/workflows/video_ltx2_3_flf2v

注意:使用引用的模型、数据集和代码须遵循其作者和维护者提供的各自许可和条款。

Want More ComfyUI Workflows?

Wan 2.2 FLF2V | 首尾帧视频生成

使用 Wan 2.2 FLF2V 从起始和结束帧生成流畅视频。

Wan 2.1 FLF2V | 首尾帧视频

使用 Wan 2.1 FLF2V 从起始和结束帧生成流畅视频。

Wan2.2 Fun Inp | 电影视频生成器

从两张图片到令人惊叹的视频,具有流畅、可控的过渡。

LTX-2 第一最后帧 | 关键帧视频生成器

快速将静止帧转换为无缝的视频和声音过渡。

FLUX IPAdapter V2 | XLabs

FLUX IPAdapter V2 | XLabs

探索 XLabs FLUX IPAdapter V2 模型,与 V1 进行比较以实现您的创作目标。

AnimateDiff + IPAdapter V1 | 图像到视频

使用 IPAdapter,您可以使用参考图像高效地控制动画的生成。

AnimateDiff + 批量提示计划 | 文本到视频

AnimateDiff 的批量提示计划为动画创作中的叙事和视觉提供了精确控制。

SVD + IPAdapter V1 | 图像到视频

利用 IPAdapters 进行静态图像生成,并使用 Stable Video Diffusion 进行动态视频生成。

关注我们
  • 领英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 电子邮件
  • 系统状态
  • 附属
资源
  • 免费 ComfyUI 在线版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 节点
  • 了解更多
法律
  • 服务条款
  • 隐私政策
  • Cookie 政策
RunComfy
版权 2026 RunComfy. 保留所有权利。

RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。