logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>工作流>LTX 2.3 图像转视频 | 电影运动创作者

LTX 2.3 图像转视频 | 电影运动创作者

Workflow Name: LTX 2.3 Image to Video
Workflow ID: 0000...1373
通过这个工作流程,您可以使用先进的 LTX 2.3 运动模型将静态图像转变为流畅的电影视频。它增强了帧与帧之间的连贯性,确保逼真的过渡和精致的视觉流动。专为创意专业人士设计,提供适合讲故事、广告和视觉设计的风格化、精致的结果。该过程简化了快速迭代和精确控制。轻松实现生产级动画。

LTX 2.3 图像转视频在 ComfyUI

这个工作流程将单张图像或纯文本提示转换为流畅的电影 AI 视频,使用 LTX 2.3 图像转视频。它专为希望高视觉连贯性、强场景一致性和精致运动而无需手动接线的创作者构建。可以在 RunComfy 或任何 ComfyUI 环境中使用,生成动态、风格化的结果,忠实于您的提示。

图表支持两种创意模式:以第一帧为视觉锚点的图像转视频,或完全由语言引导的文本转视频。它还包括自动提示增强、潜在上采样以获得更清晰的细节,以及可选的音频解码,使您的最终 LTX 2.3 图像转视频渲染准备发布。

ComfyUI LTX 2.3 图像转视频工作流程中的关键模型

  • Lightricks LTX 2.3 22B 视频模型。核心视频扩散转换器,从文本和可选图像指导中合成时间一致的运动和视觉。模型文件和文档可在 Hugging Face 上获得,代码级参考在 GitHub 上。
  • LTX Audio VAE。音频变分自动编码器,用于将模型的音频潜在解码为音轨,以与帧合并。与 LTX 2.3 版本一起分发在 Hugging Face 上。
  • LTX 2.3 空间上采样器 x2。潜在空间超分辨率模型,在最终高分辨率采样之前提高清晰度和空间保真度。可在 LTX 2.3 仓库中获得,位于 Hugging Face 上。
  • Gemma 3 12B Instruct 文本编码器和 LoRA。一个紧凑的指令调优文本编码器和 LoRA,用于改进视频的提示理解和措辞。此模板使用的打包编码器和 LoRA 权重在 Comfy-Org LTX-2 资产中提供,位于 Hugging Face 上。

如何使用 ComfyUI LTX 2.3 图像转视频工作流程

在高层次上,您的提示和可选的第一帧被编码,低分辨率潜在视频被采样,然后在潜在空间中上采样并在更高分辨率下优化。结果被解码为帧和音频,然后合成为最终的 MP4。您可以在运行之前随时在图像转视频和文本转视频之间切换。

  • 模型
    • 这组加载 LTX 2.3 检查点、音频 VAE 和文本编码器。它还将 LTX 2.3 LoRA 应用于基础模型以改善指令跟随。它们共同定义了 LTX 2.3 图像转视频管道的基础。除非您交换模型变体或 LoRA 样式,否则通常不会更改此处的任何内容。
  • 提示
    • 输入您的场景描述和可选的否定。文本被编码用于正面和负面条件,并与您选择的帧率配对,以便运动规划与时间保持一致。使用动词来描述变化,以保持语言与时间相关,例如“相机向前推进”或“叶子在风中旋转”。负面提示有助于避免不需要的伪影,如水印或卡通化简化。
  • 提示增强
    • 图表包括一个助手,分析您的图像和文本,然后生成一个更强的、时间感知的提示草稿,您可以采纳或编辑。这使得 LTX 2.3 图像转视频更容易朝向电影化、动作驱动的描述。尤其当您从单个静止图像开始并希望运动感觉有意时,它非常有用。预览节点允许您在生成之前检查增强的文本。
  • 视频设置
    • 选择是运行图像转视频还是通过简单的切换切换到文本转视频。设置宽度、高度、持续时间和帧率以适应您的目标平台。这些设置驱动潜在分配和下游解码,因此请保持它们与您的创意意图同步。如果您计划广泛发布,请优先考虑编解码器友好的尺寸和时间。
  • 图像预处理
    • 您的第一帧被调整大小和标准化为模型友好的宽高比,同时保留构图。轻度预滤波有助于稳定边缘并减少压缩噪声,这可能导致运动期间的闪烁。即使您仅使用图像来建议布局和颜色,这一步也很重要。
  • 空潜在
    • 工作流程根据您的尺寸、持续时间和帧率分配空的视频和音频潜在。这为采样器提供了干净的画布,并确保音频和视频保持长度对齐。当您想要可重现性时,噪声是确定性生成的,或者在运行之间随机化以进行变化。
  • 生成低分辨率
    • 第一次采样通过将运动和结构雕刻成紧凑的潜在视频。如果您使用图像转视频,LTXVImgToVideoInplace (#249) 会将您的第一帧注入为视觉锚点,因此运动从连贯的起点演变。正面和负面的文本指导内容和风格,同时 ManualSigmas (#252) 和 KSamplerSelect 定义噪声随着时间的推移被移除的激进程度。LTXVCropGuides (#212) 有助于保持与您的提示相匹配的构图。然后将生成的音视频潜在分割以进行单独处理。
  • 潜在上采样
    • 在承诺进行高分辨率优化之前,LTXVLatentUpsampler (#253) 将 x2 空间上采样器应用于低分辨率潜在。在潜在空间中执行此操作快速且保留学习到的运动,同时提升细节容量。这是一种在不引入伪影的情况下增加清晰度的安全方法。
  • 生成高分辨率
    • 第二个采样器在更大的空间尺寸上优化上采样的潜在,以锁定纹理、照明和小动作。在运行文本转视频时,早期的图像转视频步骤可以被绕过,LTXVImgToVideoInplace (#230) 只需将潜在传递即可。VAEDecodeTiled (#251) 然后有效地将视频潜在解码为帧。与此同时,音频潜在通过 LTX Audio VAE 解码,因此两个流最终都保持帧准确。
  • 导出
    • CreateVideo (#242) 将帧和音频合并为单个视频,采用您选择的帧率。顶级 SaveVideo 节点将最终文件写入您的 ComfyUI 输出,以便您可以立即下载。您的 LTX 2.3 图像转视频渲染现在可以预览或发布。

ComfyUI LTX 2.3 图像转视频工作流程中的关键节点

  • LTXVImgToVideoInplace (#249 和 #230)
    • 将静止图像转换为视频潜在或在禁用时传递潜在。当您希望第一帧定义布局、调色板和角色位置时使用它。如果您更喜欢运动仅从提示中出现,请切换文本转视频。操作员家族的文档在 ComfyUI 集成中维护,位于 GitHub 上。
  • LTXVConditioning (#239)
    • 将编码的正面和负面文本与您的帧率结合,生成引导内容和运动节奏的条件。倾向于简短、清晰的句子,描述随时间变化的内容,并将否定保留用于您经常看到并希望抑制的伪影。这个节点是调整风格和场景行为而不触及采样器的最有效位置。
  • 使用 ManualSigmas (#252) 和 KSamplerSelect
    • 噪声计划和采样器共同工作以权衡大运动和精细细节。较高的早期噪声鼓励更广泛的运动,而后期步骤巩固纹理。只有在您有良好的提示和图像指导时才调整这些。基础采样控制遵循标准 ComfyUI 语义,参见 LTX 仓库中的参考实现,位于 GitHub 上。
  • LTXVLatentUpsampler (#253)
    • 在潜在空间中应用 LTX 2.3 空间上采样器,以便您可以在下一阶段优化高分辨率。当您需要额外的清晰度或计划提供更大格式时使用它。x2 模型与 LTX 2.3 一起分发在 Hugging Face 上。
  • VAEDecodeTiled (#251) 和 CreateVideo (#242)
    • 瓦片解码防止在更高分辨率下出现内存峰值,并确保一致的帧质量。然后 CreateVideo 将帧和解码的音轨合成为最终的 MP4,采用您选择的帧率。保持您的帧率与条件期间使用的值一致,以避免回放漂移。

可选附加功能

  • 即使使用文本转视频,您仍然必须上传第一帧图像。切换将在生成期间忽略它,但 UI 需要一个占位符图像。
  • 对于 LTX 2.3 图像转视频提示,请以核心动作开头,然后是视觉细节,然后是气氛。时间词如“缓慢地”、“突然地”和“继续”帮助模型规划运动。
  • 使用否定提示避免叠加和 UI 伪影,如“水印”、“字幕”或“静止帧”。
  • 如果风格看起来太强或太弱,请尝试不同的 LoRA 或调整其在 LoRA 加载器中的权重。您也可以移除 LoRA 以依靠基础模型的外观。
  • 当在文本上迭代时,重用固定的噪声种子以便重现性,然后在锁定镜头后随机化以进行变化。

鸣谢

此工作流程实现并构建在以下作品和资源之上。我们感谢 Lightricks 对 LTX-2.3 和 EyeForAILabs 对 EyeForAILabs YouTube 教程的贡献和维护。有关权威细节,请参阅下方链接的原始文档和仓库。

资源

  • Lightricks/LTX-2.3
    • GitHub: Lightricks/LTX-2
    • Hugging Face: Lightricks/LTX-2.3
    • arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model
  • EyeForAILabs/YouTube Tutorial
    • Docs / Release Notes: EyeForAILabs YouTube Tutorial

注意:使用引用的模型、数据集和代码须遵循其作者和维护者提供的各自许可证和条款。

Want More ComfyUI Workflows?

LTX-2 ControlNet | 精准视频生成器

精确控制,完美同步,超清晰的AI视频创作。

LTX-2 第一最后帧 | 关键帧视频生成器

快速将静止帧转换为无缝的视频和声音过渡。

LTX-2 ComfyUI | 实时视频生成器

即时创建实时视频,比任何其他生成器都快。

LTX 视频 | 从图像+文本到视频

从图像+文本提示生成视频。

CogVideoX Tora | 图像到视频模型

CogVideoX 的主题轨迹视频演示

Hunyuan3D-2 | 领先的 3D 资产生成器

使用最先进的 AI 技术从图像生成精确的纹理 3D 资产。

MimicMotion | 人体运动视频生成

使用 MimicMotion,通过参考图像和运动序列生成高质量的人体运动视频。

Wan 2.2 Lightning T2V I2V | 4步超高速

Wan 2.2 现在快20倍!T2V + I2V 仅需4步。

关注我们
  • 领英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 电子邮件
  • 系统状态
  • 附属
资源
  • 免费 ComfyUI 在线版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 节点
  • 了解更多
法律
  • 服务条款
  • 隐私政策
  • Cookie 政策
RunComfy
版权 2026 RunComfy. 保留所有权利。

RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。