LTX 2.3 Prompt Relay:在 ComfyUI 中的多节拍图像到视频生成#
LTX 2.3 Prompt Relay 是一个 ComfyUI 工作流,用于在一个片段中通过分段提示路由指导图像到视频。它使用 PromptRelayEncode 作为一个无需训练的推理控制器,将不同的文本指令分配给不同的时间段,因此您可以在保持主题连贯性和平滑过渡的同时,为每个节拍编写相机移动和动作。Qwen VLM 助手可以在生成前从参考图像自动起草或优化故事节拍。
这个 ComfyUI LTX 2.3 Prompt Relay 工作流非常适合电影短片、产品镜头和需要逐场景控制的叙事预告片,而无需微调。它生成同步的视频,带有解码的音频,并写入带有元数据的 H.264 MP4。
Comfyui LTX 2.3 Prompt Relay 工作流中的关键模型#
- LTX-Video 2.3 基础检查点。生成性骨干,它从文本和可选参考帧合成时间上连贯的视频。请参阅 Hugging Face 上 ComfyUI 用户的社区构建和权重上下文。Kijai/LTX2.3_comfy
- LTX-Video 2.3 视频 VAE 和音频 VAE。解码器将模型的潜在视频和潜在音频转化为 RGB 帧和用于多路复用的波形,在这里用于导出 MP4。Kijai/LTX2.3_comfy
- Qwen VLM (Instruct)。一种视觉语言模型,读取参考图像并为工作流起草多节拍动作线,作为本地提示。通过 ComfyUI-QwenVL 扩展集成。1038lab/ComfyUI-QwenVL
- 可选的 LTX 2.3 LoRAs。样式或效率适配器,如蒸馏 LoRA 和清晰增强 LoRA,预先连接以便轻松切换以改变纹理和清晰度,而不改变您的提示。Kijai/LTX2.3_comfy
如何使用 Comfyui LTX 2.3 Prompt Relay 工作流#
整体流程#
工作流读取单个图像作为开场帧,收集全局提示加上特定节拍的本地提示,用 Prompt Relay 编码它们,采样联合音视频潜在变量,然后解码并将帧与音频组合成 MP4。组被组织为模型、输入视频设置、VLM、条件、创建潜在、采样和解码。
模型#
首先加载基础 LTX-Video 2.3 检查点,然后按顺序应用两个可选 LoRAs 来调整清晰度和效率。启用注意力修补以在长提示下提高保真度。您可以保留两个 LoRAs,禁用一个,或者完全绕过它们,如果您更喜欢中性基线外观。
输入视频设置#
选择剪辑的宽度、高度、总秒数和 FPS。工作流会自动计算帧数作为秒数和 FPS 的乘积,保持图像和音频长度同步。在编写提示之前设置这些,以便知道多少节拍可以舒适地适应。
VLM#
加载或拖放一个参考图像。图像经过预处理并发送到 Qwen VLM,遵循简短的指令模板,提出四个简要的节拍线,以管道字符“|”分隔。您可以在屏幕查看器中查看和编辑生成的文本,然后再继续,或者跳过 VLM 并自行编写行。
使用 Prompt Relay 进行条件#
PromptRelayEncode 接受用于风格和设置的全局提示加上您的本地提示,用于每节拍的动作。在本地提示中用“|”分隔节拍;编码器将每个片段路由到其时间段并在它们之间进行平滑交接。节点输出提示条件和修补后的模型,以便采样器忠实地遵循您的节拍脚本。参考和用法由 ComfyUI-PromptRelay 项目提供。kijai/ComfyUI-PromptRelay
创建潜在#
初始化一个空的视频潜在变量到您选择的分辨率和长度。预处理的参考图像被写入时间线的第一个帧以锚定身份、姿势和照明。创建一个具有匹配持续时间的空音频潜在变量,以便解码产生一个准备多路复用的波形与帧一起。
采样#
调度器创建噪声计划,视觉化工具预览它,采样器在连接的音视频潜在变量上运行,使用修补后的 LTX 2.3 模型和 Prompt Relay 条件。您可以更改采样器类型,如果您更喜欢不同的清晰度与稳定性之间的权衡。结果是一个已经编码视频和音频的单一潜在变量。
解码和导出#
潜在变量被分成视频和音频分支,然后由 LTX 2.3 视频 VAE 和音频 VAE 解码。VideoHelperSuite 将帧和波形组合成一个 H.264 MP4,具有广泛兼容的像素格式,并保存元数据以确保可重复性。ComfyUI-VideoHelperSuite
Comfyui LTX 2.3 Prompt Relay 工作流中的关键节点#
PromptRelayEncode (#605)#
在推理时间应用分段提示路由的核心控制器。使用 global_prompt 用于风格、设置、主题和应持续的镜头语言,使用 local_prompts 用于节拍特定的动作,以 | 分隔节拍。保持节拍简洁和专注;通常 3 到 6 个节拍可以清晰地读取。如果您想手动计时过渡,请保持相邻节拍语义兼容,以便混合自然。参考:kijai/ComfyUI-PromptRelay
AILab_QwenVL_Advanced (#610)#
一个 VLM 助手,读取参考图像并使用简短的指令提示扩展您的想法到节拍线。编辑指令文本以调整语气或相机词汇,然后在查看器中查看生成的节拍。输出直接进入 local_prompts,您可以随时用自己的写作覆盖它。参考:1038lab/ComfyUI-QwenVL
LTXVImgToVideoInplaceKJ (#582)#
将您的输入图像播种到潜在视频的第一帧,促进节拍之间的身份和照明稳定性。对于纯文本到视频,请绕过此节点并从一个空的视频潜在变量开始。为了更强的种子帧遵循,保持您的全局提示与图像内容一致。
BasicScheduler (#514) 和 VisualizeSigmasKJ (#358)#
控制和预览采样器使用的去噪计划。使用视觉化工具在切换采样器或步数时检查曲线形状。更平滑的计划通常会产生更稳定的运动,而更激进的计划则推动细节。
VHS_VideoCombine (#604)#
将解码的帧和音频多路复用到一个具有广泛兼容像素格式的 MP4 中。确保其帧速率与您的输入视频设置组匹配,以确保准确同步。如果您想要无声导出,请在此处断开音频输入。参考:ComfyUI-VideoHelperSuite
可选附加功能#
- 节拍写作技巧:用现在时写作,将每个节拍保持为一个动作,仅在对节拍有推进作用时添加简短对话,并以相机动词如“推入”、“向右平移”或“手持漂移”开头。
- 使用全局提示进行艺术指导和光学(照明、镜头、氛围);用本地提示进行运动、手势和框架变化。
- 为了更快的迭代,在起草节拍时保持分辨率适中,然后在最终渲染时提高它。
- 如果 LoRAs 过度锐化或改变颜色,请降低它们的权重或禁用其中一个以恢复中立性。
致谢#
该工作流实现并基于以下作品和资源。我们衷心感谢 gordonchen19 对 Prompt-Relay 的贡献,kijai 对 ComfyUI-PromptRelay 的贡献,Kijai 对 LTX2.3_comfy(ComfyUI 模型上下文)的贡献,1038lab 对 ComfyUI-QwenVL 的贡献,以及 Patreon 帖子作者(Innovate Futures @ Benji)对工作流源的贡献和维护。有关权威细节,请参阅下面链接的原始文档和存储库。
资源#
- Patreon/Workflow source
- 文档 / 发布说明:post @Benji
- gordonchen19/Prompt-Relay
- GitHub: gordonchen19/Prompt-Relay
- 文档 / 发布说明:site
- kijai/ComfyUI-PromptRelay
- GitHub: kijai/ComfyUI-PromptRelay
- Kijai/LTX2.3_comfy
- Hugging Face: Kijai/LTX2.3_comfy
- 文档 / 发布说明:discussion #51
- 1038lab/ComfyUI-QwenVL
- GitHub: 1038lab/ComfyUI-QwenVL
注意:所引用的模型、数据集和代码的使用受其作者和维护者提供的各自许可和条款的约束。

