LTX 2.3 Sulphur 2 文本到视频工作流程用于电影角色动画#
此 ComfyUI 流水线将自然语言提示转化为短片、电影般、以角色为中心的视频,可选音频,围绕 Lightricks LTX‑2.3 和 Sulphur 2 组件构建。它在低分辨率下生成以进行运动规划,放大潜在序列,然后在高分辨率下细化,然后解码为帧并混合同步音轨。
LTX 2.3 Sulphur 2 文本到视频工作流程非常适合快速角色动画测试、D‑Human 风格运动概念和精致的文本到视频实验。它不依赖于图像到视频输入或提示中继;一切从文本开始,LTXV 调节引导视频和音频潜在变量从头到尾。
Comfyui LTX 2.3 Sulphur 2 文本到视频工作流程中的关键模型#
- Lightricks LTX‑2.3。用于时空合成和多模态 AV 潜在变量的核心文本到视频生成器。查看官方模型库以获取权重和功能及限制的说明。 Hugging Face: Lightricks/LTX-2.3
- Lightricks LTX‑2.3 FP8 检查点。LTX‑2.3 的内存高效变体,加快推理速度,使在受限 GPU 上实现更长的剪辑或更高的分辨率。 Hugging Face: Lightricks/LTX-2.3-fp8
- Sulphur 2 基础模型。通过 LoRA 提供风格先验和角色细节,帮助在此工作流程中实现清晰的面部和电影色调。 Hugging Face: SulphurAI/Sulphur-2-base
- LTX‑2.3 空间放大器 x2 1.1。在高分辨率细化通过之前增加空间细节的潜在空间放大器。 Hugging Face: Lightricks/LTX-2.3 file ltx-2.3-spatial-upscaler-x2-1.1.safetensors
- LTX 文本编码器 (Gemma 3 12B IT 为 LTX 打包)。提供与 LTX‑2.3 调节相匹配的文本嵌入空间,以忠实地遵循提示。 Hugging Face: Comfy-Org/ltx-2
- LTX 音频 VAE。解码与视频一起生成的音频潜在变量,以便最终渲染可以包括同步的音轨。 Hugging Face: Lightricks/LTX-2.3
如何使用 Comfyui LTX 2.3 Sulphur 2 文本到视频工作流程#
整体逻辑 该流水线分为三个阶段运行:低分辨率生成以建立运动和构图,潜在放大以增加空间细节,高分辨率细化通过还生成最终音频。潜在变量解码为帧和波形,然后混合为准备交付的 MP4 容器。
视频设置 使用“视频设置”组定义宽度、高度、帧率和持续时间。帧数根据您的持续时间和 fps 自动计算,以保持时间和节奏一致。这些值驱动潜在分配和解码,因此请首先设置它们以匹配目标纵横比和运行时间。在此调整 fps 还会通知调节,以便运动流畅性和音频对齐使用相同的时钟。
提示 在“提示”中,加载 LTX 文本编码器与 LTXAVTextEncoderLoader (#316),然后在 CLIPTextEncode (#303) 中编写您的正面描述,并在 CLIPTextEncode (#312) 中编写任何不需要的特征。节点 LTXVConditioning (#304) 合并正面和负面调节,并添加所选的帧速率,以便时间引导与您的 fps 匹配。将正面提示视为一个镜头简报:主题、相机、照明、情绪和风格提示。保持负面列表集中在您经常看到并希望删除的伪影上。
模型 “模型”组通过 CheckpointLoaderSimple (#315) 加载主检查点,并使用 LoraLoaderModelOnly (#285) 应用 Sulphur 2 LoRA,以注入电影纹理和角色保真度。这是您可以交换检查点或 LoRA 以改变整体外观和运动先验的地方。模型输出被路由到初始和细化引导器,以便风格和身份在各个阶段保持一致。将 LTX‑2.3 与 Sulphur 2 配对,可获得生动的对比度和详细的面部,在运动中表现良好。
数字转换 实用表达式将您的 fps 和秒转换为下游使用的整数帧数。这使音频和视频时间轴保持一致,无需手动计算。如果稍后更改 fps 或持续时间,图形会自动更新依赖节点。
空潜在 “空潜在”创建生成的对齐容器:EmptyLTXVLatentVideo (#295) 定义视频潜在变量的空间大小和长度,LTXVEmptyLatentAudio (#305) 在相同帧率下分配音频潜在变量,LTXVConcatAVLatent (#321) 将它们合并为单个 AV 潜在变量。从空潜在变量开始可确保扩散通过完全反映您的提示和调节,而不是任何现有内容。
生成低分辨率 第一个采样阶段以较低成本建立运动和构图。CFGGuider (#313)、KSamplerSelect (#291) 和 ManualSigmas (#306) 控制提示如何强烈地引导生成和整体噪声计划。然后 SamplerCustomAdvanced (#283) 将 AV 潜在变量去噪为连贯的剪辑。结果由 LTXVSeparateAVLatent (#307) 分割,LTXVCropGuides (#284) 细化空间注意力,以便您想要的主体构图在后续放大过程中得到保留。
潜在放大 LTXVLatentUpsampler (#287) 使用 LTX‑2.3 x2 放大器在潜在空间中提升空间细节,以提高速度和稳定性。将放大的视频潜在变量向前馈送可以在高分辨率细化之前改善纹理和可读性。这保留了您在第一次通过中喜欢的运动,同时为更清晰的边缘和更丰富的材料打开了空间。
生成高分辨率 放大的视频潜在变量在 LTXVConcatAVLatent (#278) 中与音频潜在变量重新结合,并再次引导以获得最终质量。CFGGuider (#282)、KSamplerSelect (#280) 和 ManualSigmas (#281) 给出提示强度、细节和时间一致性的最终意见,SamplerCustomAdvanced (#308) 生成精细的 AV 潜在变量。LTXVSeparateAVLatent (#309) 将视频交给 VAEDecodeTiled (#314) 进行内存友好的帧解码,将音频交给 LTXVAudioVAEDecode (#297) 进行波形重建。CreateVideo (#310) 以目标 fps 混合帧和音频,SaveVideo (#75) 写入 MP4/H.264 文件。
图像预处理 此区域路由基本 VAE 和放大器模型,以便平铺和潜在放大在您的 VRAM 预算内工作。如果您遇到内存压力,请优先使用 FP8 LTX‑2.3 权重,并保持启用平铺解码以保持吞吐量和质量。
Comfyui LTX 2.3 Sulphur 2 文本到视频工作流程中的关键节点#
LTXVConditioning (#304) 合并正面和负面文本调节,并附加工作帧速率,以便时间引导与您的渲染匹配。强大、具体的场景语言改善镜头结构;简洁的负面减少伪影。请参阅 LTX‑2.3 模型卡以获取调节说明。 Hugging Face: Lightricks/LTX-2.3
LTXVCropGuides (#284) 轻柔地引导构图以保持主要主体按预期构图。使用它可以在放大和细化之前保护面部大小、地平线位置或居中主体。对于对话风格的镜头和中景特写尤其有用。
CFGGuider (#313, #282) 控制提示在两个阶段中对扩散轨迹影响的强度。使用第一个引导器锁定运动和布景,然后使用第二个引导器增加清晰度而不偏离已建立的镜头。
ManualSigmas (#306, #281) 定义噪声计划。前置更多噪声鼓励更大的运动探索;更温和的计划强调时间一致性。保持低分辨率和高分辨率计划互补而不是相同。
LTXVLatentUpsampler (#287) 使用官方 LTX 放大器执行 x2 潜在放大,以便在细化采样器之前获得细节。切换到其他 LTX‑2.3 放大器变体可以稍微改变清晰度和颗粒感。 Hugging Face: Lightricks/LTX-2.3
VAEDecodeTiled (#314) 以可管理的平铺方式解码长或大型剪辑以避免 VRAM 峰值。如果您更改空间大小或剪辑长度,请调整平铺以平衡内存空间和解码速度。
LoraLoaderModelOnly (#285) 将 Sulphur 2 LoRA 应用于基础模型路径,以便角色保真度和风格提示转移到两个采样阶段。使用此功能可以快速更换外观,同时保持相同的 LTX‑2.3 框架。 Hugging Face: SulphurAI/Sulphur-2-base
可选额外功能#
- 种子控制:在两个
RandomNoise节点中设置固定值,以便拍摄可再现;更改一个种子以探索替代方案。 - 提示:将提示写为镜头指令(主题、相机、照明、情绪)。保持负面列表集中且简短。
- 性能:如果 VRAM 有限,请优先使用 FP8 LTX‑2.3 权重,并保持启用平铺解码。
- 输出:图形写入 MP4/H.264;如果需要 ProRes 代理工作流,请在
SaveVideo中更改容器或编解码器。
此 LTX 2.3 Sulphur 2 文本到视频工作流程提供从提示到抛光视频的清晰、端到端路径,具有同步音频,专为电影角色动画的快速迭代而构建。
致谢#
此工作流程实施并建立在以下作品和资源的基础上。我们诚挚感谢 RunningHub 提供的 Sulphur2 基础工作流程用于视频制作,SulphurAI 提供的 Sulphur-2-base 模型,Lightricks 提供的 LTX-2.3 和 LTX-2.3-fp8 模型,Comfy-Org 提供的 LTX-2 文本编码器的贡献和维护。有关权威细节,请参阅下文链接的原始文档和库。
资源#
- RunningHub/Sulphur2 基础工作流程用于视频制作
- 文档 / 发布说明: Sulphur2 Basic Workflow for Video Production
- SulphurAI/Sulphur-2-base
- Hugging Face: SulphurAI/Sulphur-2-base
- Lightricks/LTX-2.3
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
- Lightricks/LTX-2.3-fp8
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3-fp8
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
- Comfy-Org/ltx-2
- Hugging Face: Comfy-Org/ltx-2
注意:引用模型、数据集和代码的使用受其作者和维护者提供的相应许可和条款的约束。


