LTX-2 ComfyUI 工作流程 | 即時影片生成速度

LTX-2 ComfyUI：即時文本、圖像、深度和姿勢到影片，帶有同步音頻

這款全能的 LTX-2 ComfyUI 工作流程讓您能在幾秒鐘內生成並迭代帶有音頻的短影片。它提供文本到影片 (T2V)、圖像到影片 (I2V)、深度到影片、姿勢到影片和 canny 到影片的路徑，讓您可以從提示、靜止畫面或結構化指導開始，並保持相同的創意循環。

基於 LTX-2 的低延遲 AV 管道和多 GPU 序列並行性，圖形強調快速反饋。描述運動、攝影機、外觀和聲音一次，然後調整寬度、高度、幀數或控制 LoRAs 以優化結果，而不需重新連接任何東西。

注意：關於 LTX-2 工作流程兼容性的注意事項 — LTX-2 包括 5 個工作流程：文本到影片和圖像到影片可以在所有機器類型上運行，而深度到影片、Canny 到影片和姿勢到影片需要一台2X-Large 機器或更大；在較小的機器上運行這些 ControlNet 工作流程可能會導致錯誤。

LTX-2 ComfyUI 工作流程中的關鍵模型

LTX-2 19B (dev FP8) 檢查點。核心音視頻生成模型，從多模式條件生成影片幀和同步音頻。Lightricks/LTX-2
LTX-2 19B 精煉檢查點。更輕、更快的變體，適用於快速草稿或 canny 控制運行。Lightricks/LTX-2
Gemma 3 12B IT 文本編碼器。工作流程提示編碼器使用的主要文本理解骨幹。Comfy-Org/ltx-2 split files
LTX-2 空間上采樣器 x2。潛在上采樣器，在圖形中倍增空間細節以獲得更清晰的輸出。Lightricks/LTX-2
LTX-2 音頻 VAE。編碼和解碼音頻潛在變量，以便聲音可以與影片一起生成和合成。隨 LTX-2 發布。
Lotus Depth D v1‑1。深度 UNet 用於在深度引導影片生成之前從圖像中導出穩健的深度圖。Comfy‑Org/lotus
SD VAE (MSE, EMA 修剪)。用於深度預處理分支的 VAE。stabilityai/sd-vae-ft-mse-original
LTX‑2 的控制 LoRAs。可選的即插即用 LoRAs 以引導運動和結構：
- 精煉 LoRA 384（通用優化）link
- 攝影機控制：Dolly Left link
- 姿勢控制 link
- 深度控制 link
- Canny 控制 link

如何使用 LTX-2 ComfyUI 工作流程

圖形包含五條可以獨立運行的路徑。所有路徑共享相同的導出路徑並使用相同的提示到條件邏輯，因此一旦學會其中一個，其他的就會感覺很熟悉。

T2V：從提示生成影片和音頻

T2V 路徑從 CLIP Text Encode (Prompt) (#3) 開始，並在 CLIP Text Encode (Prompt) (#4) 中加入可選的否定。LTXVConditioning (#22) 將您的文本和選定的幀率綁定到模型。EmptyLTXVLatentVideo (#43) 和 LTX LTXV Empty Latent Audio (#26) 創建影片和音頻潛在變量，由 LTX LTXV Concat AV Latent (#28) 融合。去噪迴圈通過 LTXVScheduler (#9) 和 SamplerCustomAdvanced (#41) 運行，然後 VAE Decode (#12) 和 LTX LTXV Audio VAE Decode (#14) 生成幀和音頻。Video Combine 🎥🅥🅗🅢 (#15) 保存同步聲音的 H.264 MP4。

I2V：動畫化靜止圖像

使用 LoadImage (#98) 加載靜止圖像，並使用 ResizeImageMaskNode (#99) 調整大小。在 T2V 子圖中，LTX LTXV Img To Video Inplace 將第一幀注入潛在序列，因此運動從您的靜止畫面而不是純噪聲開始構建。保持您的文本提示集中在運動、攝影機和氛圍上；內容來自圖像。

深度到影片：從深度圖驅動結構感知運動

使用“圖像到深度圖 (Lotus)”預處理器將輸入轉換為深度圖像，由 VAEDecode 解碼，並可選擇反轉極性以正確極性。然後，“深度到影片 (LTX 2.0)”路徑通過 LTX LTXV Add Guide 提供深度指導，以便模型在動畫過程中遵循全局場景結構。路徑重用相同的調度器、採樣器和上采樣器階段，並以平鋪解碼為圖像和合成音頻導出結束。

姿勢到影片：從人體姿勢驅動運動

使用 VHS_LoadVideo (#198) 導入剪輯；DWPreprocessor (#158) 可靠地估計跨幀的人體姿勢。“姿勢到影片 (LTX 2.0)”子圖結合您的提示、姿勢條件和可選的姿勢控制 LoRA，保持四肢、方向和節拍一致，同時允許樣式和背景從文本中流動。用於舞蹈、簡單特技或身體時序重要的對鏡頭演講片段。

Canny 到影片：邊緣忠實動畫和精煉速度模式

將幀提供給 Canny (#169) 以獲取穩定的邊緣圖。“Canny 到影片 (LTX 2.0)”分支接受邊緣和可選的 Canny 控制 LoRA 以高保真度對剪影，而“Canny 到影片 (LTX 2.0 精煉)”則提供更快的精煉檢查點以進行快速迭代。兩個變體都允許您選擇性地注入第一幀並選擇圖像強度，然後通過 CreateVideo 或 VHS_VideoCombine 導出。

影片設置和導出

通過 Width (#175) 和 height (#173) 設置寬度和高度，通過 Frame Count (#176) 設置總幀數，並切換 Enable First Frame (#177) 如果您想鎖定初始參考。使用每條路徑末尾的 VHS_VideoCombine 節點來控制 crf、frame_rate、pix_fmt 和元數據保存。當您偏好直接 VIDEO 輸出時，為精煉 canny 路徑提供專用的 SaveVideo (#180)。

性能和多 GPU

圖形應用 LTXVSequenceParallelMultiGPUPatcher (#44) 並啟用 torch_compile 以將序列分割到 GPU 上以降低延遲。KSamplerSelect (#8) 讓您可以在 Euler 和梯度估計樣式之間選擇採樣器；較小的幀數和較低的步驟減少了周轉時間，因此您可以快速迭代並在滿意後擴大。

LTX-2 ComfyUI 工作流程中的關鍵節點

LTX Multimodal Guider (#17)。協調文本條件如何引導影片和音頻分支。在連接的 LTX Guider Parameters (#18 for VIDEO, #19 for AUDIO) 中調整 cfg 和 modality 以平衡忠實度與創造力；提高 cfg 以更嚴格的提示依從性，增加 modality_scale 以強調特定分支。
LTXVScheduler (#9)。構建適應 LTX‑2 潛在空間的 sigma 調度。使用 steps 在速度和質量之間進行權衡；當進行原型設計時，較少的步驟可以減少延遲，然後提高步驟進行最終渲染。
SamplerCustomAdvanced (#41)。將 RandomNoise、從 KSamplerSelect (#8) 選擇的採樣器、調度器的 sigma 和 AV 潛在變量綁定在一起的去噪器。切換採樣器以獲得不同的運動紋理和收斂行為。
LTX LTXV Img To Video Inplace（參見 I2V 分支，例如 #107）。將圖像注入影片潛在變量，使第一幀錨定內容，而模型合成運動。調整 strength 以確定第一幀的保留嚴格程度。
LTX LTXV Add Guide（在指導路徑中，例如深度/姿勢/canny）。直接在潛在空間中添加結構指導（圖像、姿勢或邊緣）。使用 strength 在指導保真度和生成自由之間取得平衡，僅在需要時間錨定時啟用第一幀。
Video Combine 🎥🅥🅗🅢 (#15 和同類項)。將解碼的幀和生成的音頻打包成 MP4。進行預覽時，提高 crf（更多壓縮）；進行最終渲染時，降低 crf 並確認 frame_rate 與您在條件中設置的相符。
LTXVSequenceParallelMultiGPUPatcher (#44)。啟用帶有編譯優化的序列並行推斷。保持開啟以獲得最佳吞吐量；僅在調試設備放置時禁用。

可選附加功能

LTX-2 ComfyUI 的提示技巧
- 描述隨時間發生的核心動作，而不僅僅是靜態外觀。
- 指定影片中必須看到的重要視覺細節。
- 撰寫音軌：氛圍、擬音、音樂和任何對話。
尺寸規則和幀率
- 使用寬度和高度為 32 的倍數（例如 1280×720）。
- 使用幀數為 8 的倍數（此範本中的 121 是一個不錯的長度）。
- 保持幀率一致；圖形包括浮點和整數框，它們應該匹配。
LoRA 指導
- 攝影機、深度、姿勢和 canny LoRAs 已集成；從強度 1 開始進行攝影機移動，然後僅在需要時添加第二個 LoRA。瀏覽官方收藏 Lightricks/LTX‑2。
更快的迭代
- 降低幀數，減少 LTXVScheduler 中的步驟，並嘗試 canny 路徑的精煉檢查點。當運動有效時，擴大分辨率和步驟進行最終渲染。
可重複性
- 鎖定 noise_seed 在隨機噪聲節點中，以便在調整提示、大小和 LoRAs 時獲得可重複的結果。

致謝

此工作流程實現並建立在以下工作和資源之上。我們感謝 Lightricks 提供的 LTX-2 多模式影片生成模型和 LTX-Video 研究代碼庫，以及 Comfy Org 提供的 ComfyUI LTX-2 合作節點/集成，感謝他們的貢獻和維護。有關權威詳細信息，請參閱下方鏈接的原始文檔和存儲庫。

資源

Comfy Org/LTX-2 現已在 ComfyUI 中提供！
- GitHub: Lightricks/LTX-Video
- Hugging Face: Lightricks/LTX-Video-ICLoRA-detailer-13b-0.9.8
- arXiv: 2501.00103
- Docs / Release Notes: LTX-2 Now Available in ComfyUI!

注意：使用所引用的模型、數據集和代碼需符合其作者和維護者提供的相應許可和條款。

LTX-2 ComfyUI | 即時影片生成器

LTX-2 ComfyUI：即時文本、圖像、深度和姿勢到影片，帶有同步音頻

LTX-2 ComfyUI 工作流程中的關鍵模型

如何使用 LTX-2 ComfyUI 工作流程

T2V：從提示生成影片和音頻

I2V：動畫化靜止圖像

深度到影片：從深度圖驅動結構感知運動

姿勢到影片：從人體姿勢驅動運動

Canny 到影片：邊緣忠實動畫和精煉速度模式

影片設置和導出

性能和多 GPU

LTX-2 ComfyUI 工作流程中的關鍵節點

可選附加功能

致謝

資源

Want More ComfyUI Workflows?

Wan 2.1 | 革命性影片生成

PuLID Flux II | 一致的角色生成

CogvideoX Fun | Video-to-Video 模型

Wan 2.1 Fun | I2V + T2V

Wan 2.2 | 開源影片生成領導者

Stable Diffusion 1.5 LoRA 推理 | AI 工具包 ComfyUI

Qwen-Image Lightning | 8步速度提升

Pose Control LipSync S2V | 表情豐富的視頻生成器