LTX-2 ComfyUI:即時文本、圖像、深度和姿勢到影片,帶有同步音頻
這款全能的 LTX-2 ComfyUI 工作流程讓您能在幾秒鐘內生成並迭代帶有音頻的短影片。它提供文本到影片 (T2V)、圖像到影片 (I2V)、深度到影片、姿勢到影片和 canny 到影片的路徑,讓您可以從提示、靜止畫面或結構化指導開始,並保持相同的創意循環。
基於 LTX-2 的低延遲 AV 管道和多 GPU 序列並行性,圖形強調快速反饋。描述運動、攝影機、外觀和聲音一次,然後調整寬度、高度、幀數或控制 LoRAs 以優化結果,而不需重新連接任何東西。
注意:關於 LTX-2 工作流程兼容性的注意事項 — LTX-2 包括 5 個工作流程:文本到影片和圖像到影片可以在所有機器類型上運行,而深度到影片、Canny 到影片和姿勢到影片需要一台2X-Large 機器或更大;在較小的機器上運行這些 ControlNet 工作流程可能會導致錯誤。
LTX-2 ComfyUI 工作流程中的關鍵模型
- LTX-2 19B (dev FP8) 檢查點。核心音視頻生成模型,從多模式條件生成影片幀和同步音頻。Lightricks/LTX-2
- LTX-2 19B 精煉檢查點。更輕、更快的變體,適用於快速草稿或 canny 控制運行。Lightricks/LTX-2
- Gemma 3 12B IT 文本編碼器。工作流程提示編碼器使用的主要文本理解骨幹。Comfy-Org/ltx-2 split files
- LTX-2 空間上采樣器 x2。潛在上采樣器,在圖形中倍增空間細節以獲得更清晰的輸出。Lightricks/LTX-2
- LTX-2 音頻 VAE。編碼和解碼音頻潛在變量,以便聲音可以與影片一起生成和合成。隨 LTX-2 發布。
- Lotus Depth D v1‑1。深度 UNet 用於在深度引導影片生成之前從圖像中導出穩健的深度圖。Comfy‑Org/lotus
- SD VAE (MSE, EMA 修剪)。用於深度預處理分支的 VAE。stabilityai/sd-vae-ft-mse-original
- LTX‑2 的控制 LoRAs。可選的即插即用 LoRAs 以引導運動和結構:
如何使用 LTX-2 ComfyUI 工作流程
圖形包含五條可以獨立運行的路徑。所有路徑共享相同的導出路徑並使用相同的提示到條件邏輯,因此一旦學會其中一個,其他的就會感覺很熟悉。
T2V:從提示生成影片和音頻
T2V 路徑從 CLIP Text Encode (Prompt) (#3) 開始,並在 CLIP Text Encode (Prompt) (#4) 中加入可選的否定。LTXVConditioning (#22) 將您的文本和選定的幀率綁定到模型。EmptyLTXVLatentVideo (#43) 和 LTX LTXV Empty Latent Audio (#26) 創建影片和音頻潛在變量,由 LTX LTXV Concat AV Latent (#28) 融合。去噪迴圈通過 LTXVScheduler (#9) 和 SamplerCustomAdvanced (#41) 運行,然後 VAE Decode (#12) 和 LTX LTXV Audio VAE Decode (#14) 生成幀和音頻。Video Combine 🎥🅥🅗🅢 (#15) 保存同步聲音的 H.264 MP4。
I2V:動畫化靜止圖像
使用 LoadImage (#98) 加載靜止圖像,並使用 ResizeImageMaskNode (#99) 調整大小。在 T2V 子圖中,LTX LTXV Img To Video Inplace 將第一幀注入潛在序列,因此運動從您的靜止畫面而不是純噪聲開始構建。保持您的文本提示集中在運動、攝影機和氛圍上;內容來自圖像。
深度到影片:從深度圖驅動結構感知運動
使用“圖像到深度圖 (Lotus)”預處理器將輸入轉換為深度圖像,由 VAEDecode 解碼,並可選擇反轉極性以正確極性。然後,“深度到影片 (LTX 2.0)”路徑通過 LTX LTXV Add Guide 提供深度指導,以便模型在動畫過程中遵循全局場景結構。路徑重用相同的調度器、採樣器和上采樣器階段,並以平鋪解碼為圖像和合成音頻導出結束。
姿勢到影片:從人體姿勢驅動運動
使用 VHS_LoadVideo (#198) 導入剪輯;DWPreprocessor (#158) 可靠地估計跨幀的人體姿勢。“姿勢到影片 (LTX 2.0)”子圖結合您的提示、姿勢條件和可選的姿勢控制 LoRA,保持四肢、方向和節拍一致,同時允許樣式和背景從文本中流動。用於舞蹈、簡單特技或身體時序重要的對鏡頭演講片段。
Canny 到影片:邊緣忠實動畫和精煉速度模式
將幀提供給 Canny (#169) 以獲取穩定的邊緣圖。“Canny 到影片 (LTX 2.0)”分支接受邊緣和可選的 Canny 控制 LoRA 以高保真度對剪影,而“Canny 到影片 (LTX 2.0 精煉)”則提供更快的精煉檢查點以進行快速迭代。兩個變體都允許您選擇性地注入第一幀並選擇圖像強度,然後通過 CreateVideo 或 VHS_VideoCombine 導出。
影片設置和導出
通過 Width (#175) 和 height (#173) 設置寬度和高度,通過 Frame Count (#176) 設置總幀數,並切換 Enable First Frame (#177) 如果您想鎖定初始參考。使用每條路徑末尾的 VHS_VideoCombine 節點來控制 crf、frame_rate、pix_fmt 和元數據保存。當您偏好直接 VIDEO 輸出時,為精煉 canny 路徑提供專用的 SaveVideo (#180)。
性能和多 GPU
圖形應用 LTXVSequenceParallelMultiGPUPatcher (#44) 並啟用 torch_compile 以將序列分割到 GPU 上以降低延遲。KSamplerSelect (#8) 讓您可以在 Euler 和梯度估計樣式之間選擇採樣器;較小的幀數和較低的步驟減少了周轉時間,因此您可以快速迭代並在滿意後擴大。
LTX-2 ComfyUI 工作流程中的關鍵節點
LTX Multimodal Guider(#17)。協調文本條件如何引導影片和音頻分支。在連接的LTX Guider Parameters(#18 for VIDEO, #19 for AUDIO) 中調整cfg和modality以平衡忠實度與創造力;提高cfg以更嚴格的提示依從性,增加modality_scale以強調特定分支。LTXVScheduler(#9)。構建適應 LTX‑2 潛在空間的 sigma 調度。使用steps在速度和質量之間進行權衡;當進行原型設計時,較少的步驟可以減少延遲,然後提高步驟進行最終渲染。SamplerCustomAdvanced(#41)。將RandomNoise、從KSamplerSelect(#8) 選擇的採樣器、調度器的 sigma 和 AV 潛在變量綁定在一起的去噪器。切換採樣器以獲得不同的運動紋理和收斂行為。LTX LTXV Img To Video Inplace(參見 I2V 分支,例如 #107)。將圖像注入影片潛在變量,使第一幀錨定內容,而模型合成運動。調整strength以確定第一幀的保留嚴格程度。LTX LTXV Add Guide(在指導路徑中,例如深度/姿勢/canny)。直接在潛在空間中添加結構指導(圖像、姿勢或邊緣)。使用strength在指導保真度和生成自由之間取得平衡,僅在需要時間錨定時啟用第一幀。Video Combine 🎥🅥🅗🅢(#15 和同類項)。將解碼的幀和生成的音頻打包成 MP4。進行預覽時,提高crf(更多壓縮);進行最終渲染時,降低crf並確認frame_rate與您在條件中設置的相符。LTXVSequenceParallelMultiGPUPatcher(#44)。啟用帶有編譯優化的序列並行推斷。保持開啟以獲得最佳吞吐量;僅在調試設備放置時禁用。
可選附加功能
- LTX-2 ComfyUI 的提示技巧
- 描述隨時間發生的核心動作,而不僅僅是靜態外觀。
- 指定影片中必須看到的重要視覺細節。
- 撰寫音軌:氛圍、擬音、音樂和任何對話。
- 尺寸規則和幀率
- 使用寬度和高度為 32 的倍數(例如 1280×720)。
- 使用幀數為 8 的倍數(此範本中的 121 是一個不錯的長度)。
- 保持幀率一致;圖形包括浮點和整數框,它們應該匹配。
- LoRA 指導
- 攝影機、深度、姿勢和 canny LoRAs 已集成;從強度 1 開始進行攝影機移動,然後僅在需要時添加第二個 LoRA。瀏覽官方收藏 Lightricks/LTX‑2。
- 更快的迭代
- 降低幀數,減少
LTXVScheduler中的步驟,並嘗試 canny 路徑的精煉檢查點。當運動有效時,擴大分辨率和步驟進行最終渲染。
- 降低幀數,減少
- 可重複性
- 鎖定
noise_seed在隨機噪聲節點中,以便在調整提示、大小和 LoRAs 時獲得可重複的結果。
- 鎖定
致謝
此工作流程實現並建立在以下工作和資源之上。我們感謝 Lightricks 提供的 LTX-2 多模式影片生成模型和 LTX-Video 研究代碼庫,以及 Comfy Org 提供的 ComfyUI LTX-2 合作節點/集成,感謝他們的貢獻和維護。有關權威詳細信息,請參閱下方鏈接的原始文檔和存儲庫。
資源
- Comfy Org/LTX-2 現已在 ComfyUI 中提供!
- GitHub: Lightricks/LTX-Video
- Hugging Face: Lightricks/LTX-Video-ICLoRA-detailer-13b-0.9.8
- arXiv: 2501.00103
- Docs / Release Notes: LTX-2 Now Available in ComfyUI!
注意:使用所引用的模型、數據集和代碼需符合其作者和維護者提供的相應許可和條款。

