logo
RunComfy
  • Models
  • ComfyUI
  • TrainerNew
  • API
  • Pricing
discord logo
ComfyUI>工作流程>LTX-2 ComfyUI | 即時影片生成器

LTX-2 ComfyUI | 即時影片生成器

Workflow Name: RunComfy/LTX-2-ComfyUI
Workflow ID: 0000...1333
通過 LTX-2 工作流程,您可以即時生成影片並即時優化動作或構圖。它幫助您快速測試新的動畫創意,無需延遲即可查看結果,並簡化您的創意流程。此工作流程專為互動式影片原型設計而設計,減少等待時間,同時保持視覺精確度。非常適合動畫設計師、動作藝術家和影片創作者尋求即時視覺反饋。構建、迭代和發展影片概念比以往更快。

LTX-2 ComfyUI:即時文本、圖像、深度和姿勢到影片,帶有同步音頻

這款全能的 LTX-2 ComfyUI 工作流程讓您能在幾秒鐘內生成並迭代帶有音頻的短影片。它提供文本到影片 (T2V)、圖像到影片 (I2V)、深度到影片、姿勢到影片和 canny 到影片的路徑,讓您可以從提示、靜止畫面或結構化指導開始,並保持相同的創意循環。

基於 LTX-2 的低延遲 AV 管道和多 GPU 序列並行性,圖形強調快速反饋。描述運動、攝影機、外觀和聲音一次,然後調整寬度、高度、幀數或控制 LoRAs 以優化結果,而不需重新連接任何東西。

注意:關於 LTX-2 工作流程兼容性的注意事項 — LTX-2 包括 5 個工作流程:文本到影片和圖像到影片可以在所有機器類型上運行,而深度到影片、Canny 到影片和姿勢到影片需要一台2X-Large 機器或更大;在較小的機器上運行這些 ControlNet 工作流程可能會導致錯誤。

LTX-2 ComfyUI 工作流程中的關鍵模型

  • LTX-2 19B (dev FP8) 檢查點。核心音視頻生成模型,從多模式條件生成影片幀和同步音頻。Lightricks/LTX-2
  • LTX-2 19B 精煉檢查點。更輕、更快的變體,適用於快速草稿或 canny 控制運行。Lightricks/LTX-2
  • Gemma 3 12B IT 文本編碼器。工作流程提示編碼器使用的主要文本理解骨幹。Comfy-Org/ltx-2 split files
  • LTX-2 空間上采樣器 x2。潛在上采樣器,在圖形中倍增空間細節以獲得更清晰的輸出。Lightricks/LTX-2
  • LTX-2 音頻 VAE。編碼和解碼音頻潛在變量,以便聲音可以與影片一起生成和合成。隨 LTX-2 發布。
  • Lotus Depth D v1‑1。深度 UNet 用於在深度引導影片生成之前從圖像中導出穩健的深度圖。Comfy‑Org/lotus
  • SD VAE (MSE, EMA 修剪)。用於深度預處理分支的 VAE。stabilityai/sd-vae-ft-mse-original
  • LTX‑2 的控制 LoRAs。可選的即插即用 LoRAs 以引導運動和結構:
    • 精煉 LoRA 384(通用優化)link
    • 攝影機控制:Dolly Left link
    • 姿勢控制 link
    • 深度控制 link
    • Canny 控制 link

如何使用 LTX-2 ComfyUI 工作流程

圖形包含五條可以獨立運行的路徑。所有路徑共享相同的導出路徑並使用相同的提示到條件邏輯,因此一旦學會其中一個,其他的就會感覺很熟悉。

T2V:從提示生成影片和音頻

T2V 路徑從 CLIP Text Encode (Prompt) (#3) 開始,並在 CLIP Text Encode (Prompt) (#4) 中加入可選的否定。LTXVConditioning (#22) 將您的文本和選定的幀率綁定到模型。EmptyLTXVLatentVideo (#43) 和 LTX LTXV Empty Latent Audio (#26) 創建影片和音頻潛在變量,由 LTX LTXV Concat AV Latent (#28) 融合。去噪迴圈通過 LTXVScheduler (#9) 和 SamplerCustomAdvanced (#41) 運行,然後 VAE Decode (#12) 和 LTX LTXV Audio VAE Decode (#14) 生成幀和音頻。Video Combine 🎥🅥🅗🅢 (#15) 保存同步聲音的 H.264 MP4。

I2V:動畫化靜止圖像

使用 LoadImage (#98) 加載靜止圖像,並使用 ResizeImageMaskNode (#99) 調整大小。在 T2V 子圖中,LTX LTXV Img To Video Inplace 將第一幀注入潛在序列,因此運動從您的靜止畫面而不是純噪聲開始構建。保持您的文本提示集中在運動、攝影機和氛圍上;內容來自圖像。

深度到影片:從深度圖驅動結構感知運動

使用“圖像到深度圖 (Lotus)”預處理器將輸入轉換為深度圖像,由 VAEDecode 解碼,並可選擇反轉極性以正確極性。然後,“深度到影片 (LTX 2.0)”路徑通過 LTX LTXV Add Guide 提供深度指導,以便模型在動畫過程中遵循全局場景結構。路徑重用相同的調度器、採樣器和上采樣器階段,並以平鋪解碼為圖像和合成音頻導出結束。

姿勢到影片:從人體姿勢驅動運動

使用 VHS_LoadVideo (#198) 導入剪輯;DWPreprocessor (#158) 可靠地估計跨幀的人體姿勢。“姿勢到影片 (LTX 2.0)”子圖結合您的提示、姿勢條件和可選的姿勢控制 LoRA,保持四肢、方向和節拍一致,同時允許樣式和背景從文本中流動。用於舞蹈、簡單特技或身體時序重要的對鏡頭演講片段。

Canny 到影片:邊緣忠實動畫和精煉速度模式

將幀提供給 Canny (#169) 以獲取穩定的邊緣圖。“Canny 到影片 (LTX 2.0)”分支接受邊緣和可選的 Canny 控制 LoRA 以高保真度對剪影,而“Canny 到影片 (LTX 2.0 精煉)”則提供更快的精煉檢查點以進行快速迭代。兩個變體都允許您選擇性地注入第一幀並選擇圖像強度,然後通過 CreateVideo 或 VHS_VideoCombine 導出。

影片設置和導出

通過 Width (#175) 和 height (#173) 設置寬度和高度,通過 Frame Count (#176) 設置總幀數,並切換 Enable First Frame (#177) 如果您想鎖定初始參考。使用每條路徑末尾的 VHS_VideoCombine 節點來控制 crf、frame_rate、pix_fmt 和元數據保存。當您偏好直接 VIDEO 輸出時,為精煉 canny 路徑提供專用的 SaveVideo (#180)。

性能和多 GPU

圖形應用 LTXVSequenceParallelMultiGPUPatcher (#44) 並啟用 torch_compile 以將序列分割到 GPU 上以降低延遲。KSamplerSelect (#8) 讓您可以在 Euler 和梯度估計樣式之間選擇採樣器;較小的幀數和較低的步驟減少了周轉時間,因此您可以快速迭代並在滿意後擴大。

LTX-2 ComfyUI 工作流程中的關鍵節點

  • LTX Multimodal Guider (#17)。協調文本條件如何引導影片和音頻分支。在連接的 LTX Guider Parameters (#18 for VIDEO, #19 for AUDIO) 中調整 cfg 和 modality 以平衡忠實度與創造力;提高 cfg 以更嚴格的提示依從性,增加 modality_scale 以強調特定分支。
  • LTXVScheduler (#9)。構建適應 LTX‑2 潛在空間的 sigma 調度。使用 steps 在速度和質量之間進行權衡;當進行原型設計時,較少的步驟可以減少延遲,然後提高步驟進行最終渲染。
  • SamplerCustomAdvanced (#41)。將 RandomNoise、從 KSamplerSelect (#8) 選擇的採樣器、調度器的 sigma 和 AV 潛在變量綁定在一起的去噪器。切換採樣器以獲得不同的運動紋理和收斂行為。
  • LTX LTXV Img To Video Inplace(參見 I2V 分支,例如 #107)。將圖像注入影片潛在變量,使第一幀錨定內容,而模型合成運動。調整 strength 以確定第一幀的保留嚴格程度。
  • LTX LTXV Add Guide(在指導路徑中,例如深度/姿勢/canny)。直接在潛在空間中添加結構指導(圖像、姿勢或邊緣)。使用 strength 在指導保真度和生成自由之間取得平衡,僅在需要時間錨定時啟用第一幀。
  • Video Combine 🎥🅥🅗🅢 (#15 和同類項)。將解碼的幀和生成的音頻打包成 MP4。進行預覽時,提高 crf(更多壓縮);進行最終渲染時,降低 crf 並確認 frame_rate 與您在條件中設置的相符。
  • LTXVSequenceParallelMultiGPUPatcher (#44)。啟用帶有編譯優化的序列並行推斷。保持開啟以獲得最佳吞吐量;僅在調試設備放置時禁用。

可選附加功能

  • LTX-2 ComfyUI 的提示技巧
    • 描述隨時間發生的核心動作,而不僅僅是靜態外觀。
    • 指定影片中必須看到的重要視覺細節。
    • 撰寫音軌:氛圍、擬音、音樂和任何對話。
  • 尺寸規則和幀率
    • 使用寬度和高度為 32 的倍數(例如 1280×720)。
    • 使用幀數為 8 的倍數(此範本中的 121 是一個不錯的長度)。
    • 保持幀率一致;圖形包括浮點和整數框,它們應該匹配。
  • LoRA 指導
    • 攝影機、深度、姿勢和 canny LoRAs 已集成;從強度 1 開始進行攝影機移動,然後僅在需要時添加第二個 LoRA。瀏覽官方收藏 Lightricks/LTX‑2。
  • 更快的迭代
    • 降低幀數,減少 LTXVScheduler 中的步驟,並嘗試 canny 路徑的精煉檢查點。當運動有效時,擴大分辨率和步驟進行最終渲染。
  • 可重複性
    • 鎖定 noise_seed 在隨機噪聲節點中,以便在調整提示、大小和 LoRAs 時獲得可重複的結果。

致謝

此工作流程實現並建立在以下工作和資源之上。我們感謝 Lightricks 提供的 LTX-2 多模式影片生成模型和 LTX-Video 研究代碼庫,以及 Comfy Org 提供的 ComfyUI LTX-2 合作節點/集成,感謝他們的貢獻和維護。有關權威詳細信息,請參閱下方鏈接的原始文檔和存儲庫。

資源

  • Comfy Org/LTX-2 現已在 ComfyUI 中提供!
    • GitHub: Lightricks/LTX-Video
    • Hugging Face: Lightricks/LTX-Video-ICLoRA-detailer-13b-0.9.8
    • arXiv: 2501.00103
    • Docs / Release Notes: LTX-2 Now Available in ComfyUI!

注意:使用所引用的模型、數據集和代碼需符合其作者和維護者提供的相應許可和條款。

Want More ComfyUI Workflows?

Wan 2.1 | 革命性影片生成

使用突破性 AI 從文字或圖像創建令人驚嘆的影片,並可在日常 CPU 上運行。

PuLID Flux II | 一致的角色生成

生成圖像時精確控制角色,並保持藝術風格。

CogvideoX Fun | Video-to-Video 模型

CogVideoX Fun:高級視頻到視頻模型,用於高品質視頻生成。

Wan 2.1 Fun | I2V + T2V

使用 Wan 2.1 Fun 增強您的 AI 影片。

Wan 2.2 | 開源影片生成領導者

現在可用!更好的精度 + 更平滑的運動。

Character AI Ovi | 說話化身生成器

將任何照片轉變為具有情感和語音的逼真說話化身。

Era3D | ComfyUI 3D Pack

Era3D | ComfyUI 3D Pack

生成3D內容,從多視角圖像到詳細的網格。

InstantCharacter

一張照片,無限角色。完美的身份保留。

關注我們
  • 領英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 電子郵件
  • 系統狀態
  • 附屬
資源
  • 免費 ComfyUI 在線版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 節點
  • 了解更多
法律
  • 服務條款
  • 隱私政策
  • Cookie 政策
RunComfy
版權 2026 RunComfy. 保留所有權利。

RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。