logo
RunComfy
  • ComfyUI
  • 訓練器新
  • 模型
  • API
  • 定價
discord logo
ComfyUI>工作流程>LTX-2 ControlNet | 精確視頻生成器

LTX-2 ControlNet | 精確視頻生成器

Workflow Name: RunComfy/LTX-2-ControlNet
Workflow ID: 0000...1336
此由 ControlNet 驅動的 LTX-2 工作流程通過深度圖、邊緣和人體姿勢等明確的結構條件來實現高度精確的視頻生成。通過使用 ControlNet 風格的 IC LoRA 調節,它在生成同步音頻和視覺效果時,強制在所有幀中施加強大的空間和運動約束。該工作流程支持文本到視頻、圖像到視頻和視頻到視頻的管道,允許創作者精確控制場景結構、運動和連續性。其兩階段架構提供高效的升級和優化的內存使用,使其成為精細、可控和生產就緒的視頻合成的理想選擇。

LTX-2 ControlNet:在 ComfyUI 中結構引導、音頻同步的視頻生成

LTX-2 ControlNet 是一個控制驅動的 ComfyUI 工作流程,用於 ComfyUI-LTXVideo 擴展,讓您可以通過深度、邊緣和姿勢引導來引導 LTX-2 視頻生成,同時保持音頻和視覺同步。它運行在統一的音視覺潛在空間中,因此語音、音效和運動一起生成並從第一幀保持對齊到最後一幀。

專為文本到視頻、圖像到視頻和視頻到視頻而設計,該工作流程增加了基於 IC LoRA 的 ControlNet 調節以實現精確的佈局和運動控制、場景連續性的首幀初始化以及具有潛在升級的兩階段管道,以在不消耗大量 VRAM 的情況下獲得清晰的結果。LTX-2 ControlNet 完全開放,快速迭代,並面向生產,適合需要可重複、高質量輸出的創作者。

Comfyui LTX-2 ControlNet 工作流程中的關鍵模型

  • LTX-2 19B (dev FP8 和蒸餾)。用於在單一潛在空間中取樣視頻和音頻的核心音視覺生成模型。 Model family
  • Gemma 3 12B IT 文本編碼器。通過 LTX-2 使用的打包編碼器提供對提示和否定的強大語言理解。 Encoder file
  • LTX-2 空間升級器 x2。用於第二階段細化空間細節的潛在升級模型。 Upscaler
  • LTX-2 音頻 VAE。專業的音頻解碼器-編碼器,保持生成的聲音與幀對齊。包含在 LTX-2 檢查點中。 Checkpoints
  • IC LoRA 控制系列用於 LTX-2。增加 ControlNet 風格的調節:
    • 深度控制 LoRA: ltx-2-19b-IC-LoRA-Depth-Control
    • 邊緣控制 LoRA: ltx-2-19b-IC-LoRA-Canny-Control
    • 姿勢控制 LoRA: ltx-2-19b-IC-LoRA-Pose-Control
    • 蒸餾 LoRA 用於質量/效率權衡: ltx-2-19b-distilled-lora-384
  • Lotus Depth D v1.1。深度控制路徑中使用的深度估計器。 Model
  • SD VAE FT MSE (Stability AI)。用於深度預計算和平鋪解碼的圖像 VAE。 VAE
  • ComfyUI-LTXVideo 擴展。提供 LTX-2 取樣器、AV 潛在空間、音頻 VAE 和在整個過程中使用的引導節點。 Repository

如何使用 Comfyui LTX-2 ControlNet 工作流程

在高層次上,LTX-2 ControlNet 接受您的提示和可選的參考,構建一個具有 ControlNet 風格引導的音視覺潛在空間,進行第一次取樣,然後升級潛在空間以獲得清晰的視頻和同步音頻。選擇三種引導路徑之一(深度、邊緣、姿勢)或獨立使用它們,然後設置長度和尺寸後導出。

  • 圖像/視頻預處理
    • 如果您正在進行圖像到視頻或視頻到視頻,請使用加載器引入您的參考媒體。VHS_LoadVideo (#196, #197, #198) 分割幀進行分析,而 LoadImage (#189) 處理靜態圖像。該組提供方便的縮放,以便下游引導看到一致的幀大小。
    • 可以將“第一幀”圖像傳遞以進行場景初始化;您將在生成組中稍後啟用它。
  • 圖像深度預處理
    • 對於深度引導,“Image to Depth Map (Lotus)” 子圖使用 Lotus Depth 將您的輸入轉換為標準化的深度圖。這準備了一個單幀或多幀深度表示,LTX-2 可以遵循。
    • 該路徑包括可選的調整大小和強度控制,以便引導編碼廣泛的結構而不過度擬合到小的人工痕跡。
  • 視頻姿勢預處理
    • 對於姿勢引導,DWPreprocessor (#158) 從輸入視頻中檢測全身關鍵點並縮放它們以進行穩定的調節。這產生了一個強調骨架和四肢方向的清晰姿勢圖像序列。
    • 預覽節點幫助您快速驗證檢測和縱橫比在生成前是否正確。
  • 邊緣到視頻
    • 此控制路徑使用 Canny (#169) 提取邊緣,然後使用控制圖像序列構建一個 AV 潛在空間。當您想要保留輪廓、主要輪廓或參考的字體邊緣時使用它。
    • 可用的第一幀圖像輸入可用於一致的初始化;僅在您希望開頭幀匹配特定靜止圖像時啟用它。
  • 深度到視頻
    • 此路徑將 Lotus 深度圖作為控制圖像。深度控制非常適合強制攝像機幾何、大規模佈局和主體距離,讓生成器選擇紋理和照明。
    • 您可以提供第一幀以鎖定初始構圖,然後讓運動在深度提示的指導下演變。
  • 姿勢到視頻
    • 姿勢路徑使用預處理器的關鍵點渲染,指導身體方向和運動時間。它對於角色阻擋、手臂提升時間和步伐循環特別有效。
    • 與其他模式一樣,您可以將提示時間與可選的第一幀調節結合以保持連續性。
  • 視頻設置和長度
    • 在“視頻設置”和“視頻長度”組中設置工作寬度、高度和幀數。工作流程自動調整無效值到 LTX-2 的潛在網格和步幅的最近兼容尺寸,以便您可以安全地迭代。
    • 保持目標幀率在節點之間一致;調節節點和最終合成尊重它以獲得流暢的音視覺同步。
  • 生成、升級和導出
    • 在取樣期間,LTXVAddGuide 將您的正/負調節與選定的控制圖像整合,然後 SamplerCustomAdvanced 從 LTXVScheduler 執行視頻和音頻潛在空間的計劃。選擇的第一幀在啟用時通過 LTXVImgToVideoInplace 注入。
    • 第二階段運行 LTXVLatentUpsampler 使用 x2 潛在升級器細化細節。最終解碼使用平鋪的 VAEDecodeTiled 用於幀,LTXVAudioVAEDecode 用於音頻,然後使用 VHS_VideoCombine 或 CreateVideo 根據選擇的分支寫入視頻。

Comfyui LTX-2 ControlNet 工作流程中的關鍵節點

  • LTXVAddGuide (#132)
    • 將文本調節和 IC LoRA 控制合併到 AV 潛在空間中,作為 LTX-2 ControlNet 引導的核心。僅調整少數重要控制:選擇與您的路徑(深度、邊緣或姿勢)匹配的控制 LoRA,並在可用時,調整 image_strength 以調整模型如何緊密遵循引導。參考實現和節點行為由 LTXVideo 擴展提供。 Docs/Code
  • LTXVImgToVideoInplace (#149, #155)
    • 將第一幀圖像注入 AV 潛在空間以進行一致的場景初始化。使用 strength 平衡對第一幀的忠實度與自由發展;保持較低以獲得更多運動,較高以獲得更緊密的錨點。當您希望純粹由文本或控制驅動的開頭時,繞過它。 Docs/Code
  • LTXVScheduler (#95)
    • 驅動統一潛在空間的去噪軌跡,以便音頻和視頻一起收斂。增加步驟以應對複雜場景和細節;縮短以進行草稿和快速迭代。計劃設置與引導強度互動,因此當引導很強時避免極端值。 Docs/Code
  • LTXVLatentUpsampler (#112)
    • 使用 LTX-2 x2 空間升級器執行第二階段潛在升級,以最小的 VRAM 增長提高清晰度。在第一次通過後使用它,而不是增加基礎分辨率,以保持迭代響應。 Upscaler model
  • DWPreprocessor (#158)
    • 為姿勢控制路徑生成清晰的人體姿勢關鍵點。使用預覽驗證檢測;如果手或小肢體嘈雜,請在預處理之前將輸入縮放到中等最大尺寸。由 ControlNet 輔助套件提供。 Repo
  • VHS_VideoCombine / CreateVideo (#195, #106)
    • 使用選擇的幀率和像素格式將解碼的幀和音頻合成為 MP4。僅在確認您的音頻解碼在預覽中看起來對齊後使用這些。由 Video Helper Suite 提供。 Repo

可選附加功能

  • LTX-2 ControlNet 的提示
    • 描述時間上的動作,而不僅僅是靜態屬性。
    • 包含所需的聲音提示或對話,以便音頻在節拍上生成。
    • 使用簡潔的否定提示來抑制您反復看到的人工痕跡。
  • 尺寸和長度
    • 使用形式為 32k + 1 的寬度/高度圖像尺寸;如果您錯過,圖形會自動更正,但精確的值會加快迭代。
    • 幀數形式為 8k + 1 通常是調度最穩定的。
  • 第一幀一致性
    • 僅在您需要鎖定的開場構圖時啟用第一幀;將其與適中的 image_strength 配對以避免過度約束。
  • VRAM 和吞吐量
    • 工作流程在 LTXVideo 補丁中包含序列並行和 torch 編譯選項,用於多 GPU 或內存受限的設置。在長片時保持它們開啟,調試節點行為時關閉。 Extension

致謝

此工作流程實現並建立在以下工作和資源的基礎上。我們感謝 Lightricks 提供的 ComfyUI-LTXVideo 的貢獻和維護。有關權威的詳細信息,請參閱下方鏈接的原始文檔和存儲庫。

資源

  • ComfyUI-LTXVideo GitHub 存儲庫: https://github.com/Lightricks/ComfyUI-LTXVideo
    • GitHub: Lightricks/ComfyUI-LTXVideo

注意:使用引用的模型、數據集和代碼需遵循其作者和維護者提供的相應許可和條款。

Want More ComfyUI Workflows?

Pyramid Flow | 視頻生成

包括文本到視頻和圖像到視頻模式。

CogvideoX Fun | Video-to-Video 模型

CogVideoX Fun:高級視頻到視頻模型,用於高品質視頻生成。

EchoMimic | 音頻驅動的肖像動畫

生成與提供音頻同步的真實說話頭像和身體動作。

Mochi 1 | Genmo 文字轉影片

使用 Genmo Mochi 1 模型的文字轉影片演示

Mochi Edit 升頻 | 影片至影片

Mochi Edit:使用文字提示和升頻技術修改影片。

Flux Kontext Zoom Out ComfyUI 工作流程 | 無縫擴展

Zoom Out LoRA 無縫擴大圖像,並自然延續。

AnimateDiff + 批次提示排程 | 文字轉影片

利用 Animatediff 的提示旅行,精確控制動畫中的特定畫面。

Multitalk | 真實感說話影片製作器

一鍵從肖像和聲音創建多說話者同步對口型影片!

關注我們
  • 領英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 電子郵件
  • 系統狀態
  • 附屬
資源
  • 免費 ComfyUI 在線版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 節點
  • 了解更多
法律
  • 服務條款
  • 隱私政策
  • Cookie 政策
RunComfy
版權 2026 RunComfy. 保留所有權利。

RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。