LTX-2 ControlNet 在 ComfyUI | 深度控制的視頻工作流程

ComfyUI LTX-2 ControlNet 工作流程

LTX-2 ControlNet in ComfyUI | Depth-Controlled Video Workflow

想要運行這個工作流程嗎？

完全可操作的工作流程
沒有缺失的節點或模型
無需手動設置
具有驚豔的視覺效果

ComfyUI LTX-2 ControlNet 範例

LTX-2 ControlNet：在 ComfyUI 中結構引導、音頻同步的視頻生成#

LTX-2 ControlNet 是一個控制驅動的 ComfyUI 工作流程，用於 ComfyUI-LTXVideo 擴展，讓您可以通過深度、邊緣和姿勢引導來引導 LTX-2 視頻生成，同時保持音頻和視覺同步。它運行在統一的音視覺潛在空間中，因此語音、音效和運動一起生成並從第一幀保持對齊到最後一幀。

專為文本到視頻、圖像到視頻和視頻到視頻而設計，該工作流程增加了基於 IC LoRA 的 ControlNet 調節以實現精確的佈局和運動控制、場景連續性的首幀初始化以及具有潛在升級的兩階段管道，以在不消耗大量 VRAM 的情況下獲得清晰的結果。LTX-2 ControlNet 完全開放，快速迭代，並面向生產，適合需要可重複、高質量輸出的創作者。

Comfyui LTX-2 ControlNet 工作流程中的關鍵模型#

LTX-2 19B (dev FP8 和蒸餾)。用於在單一潛在空間中取樣視頻和音頻的核心音視覺生成模型。 Model family
Gemma 3 12B IT 文本編碼器。通過 LTX-2 使用的打包編碼器提供對提示和否定的強大語言理解。 Encoder file
LTX-2 空間升級器 x2。用於第二階段細化空間細節的潛在升級模型。 Upscaler
LTX-2 音頻 VAE。專業的音頻解碼器-編碼器，保持生成的聲音與幀對齊。包含在 LTX-2 檢查點中。 Checkpoints
IC LoRA 控制系列用於 LTX-2。增加 ControlNet 風格的調節：
- 深度控制 LoRA: ltx-2-19b-IC-LoRA-Depth-Control
- 邊緣控制 LoRA: ltx-2-19b-IC-LoRA-Canny-Control
- 姿勢控制 LoRA: ltx-2-19b-IC-LoRA-Pose-Control
- 蒸餾 LoRA 用於質量/效率權衡: ltx-2-19b-distilled-lora-384
Lotus Depth D v1.1。深度控制路徑中使用的深度估計器。 Model
SD VAE FT MSE (Stability AI)。用於深度預計算和平鋪解碼的圖像 VAE。 VAE
ComfyUI-LTXVideo 擴展。提供 LTX-2 取樣器、AV 潛在空間、音頻 VAE 和在整個過程中使用的引導節點。 Repository

如何使用 Comfyui LTX-2 ControlNet 工作流程#

在高層次上，LTX-2 ControlNet 接受您的提示和可選的參考，構建一個具有 ControlNet 風格引導的音視覺潛在空間，進行第一次取樣，然後升級潛在空間以獲得清晰的視頻和同步音頻。選擇三種引導路徑之一（深度、邊緣、姿勢）或獨立使用它們，然後設置長度和尺寸後導出。

圖像/視頻預處理
- 如果您正在進行圖像到視頻或視頻到視頻，請使用加載器引入您的參考媒體。VHS_LoadVideo (#196, #197, #198) 分割幀進行分析，而 LoadImage (#189) 處理靜態圖像。該組提供方便的縮放，以便下游引導看到一致的幀大小。
- 可以將“第一幀”圖像傳遞以進行場景初始化；您將在生成組中稍後啟用它。
圖像深度預處理
- 對於深度引導，“Image to Depth Map (Lotus)” 子圖使用 Lotus Depth 將您的輸入轉換為標準化的深度圖。這準備了一個單幀或多幀深度表示，LTX-2 可以遵循。
- 該路徑包括可選的調整大小和強度控制，以便引導編碼廣泛的結構而不過度擬合到小的人工痕跡。
視頻姿勢預處理
- 對於姿勢引導，DWPreprocessor (#158) 從輸入視頻中檢測全身關鍵點並縮放它們以進行穩定的調節。這產生了一個強調骨架和四肢方向的清晰姿勢圖像序列。
- 預覽節點幫助您快速驗證檢測和縱橫比在生成前是否正確。
邊緣到視頻
- 此控制路徑使用 Canny (#169) 提取邊緣，然後使用控制圖像序列構建一個 AV 潛在空間。當您想要保留輪廓、主要輪廓或參考的字體邊緣時使用它。
- 可用的第一幀圖像輸入可用於一致的初始化；僅在您希望開頭幀匹配特定靜止圖像時啟用它。
深度到視頻
- 此路徑將 Lotus 深度圖作為控制圖像。深度控制非常適合強制攝像機幾何、大規模佈局和主體距離，讓生成器選擇紋理和照明。
- 您可以提供第一幀以鎖定初始構圖，然後讓運動在深度提示的指導下演變。
姿勢到視頻
- 姿勢路徑使用預處理器的關鍵點渲染，指導身體方向和運動時間。它對於角色阻擋、手臂提升時間和步伐循環特別有效。
- 與其他模式一樣，您可以將提示時間與可選的第一幀調節結合以保持連續性。
視頻設置和長度
- 在“視頻設置”和“視頻長度”組中設置工作寬度、高度和幀數。工作流程自動調整無效值到 LTX-2 的潛在網格和步幅的最近兼容尺寸，以便您可以安全地迭代。
- 保持目標幀率在節點之間一致；調節節點和最終合成尊重它以獲得流暢的音視覺同步。
生成、升級和導出
- 在取樣期間，LTXVAddGuide 將您的正/負調節與選定的控制圖像整合，然後 SamplerCustomAdvanced 從 LTXVScheduler 執行視頻和音頻潛在空間的計劃。選擇的第一幀在啟用時通過 LTXVImgToVideoInplace 注入。
- 第二階段運行 LTXVLatentUpsampler 使用 x2 潛在升級器細化細節。最終解碼使用平鋪的 VAEDecodeTiled 用於幀，LTXVAudioVAEDecode 用於音頻，然後使用 VHS_VideoCombine 或 CreateVideo 根據選擇的分支寫入視頻。

Comfyui LTX-2 ControlNet 工作流程中的關鍵節點#

LTXVAddGuide (#132)
- 將文本調節和 IC LoRA 控制合併到 AV 潛在空間中，作為 LTX-2 ControlNet 引導的核心。僅調整少數重要控制：選擇與您的路徑（深度、邊緣或姿勢）匹配的控制 LoRA，並在可用時，調整 image_strength 以調整模型如何緊密遵循引導。參考實現和節點行為由 LTXVideo 擴展提供。 Docs/Code
LTXVImgToVideoInplace (#149, #155)
- 將第一幀圖像注入 AV 潛在空間以進行一致的場景初始化。使用 strength 平衡對第一幀的忠實度與自由發展；保持較低以獲得更多運動，較高以獲得更緊密的錨點。當您希望純粹由文本或控制驅動的開頭時，繞過它。 Docs/Code
LTXVScheduler (#95)
- 驅動統一潛在空間的去噪軌跡，以便音頻和視頻一起收斂。增加步驟以應對複雜場景和細節；縮短以進行草稿和快速迭代。計劃設置與引導強度互動，因此當引導很強時避免極端值。 Docs/Code
LTXVLatentUpsampler (#112)
- 使用 LTX-2 x2 空間升級器執行第二階段潛在升級，以最小的 VRAM 增長提高清晰度。在第一次通過後使用它，而不是增加基礎分辨率，以保持迭代響應。 Upscaler model
DWPreprocessor (#158)
- 為姿勢控制路徑生成清晰的人體姿勢關鍵點。使用預覽驗證檢測；如果手或小肢體嘈雜，請在預處理之前將輸入縮放到中等最大尺寸。由 ControlNet 輔助套件提供。 Repo
VHS_VideoCombine / CreateVideo (#195, #106)
- 使用選擇的幀率和像素格式將解碼的幀和音頻合成為 MP4。僅在確認您的音頻解碼在預覽中看起來對齊後使用這些。由 Video Helper Suite 提供。 Repo

可選附加功能#

LTX-2 ControlNet 的提示
- 描述時間上的動作，而不僅僅是靜態屬性。
- 包含所需的聲音提示或對話，以便音頻在節拍上生成。
- 使用簡潔的否定提示來抑制您反復看到的人工痕跡。
尺寸和長度
- 使用形式為 32k + 1 的寬度/高度圖像尺寸；如果您錯過，圖形會自動更正，但精確的值會加快迭代。
- 幀數形式為 8k + 1 通常是調度最穩定的。
第一幀一致性
- 僅在您需要鎖定的開場構圖時啟用第一幀；將其與適中的 image_strength 配對以避免過度約束。
VRAM 和吞吐量
- 工作流程在 LTXVideo 補丁中包含序列並行和 torch 編譯選項，用於多 GPU 或內存受限的設置。在長片時保持它們開啟，調試節點行為時關閉。 Extension