LTX-2 ControlNet in ComfyUI | 深度制御されたビデオワークフロー

ComfyUI LTX-2 ControlNet Workflow

LTX-2 ControlNet in ComfyUI | Depth-Controlled Video Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX-2 ControlNet Examples

LTX-2 ControlNet: 構造誘導、音声同期ビデオ生成 in ComfyUI#

LTX-2 ControlNetは、ComfyUI-LTXVideo拡張のための制御駆動のComfyUIワークフローで、深度、キャニーエッジ、およびポーズガイダンスを使用してLTX-2ビデオ生成を操縦しながら、音声とビジュアルを同期させます。それは統一された音声-映像潜在空間で動作するため、スピーチ、フォーリー、および動きが一緒に生成され、最初のフレームから最後のフレームまで整合性を保ちます。

テキストからビデオ、画像からビデオ、およびビデオからビデオのために構築されており、IC LoRAベースのControlNetコンディショニングを追加して正確なレイアウトと動きの制御を可能にし、シーンの継続性のための初期フレーム初期化を提供し、シャープな結果を得るための潜在アップスケーリングを使用した2段階パイプラインを備えています。LTX-2 ControlNetは完全にオープンで、迅速に反復可能で、再現可能な高品質な出力が必要なクリエイター向けに制作指向です。

Comfyui LTX-2 ControlNetワークフローの主要モデル#

LTX-2 19B (dev FP8 and distilled)。単一の潜在空間でビデオとオーディオをサンプリングするために使用されるコア音声-映像生成モデル。Model family
Gemma 3 12B ITテキストエンコーダー。LTX-2が使用するパッケージ化されたエンコーダーを介して、プロンプトとネガティブに対する堅牢な言語理解を提供します。Encoder file
LTX-2 Spatial Upscaler x2。ステージ2で空間詳細を洗練するために使用される潜在アップスケーリングモデル。Upscaler
LTX-2 Audio VAE。生成された音をフレームに合わせて整合させる専門のオーディオデコーダー-エンコーダー。LTX-2チェックポイントに含まれています。Checkpoints
IC LoRA control family for LTX-2。ControlNetスタイルのコンディショニングを追加します：
- Depth control LoRA: ltx-2-19b-IC-LoRA-Depth-Control
- Canny control LoRA: ltx-2-19b-IC-LoRA-Canny-Control
- Pose control LoRA: ltx-2-19b-IC-LoRA-Pose-Control
- Distilled LoRA for quality/efficiency trade-offs: ltx-2-19b-distilled-lora-384
Lotus Depth D v1.1。深度制御パスで使用される深度推定器。Model
SD VAE FT MSE (Stability AI)。深度の事前計算とタイルデコードに使用される画像VAE。VAE
ComfyUI-LTXVideo extension。LTX-2サンプラー、AV潜在、オーディオVAE、および全体で使用されるガイダーノードを提供します。Repository

Comfyui LTX-2 ControlNetワークフローの使用方法#

大まかに言えば、LTX-2 ControlNetはプロンプトとオプションの参照を取得し、ControlNetスタイルのガイダンスで音声-映像潜在を構築し、最初のパスをサンプリングし、その後、潜在をアップスケールして鮮明なビデオと同期された音声を生成します。3つのガイドパス（深度、キャニー、ポーズ）のいずれかを選択して使用するか、それらを独立して使用し、長さとサイズを設定してからエクスポートします。

画像/ビデオの前処理
- 画像からビデオ、またはビデオからビデオを行う場合は、ローダーを使用して参照メディアを取り込みます。VHS_LoadVideo (#196, #197, #198)は分析のためにフレームを分割し、LoadImage (#189)は静止画を処理します。グループは下流のガイドが一貫したフレームサイズを確認できるように便利なスケーリングを提供します。
- "初期フレーム"画像をシーン初期化のために前方に渡すことができ、生成グループで後で有効にします。
画像の深度前処理
- 深度ガイダンスのために、"Image to Depth Map (Lotus)"サブグラフは入力を正規化された深度マップに変換します。これにより、LTX-2が追従できる単一フレームまたはマルチフレームの深度表現が準備されます。
- パスには、広範な構造をエンコードしつつ小さなアーティファクトに過適合しないようにするためのオプションのリサイズと強度制御が含まれています。
ビデオポーズ前処理
- ポーズガイダンスのために、DWPreprocessor (#158)は入力ビデオから全身のキーポイントを検出し、安定したコンディショニングのためにスケーリングします。これにより、スケルトンと四肢の方向を強調するクリーンなポーズ画像シーケンスが得られます。
- プレビューノードは、生成前に検出とアスペクト比が正しいことをすばやく確認するのに役立ちます。
キャニーからビデオへ
- この制御パスはCanny (#169)でエッジを抽出し、制御画像シーケンスと共にAV潜在を構築します。シルエット、主要な輪郭、または参照からのタイポグラフィエッジを保存したいときに使用します。
- 一貫した初期化のための初期フレーム画像入力が利用可能で、特定の静止画に一致するオープニングフレームが必要な場合にのみ有効にします。
深度からビデオへ
- このパスは制御画像としてLotus深度マップを供給します。深度制御は、カメラの幾何学、大規模レイアウト、および被写体の距離を強制しながら、ジェネレーターがテクスチャと照明を選択できるようにするのに理想的です。
- 初期フレームを提供して初期構図を固定し、その後、深度の指標に従って動きを進化させることができます。
ポーズからビデオへ
- ポーズパスはプリプロセッサからのキーポイントレンダリングを使用し、体の方向と動きのタイミングを誘導します。特にキャラクターブロッキング、手の持ち上げタイミング、歩行サイクルに効果的です。
- 他のモードと同様に、継続性のためにオプションの初期フレームコンディショニングとプロンプトタイミングを組み合わせることができます。
ビデオ設定と長さ
- "Video Settings"と"video length"グループで作業する幅、高さ、およびフレーム数を設定します。ワークフローは、LTX-2の潜在グリッドとストライドに最も近い互換サイズに無効な値を自動調整するため、安全に反復できます。
- ターゲットフレームレートをノード全体で一貫して保ちます。コンディショニングノードと最終的な多重化は、それを尊重して音声-映像の同期を維持します。
生成、アップスケーリング、エクスポート
- サンプリング中に、LTXVAddGuideは選択した制御画像とともにポジティブ/ネガティブコンディショニングを統合し、SamplerCustomAdvancedはビデオとオーディオ潜在のためのLTXVSchedulerからのスケジュールを実行します。オプションの初期フレームは、LTXVImgToVideoInplaceで有効にされた場合に注入されます。
- 第二段階では、LTXVLatentUpsamplerがx2潜在アップスケーラーで詳細を洗練します。最終デコードは、フレームのタイルVAEDecodeTiledとオーディオのLTXVAudioVAEDecodeで行われ、その後選択したブランチに応じてVHS_VideoCombineまたはCreateVideoでビデオが書き出されます。

Comfyui LTX-2 ControlNetワークフローの主要ノード#

LTXVAddGuide (#132)
- テキストコンディショニングとIC LoRAコントロールをAV潜在にマージし、LTX-2 ControlNetガイダンスの中心として機能します。重要なコントロールのみを調整してください：あなたのパス（深度、キャニー、またはポーズ）に一致する制御LoRAを選択し、可能な場合はモデルがガイドにどれだけ厳密に従うかを調整するimage_strengthを選択します。LTXVideo拡張によって提供されるリファレンス実装とノードの動作。Docs/Code
LTXVImgToVideoInplace (#149, #155)
- AV潜在に初期フレーム画像を注入して、一貫したシーン初期化を提供します。初期フレームへの忠実度と進化の自由をバランスするためにstrengthを使用してください。より多くの動きが必要な場合は低く、より厳しいアンカーが必要な場合は高く保ちます。純粋にテキストまたは制御駆動のオープニングを望む場合はバイパスしてください。Docs/Code
LTXVScheduler (#95)
- 統一された潜在の脱ノイズ軌道を駆動し、音声とビデオが一緒に収束するようにします。複雑なシーンや細かいディテールにはステップを増やし、ドラフトや迅速な反復には短縮してください。スケジュール設定はガイダンスの強さと相互作用するため、ガイダンスが強い場合は極端な値を避けてください。Docs/Code
LTXVLatentUpsampler (#112)
- LTX-2 x2空間アップスケーラーで第二段階の潜在アップスケーリングを実行し、VRAMの増加を最小限に抑えながらシャープネスを向上させます。反復を応答性のあるものに保つために、基礎解像度を増やすのではなく、最初のパスの後に使用してください。Upscaler model
DWPreprocessor (#158)
- ポーズ制御パスのためにクリーンなヒューマンポーズキーポイントを生成します。プレビューで検出を確認してください。手や小さな四肢がノイズの多い場合は、前処理前に入力を適度な最大寸法にスケールしてください。ControlNet補助スイートによって提供されます。Repo
VHS_VideoCombine / CreateVideo (#195, #106)
- 選択したフレームレートとピクセル形式でデコードフレームとオーディオをMP4に多重化します。プレビューでオーディオデコードが整列していることを確認した後にのみ使用してください。Video Helper Suiteによって提供されます。Repo

オプションのエクストラ#

LTX-2 ControlNetのプロンプト
- 静的属性だけでなく、時間の経過に伴うアクションを説明してください。
- 必要な音声キューまたはダイアログを含め、音声がビートに合わせて生成されるようにします。
- 繰り返し見られるアーティファクトを抑制するために、簡潔なネガティブプロンプトを使用してください。
サイズと長さ
- 幅/高さの形式32k + 1の画像サイズを使用してください。グラフが自動修正しますが、正確な値は反復を速めます。
- 形式8k + 1のフレーム数は、スケジューリングに最も安定しています。
初期フレームの一貫性
- 初期フレームが必要な場合にのみ有効にし、適度なimage_strengthとペアリングして過度な制約を避けてください。
VRAMとスループット
- ワークフローには、json

シーケンス並列およびトーチコンパイルオプションがLTXVideoパッチャーに含まれており、マルチGPUまたはメモリ制約のあるセットアップのために使用できます。長いクリップの際にはオンにし、ノードの動作をデバッグする際にはオフにします。Extension

謝辞#

このワークフローは以下の作品とリソースを実装および構築しています。ComfyUI-LTXVideoの寄与とメンテナンスに対してLightricksに感謝いたします。権威ある詳細については、以下のリンクされた元のドキュメントとリポジトリを参照してください。

リソース#

ComfyUI-LTXVideo GitHubリポジトリ: https://github.com/Lightricks/ComfyUI-LTXVideo
- GitHub: Lightricks/ComfyUI-LTXVideo

注: 参照するモデル、データセット、コードの使用は、それぞれの作者およびメンテナによって提供されたライセンスおよび条件に従います。

Want More ComfyUI Workflows?

Pyramid Flow | ビデオ生成

テキストからビデオと画像からビデオの両モードを含みます。

CogvideoX Fun | Video-to-Video Model

CogVideoX Fun: 高品質なビデオ生成のための高度なビデオツービデオモデル。

EchoMimic | オーディオ駆動のポートレートアニメーション

提供されたオーディオと同期したリアルなトーキングヘッドとボディジェスチャーを生成します。

Mochi 1 | Genmo テキストからビデオへ

Genmo Mochi 1モデルを使用したテキストからビデオへのデモ

Mochi Edit UnSampling | Video-to-Video

Mochi Edit: テキストベースのプロンプトとアップサンプリングを使用してビデオを修正。

ToonCrafter | ジェネレーティブカートゥーン補間

ToonCrafterは2つのカートゥーン画像間の補間を生成できます。

一貫したシーンを作成 | 一貫したストーリーアートジェネレーター

豊かな視覚的一貫性を持つシームレスなストーリーテリングシーンを構築します。

Wan 2.1 | 革新的なビデオ生成

画期的なAIを使用して、日常のCPUで動作するテキストまたは画像から信じられないほどのビデオを作成します。

フォローする

サポート

リソース

法的情報

RunComfy

RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン環境とサービス、および ComfyUIワークフロー魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Models, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。

LTX-2 ControlNet | 精密ビデオジェネレーター