LTX-2 ComfyUI ワークフロー | リアルタイムビデオ生成速度

LTX-2 ComfyUI: リアルタイムテキスト、画像、深度およびポーズからビデオへ同期音声付き

このオールインワン LTX-2 ComfyUI ワークフローは、短時間で音声付きの短いビデオを生成し、反復することを可能にします。テキストからビデオ (T2V)、画像からビデオ (I2V)、深度からビデオ、ポーズからビデオ、キャニーからビデオへのルートが含まれており、プロンプト、スチル、または構造化ガイダンスから開始し、同じクリエイティブループを維持できます。

LTX-2 の低遅延 AV パイプラインとマルチ GPU シーケンス並列処理を中心に構築されたグラフは、迅速なフィードバックを重視しています。動き、カメラ、外観、音を一度に記述し、幅、高さ、フレーム数、または制御 LoRA を調整して、再配線せずに結果を洗練します。

注: LTX-2 ワークフローの互換性についての注意 — LTX-2 には 5 つのワークフローが含まれています。Text-to-Video と Image-to-Video はすべてのマシンタイプで動作しますが、Depth to Video、Canny to Video、および Pose to Video は 2X-Large マシン以上が必要です。これらの ControlNet ワークフローを小型マシンで実行すると、エラーが発生する可能性があります。

LTX-2 ComfyUI ワークフローの主要モデル

LTX-2 19B (dev FP8) チェックポイント。マルチモーダル条件付けからビデオフレームと同期音声を生成するコアオーディオビジュアル生成モデル。Lightricks/LTX-2
LTX-2 19B Distilled チェックポイント。クイックドラフトまたはキャニー制御のランに役立つ軽量で高速なバリアント。Lightricks/LTX-2
Gemma 3 12B IT テキストエンコーダー。ワークフローのプロンプトエンコーダーで使用される主要なテキスト理解バックボーン。Comfy-Org/ltx-2 split files
LTX-2 Spatial Upscaler x2。中間グラフで空間の詳細を2倍にする潜在的なアップサンプラー。Lightricks/LTX-2
LTX-2 Audio VAE。音声を生成し、ビデオと一緒に多重化できるように音声潜在をエンコードおよびデコードします。上記の LTX-2 リリースに含まれています。
Lotus Depth D v1‑1。深度マップを生成するために画像から堅牢な深度マップを導き出すために使用される深度 UNet。Comfy‑Org/lotus
SD VAE (MSE, EMA pruned)。深度プリプロセッサーブランチで使用される VAE。stabilityai/sd-vae-ft-mse-original
LTX‑2 用 Control LoRAs。動きと構造を誘導するためのオプションのプラグアンドプレイ LoRAs:
- Distilled LoRA 384 (一般的な洗練) link
- カメラ制御: ドリー左 link
- ポーズ制御 link
- 深度制御 link
- キャニー制御 link

LTX-2 ComfyUI ワークフローの使用方法

グラフには、独立して実行できる 5 つのルートが含まれています。すべてのルートは同じエクスポートパスを共有し、同じプロンプトから条件付けへのロジックを使用するため、一度学習すると、他のルートも馴染み深く感じられます。

T2V: プロンプトからビデオとオーディオを生成

T2V パスは CLIP Text Encode (Prompt) (#3) から始まり、オプションで CLIP Text Encode (Prompt) (#4) に否定を追加できます。LTXVConditioning (#22) は、テキストと選択したフレームレートをモデルに結び付けます。EmptyLTXVLatentVideo (#43) と LTX LTXV Empty Latent Audio (#26) は、LTX LTXV Concat AV Latent (#28) によって融合されるビデオとオーディオの潜在を作成します。デノイズループは LTXVScheduler (#9) と SamplerCustomAdvanced (#41) を通過し、その後 VAE Decode (#12) と LTX LTXV Audio VAE Decode (#14) がフレームとオーディオを生成します。Video Combine 🎥🅥🅗🅢 (#15) は、同期音声付き H.264 MP4 を保存します。

I2V: スチルをアニメーション化

スチル画像を LoadImage (#98) で読み込み、ResizeImageMaskNode (#99) でリサイズします。T2V サブグラフ内で LTX LTXV Img To Video Inplace は、最初のフレームを潜在シーケンスに挿入し、動きがノイズからではなくスチルから構築されるようにします。テキストプロンプトは動き、カメラ、雰囲気に焦点を当ててください。コンテンツは画像から来ます。

深度からビデオへ: 深度マップから構造を意識した動き

“Image to Depth Map (Lotus)” プリプロセッサを使用して入力を深度画像に変換し、VAEDecode によってデコードし、必要に応じて極性を逆転させます。その後、“Depth to Video (LTX 2.0)” ルートは深度ガイダンスを LTX LTXV Add Guide を通じてフィードし、モデルがアニメーション化する際にグローバルシーン構造を尊重します。このパスは同じスケジューラー、サンプラー、アップスケーラーステージを再利用し、タイルデコードで画像と多重化オーディオをエクスポートすることで終了します。

ポーズからビデオへ: 人間のポーズから動きを駆動

クリップを VHS_LoadVideo (#198) でインポートし、DWPreprocessor (#158) がフレーム間で人間のポーズを確実に推定します。“Pose to Video (LTX 2.0)” サブグラフは、プロンプト、ポーズ条件付け、オプションの Pose Control LoRA を組み合わせて、手足、向き、ビートを一貫させながら、スタイルと背景をテキストから流れるようにします。ダンス、簡単なスタント、または体のタイミングが重要なトークカメラショットに使用してください。

キャニーからビデオへ: エッジ忠実なアニメーションと蒸留速度モード

フレームを Canny (#169) にフィードして安定したエッジマップを取得します。“Canny to Video (LTX 2.0)” ブランチは、エッジとオプションの Canny Control LoRA を受け入れ、シルエットへの忠実度を高めます。"Canny to Video (LTX 2.0 Distilled)” は、より高速な蒸留チェックポイントを提供し、迅速な反復を可能にします。両方のバリアントは、オプションで最初のフレームを挿入し、画像強度を選択して、CreateVideo または VHS_VideoCombine 経由でエクスポートできます。

ビデオ設定とエクスポート

Width (#175) と height (#173) で幅と高さを設定し、Frame Count (#176) で総フレーム数を設定し、最初の参照を固定したい場合は Enable First Frame (#177) を切り替えます。各ルートの最後に VHS_VideoCombine ノードを使用して、crf、frame_rate、pix_fmt、およびメタデータの保存を制御します。蒸留キャニールートのための直接 VIDEO 出力を好む場合は、専用の SaveVideo (#180) が提供されています。

パフォーマンスとマルチ GPU

グラフは LTXVSequenceParallelMultiGPUPatcher (#44) を適用し、torch_compile が有効になっているため、シーケンスを GPU に分割して遅延を低減します。KSamplerSelect (#8) でサンプラーを選択でき、オイラーや勾配推定スタイルを含めます。フレーム数を小さくし、ステップを減らすことで、迅速に反復でき、満足したときにスケールアップできます。

LTX-2 ComfyUI ワークフローの主要ノード

LTX Multimodal Guider (#17)。テキストの条件付けがビデオとオーディオの両方のブランチをどのように誘導するかを調整します。cfg と modality をリンクされた LTX Guider Parameters (#18 for VIDEO, #19 for AUDIO) で調整し、忠実さと創造性のバランスを取ります。プロンプトの従順性を高めるために cfg を上げ、特定のブランチを強調するために modality_scale を増やします。
LTXVScheduler (#9)。LTX-2 の潜在空間に合わせたシグマスケジュールを構築します。プロトタイピング時には、ステップを少なくすることで遅延を短縮し、最終レンダリング時にはステップを増やします。
SamplerCustomAdvanced (#41)。RandomNoise、KSamplerSelect (#8) から選択したサンプラー、スケジューラーのシグマ、および AV 潜在を結びつけるデノイザー。異なる動きのテクスチャと収束動作のためにサンプラーを切り替えます。
LTX LTXV Img To Video Inplace (I2V ブランチ参照、例: #107)。画像をビデオ潜在に注入し、最初のフレームがコンテンツをアンカーしている間にモデルが動きを合成します。最初のフレームがどの程度厳密に保持されるかを調整するために strength をチューニングします。
LTX LTXV Add Guide (ガイド付きルート内、例: 深度/ポーズ/キャニー)。潜在空間に直接構造ガイド（画像、ポーズ、またはエッジ）を追加します。ガイドの忠実度と生成の自由をバランスするために strength を使用し、最初のフレームを時間的アンカリングが必要な場合のみ有効にします。
Video Combine 🎥🅥🅗🅢 (#15 および姉妹ノード)。デコードされたフレームと生成されたオーディオを MP4 にパッケージします。プレビューのために crf を上げ（圧縮を増やす）、ファイナルのために crf を下げ、条件付けで設定した frame_rate が一致することを確認します。
LTXVSequenceParallelMultiGPUPatcher (#44)。シーケンス並列推論をコンパイル最適化とともに有効にします。最高のスループットを得るためにオンのままにしておきます。デバイス配置をデバッグするときのみ無効にします。

オプションの追加要素

LTX-2 ComfyUI のプロンプトのヒント
- 静的な外観だけでなく、時間の経過とともにコアアクションを記述します。
- ビデオで見たい重要な視覚的詳細を指定します。
- サウンドトラックを書きます: 雰囲気、フォーリー、音楽、および任意の対話。
サイズルールとフレームレート
- 幅と高さは 32 の倍数を使用します（例: 1280×720）。
- フレーム数は 8 の倍数を使用します（このテンプレートでは 121 が良い長さです）。
- フレームレートが現れる場所で一貫性を保ちます。グラフには浮動小数点数と整数のボックスが含まれており、それらは一致する必要があります。
LoRA ガイダンス
- カメラ、深度、ポーズ、およびキャニーの LoRA が統合されています。カメラの動きに強度 1 から開始し、必要な場合のみ 2 番目の LoRA を追加します。公式コレクションを Lightricks/LTX‑2 で参照してください。
より高速な反復
- フレーム数を下げ、json

Want More ComfyUI Workflows?

Wan 2.1 | 革新的なビデオ生成

画期的なAIを使用して、日常のCPUで動作するテキストまたは画像から信じられないほどのビデオを作成します。

PuLID Flux II | 一貫したキャラクター生成

芸術的なスタイルを維持しながら、正確なキャラクター制御で画像を生成します。

CogvideoX Fun | Video-to-Video Model

CogVideoX Fun: 高品質なビデオ生成のための高度なビデオツービデオモデル。

Wan 2.1 Fun | I2V + T2V

Wan 2.1 FunでAI動画を強化しましょう。

Wan 2.2 | オープンソースのビデオ生成リーダー

今すぐ利用可能！より良い精度と滑らかな動き。

AnimateDiff + Batch Prompt Schedule | Text to Video

AnimateDiffとPrompts Travelを使用して、アニメーション内の特定のフレームを正確に制御します。

LatentSync| Lip Sync Model

高度な音声駆動のリップシンク技術。

Z-Image Turbo LoRA 推論 | AI Toolkit ComfyUI

AI Toolkit でトレーニングした Z-Image Turbo LoRA を、トレーニングに一致したデフォルト設定で ComfyUI で実行するには、単一の RC カスタムノードを使用します。

フォローする

サポート

リソース

法的情報

RunComfy

RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン環境とサービス、および ComfyUIワークフロー魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Models, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。

LTX-2 ComfyUI | リアルタイムビデオジェネレーター