LTX 2.3 プロンプトリレー: ComfyUIでのマルチビートイメージ‐トゥ‐ビデオ生成#
LTX 2.3 プロンプトリレーは、1つのクリップで複数のビートにわたってセグメント化されたプロンプトルーティングを行うためのComfyUIワークフローです。PromptRelayEncodeを使用し、トレーニング不要の推論時コントローラーとして異なるテキスト指示を異なる時間範囲に割り当てることができ、ビートごとにカメラの動きやアクションをスクリプト化しながら、被写体の連続性と滑らかなトランジションを維持できます。Qwen VLMヘルパーは、生成前に参照画像からストーリービートを自動ドラフトまたは洗練することができます。
このComfyUI LTX 2.3 プロンプトリレー ワークフローは、シーンごとのコントロールを必要とせずに映画のようなショート、商品ショット、ナラティブティーザーを制作したい場合に最適です。デコードされたオーディオと同期されたビデオを生成し、メタデータを保持してH.264 MP4を書き出します。
ComfyUI LTX 2.3 プロンプトリレー ワークフローの主なモデル#
- LTX‑Video 2.3 ベースチェックポイント。テキストとオプションの参照フレームから時間的に一貫したビデオを合成する生成バックボーンです。ComfyUIユーザー向けのコミュニティビルドと重みのコンテキストをHugging Faceで参照してください。 Kijai/LTX2.3_comfy
- LTX‑Video 2.3 Video VAEとAudio VAE。モデルの潜在ビデオと潜在オーディオをRGBフレームと波形に変換し、ここでMP4をエクスポートするために使用されます。 Kijai/LTX2.3_comfy
- Qwen VLM (Instruct)。参照画像を読み取り、ワークフローがローカルプロンプトとして使用するマルチビートアクションラインをドラフトするビジョン‐ランゲージモデルです。ComfyUI‑QwenVL拡張を通じて統合されています。 1038lab/ComfyUI-QwenVL
- オプションのLTX 2.3 LoRAs。スタイルや効率のアダプターとして、ディスティルドLoRAやクリスプエンハンスLoRAが簡単にトグルできるように事前配線されており、プロンプトを変更せずにテクスチャやシャープネスを変えることができます。 Kijai/LTX2.3_comfy
ComfyUI LTX 2.3 プロンプトリレー ワークフローの使用方法#
全体の流れ#
ワークフローは、オープニングフレームとして単一の画像を読み込み、グローバルプロンプトとビート特有のローカルプロンプトを収集し、Prompt Relayでエンコードし、ジョイントオーディオ‐ビデオ潜在をサンプリングし、フレームとオーディオをMP4にデコードして結合します。グループは、モデル、入力ビデオ設定、VLM、コンディショニング、潜在の作成、サンプリング、デコードとして組織されています。
モデル#
まずベースのLTX‑Video 2.3チェックポイントを読み込み、続いて2つのオプションのLoRAsが順番に適用され、シャープネスと効率を調整します。長いプロンプトの下で忠実度を向上させるためにアテンションパッチングが有効になります。両方のLoRAsを保持することも、1つを無効にすることも、完全にバイパスすることもできます。
入力ビデオ設定#
クリップの幅、高さ、合計秒数、FPSを選択します。ワークフローは秒数とFPSの積としてフレーム数を自動的に計算し、画像とオーディオの長さを同期させます。プロンプトを書き始める前にこれらを設定して、快適に収まるビート数を把握してください。
VLM#
参照画像を読み込むか、ドロップします。画像は事前処理され、Qwen VLMに送られ、短い指示テンプレートに従ってパイプ文字 "|" で区切られた4つの簡潔なビートラインを提案します。生成されたテキストをオンスクリーンビューアでレビューして編集するか、VLMをスキップして独自のラインを書くことができます。
Prompt Relayによるコンディショニング#
PromptRelayEncodeは、スタイルと設定のためのグローバルプロンプトと、ビートごとのアクションのためのローカルプロンプトを受け取ります。ローカルプロンプトでビートを "|" で区切り、エンコーダーが各セグメントをその時間範囲にルーティングし、スムーズなハンドオフのためにブレンドします。ノードはプロンプトコンディショニングとパッチモデルを出力し、サンプラーがあなたのビートスクリプトに忠実に従います。参照と使用法はComfyUI‑PromptRelayプロジェクトによって提供されます。 kijai/ComfyUI-PromptRelay
潜在の作成#
選択した解像度と長さに合わせて空のビデオ潜在が初期化されます。事前処理された参照画像がタイムラインの最初のフレームに書き込まれ、アイデンティティ、ポーズ、ライティングを固定します。デコードがフレームと一緒に準備完了の波形を生成するように、同じ期間の空のオーディオ潜在が作成されます。
サンプリング#
スケジューラーがノイズスケジュールを作成し、ビジュアライザーがそれをプレビューし、サンプラーが連結されたオーディオ‐ビデオ潜在でLTX 2.3モデルとPrompt Relayのコンディショニングを使用して実行します。シャープネスと安定性の間で異なるトレードオフを好む場合は、サンプラータイプを変更できます。結果は、ビデオとオーディオの両方をすでにエンコードした単一の潜在です。
デコードとエクスポート#
潜在はビデオとオーディオのブランチに分割され、LTX 2.3 Video VAEとAudio VAEによってデコードされます。VideoHelperSuiteがフレームと波形をH.264 MP4に組み合わせ、広いプレーヤー互換性を持つ標準ピクセルフォーマットで保存し、再現性のためにメタデータを保存します。 ComfyUI-VideoHelperSuite
ComfyUI LTX 2.3 プロンプトリレー ワークフローの主なノード#
PromptRelayEncode (#605)#
推論時にセグメント化されたプロンプトルーティングを適用するコアコントローラーです。スタイル、設定、被写体、レンズ言語を持続させるためにはglobal_promptを、ビート特有のアクションにはlocal_promptsを使用します。ビートは簡潔で集中したものにしてください。通常、3から6ビートがきれいに読み取れます。トランジションのタイミングを手動で行いたい場合は、隣接するビートを意味的に互換性のあるものにして、ブレンドが自然になるようにします。参照: kijai/ComfyUI-PromptRelay
AILab_QwenVL_Advanced (#610)#
参照画像を読み取り、短い指示プロンプトを使用してアイデアをビートラインに展開するVLMアシスタントです。指示テキストを編集してトーンやカメラボキャブラリーを調整し、生成されたビートをビューアでレビューします。出力は直接local_promptsにフィードされ、いつでも自分の文章で上書きできます。参照: 1038lab/ComfyUI-QwenVL
LTXVImgToVideoInplaceKJ (#582)#
潜在ビデオの最初のフレームを入力画像でシードし、ビート全体でのアイデンティティとライティングの安定性を促進します。純粋なテキスト‐トゥ‐ビデオの場合、このノードをバイパスして空のビデオ潜在から開始します。シードフレームへの強い忠実性を求める場合は、グローバルプロンプトを画像コンテンツと一致させてください。
BasicScheduler (#514) と VisualizeSigmasKJ (#358)#
サンプラーが使用するデノイズスケジュールを制御およびプレビューします。サンプラーやステップ数を切り替えるときにカーブの形状を目視確認するためにビジュアライザーを使用します。よりスムーズなスケジュールは通常、より安定した動きをもたらしますが、より積極的なスケジュールは詳細を押し出します。
VHS_VideoCombine (#604)#
デコードされたフレームとオーディオを1つのMP4にマルチプレックスし、広く互換性のあるピクセルフォーマットで保存します。正確な同期のために、そのフレームレートが入力ビデオ設定グループと一致していることを確認してください。静かなエクスポートを望む場合は、ここでオーディオ入力を切断します。参照: ComfyUI-VideoHelperSuite
オプションの追加#
- ビートライティングのヒント: 現在形で書き、各ビートを1つのアクションにし、ビートを進める短い会話のみを追加し、カメラの動詞(例: "プッシュイン", "パンライト", "ハンドヘルドドリフト")で始めます。
- グローバルプロンプトはアートディレクションやオプティクス(照明、レンズ、ムード)に使用し、ローカルプロンプトは動き、ジェスチャー、フレーミングの変更に使用します。
- より速い反復のために、ビートをドラフトする際は解像度を控えめにし、最終レンダリングの際に解像度を上げます。
- LoRAsが過剰にシャープ化したり色をシフトしたりする場合は、重みを下げるか、1つを無効にして中立性を回復します。
謝辞#
このワークフローは、以下の作品やリソースを実装し、それに基づいて構築されています。Prompt-Relayのgordonchen19、ComfyUI-PromptRelayのkijai、ComfyUIモデルコンテキストのLTX2.3_comfyのKijai、ComfyUI-QwenVLの1038lab、ワークフローソースのPatreon投稿者(Innovate Futures @ Benji)に感謝いたします。詳細については、以下のリンクされたオリジナルのドキュメントとリポジトリを参照してください。
リソース#
- Patreon/ワークフローソース
- ドキュメント / リリースノート: ポスト @Benji
- gordonchen19/Prompt-Relay
- GitHub: gordonchen19/Prompt-Relay
- ドキュメント / リリースノート: サイト
- kijai/ComfyUI-PromptRelay
- GitHub: kijai/ComfyUI-PromptRelay
- Kijai/LTX2.3_comfy
- Hugging Face: Kijai/LTX2.3_comfy
- ドキュメント / リリースノート: ディスカッション #51
- 1038lab/ComfyUI-QwenVL
- GitHub: 1038lab/ComfyUI-QwenVL
注: 参照されているモデル、データセット、およびコードの使用は、それぞれの作成者および管理者によって提供されるライセンスおよび条件に従います。
