LTX 2.3 プロンプトリレー in ComfyUI | イメージ‐トゥ‐ビデオワークフロー

ComfyUI LTX 2.3 Prompt Relay ワークフロー

LTX 2.3 Prompt Relay in ComfyUI | Image-to-Video Workflow

このワークフローを実行しますか？

完全に動作するワークフロー
欠落したノードやモデルはありません
手動セットアップは不要
魅力的なビジュアルを特徴としています

ComfyUI LTX 2.3 Prompt Relay 例

LTX 2.3 プロンプトリレー: ComfyUIでのマルチビートイメージ‐トゥ‐ビデオ生成#

LTX 2.3 プロンプトリレーは、1つのクリップで複数のビートにわたってセグメント化されたプロンプトルーティングを行うためのComfyUIワークフローです。PromptRelayEncodeを使用し、トレーニング不要の推論時コントローラーとして異なるテキスト指示を異なる時間範囲に割り当てることができ、ビートごとにカメラの動きやアクションをスクリプト化しながら、被写体の連続性と滑らかなトランジションを維持できます。Qwen VLMヘルパーは、生成前に参照画像からストーリービートを自動ドラフトまたは洗練することができます。

このComfyUI LTX 2.3 プロンプトリレーワークフローは、シーンごとのコントロールを必要とせずに映画のようなショート、商品ショット、ナラティブティーザーを制作したい場合に最適です。デコードされたオーディオと同期されたビデオを生成し、メタデータを保持してH.264 MP4を書き出します。

ComfyUI LTX 2.3 プロンプトリレーワークフローの主なモデル#

LTX‑Video 2.3 ベースチェックポイント。テキストとオプションの参照フレームから時間的に一貫したビデオを合成する生成バックボーンです。ComfyUIユーザー向けのコミュニティビルドと重みのコンテキストをHugging Faceで参照してください。 Kijai/LTX2.3_comfy
LTX‑Video 2.3 Video VAEとAudio VAE。モデルの潜在ビデオと潜在オーディオをRGBフレームと波形に変換し、ここでMP4をエクスポートするために使用されます。 Kijai/LTX2.3_comfy
Qwen VLM (Instruct)。参照画像を読み取り、ワークフローがローカルプロンプトとして使用するマルチビートアクションラインをドラフトするビジョン‐ランゲージモデルです。ComfyUI‑QwenVL拡張を通じて統合されています。 1038lab/ComfyUI-QwenVL
オプションのLTX 2.3 LoRAs。スタイルや効率のアダプターとして、ディスティルドLoRAやクリスプエンハンスLoRAが簡単にトグルできるように事前配線されており、プロンプトを変更せずにテクスチャやシャープネスを変えることができます。 Kijai/LTX2.3_comfy

ComfyUI LTX 2.3 プロンプトリレーワークフローの使用方法#

全体の流れ#

ワークフローは、オープニングフレームとして単一の画像を読み込み、グローバルプロンプトとビート特有のローカルプロンプトを収集し、Prompt Relayでエンコードし、ジョイントオーディオ‐ビデオ潜在をサンプリングし、フレームとオーディオをMP4にデコードして結合します。グループは、モデル、入力ビデオ設定、VLM、コンディショニング、潜在の作成、サンプリング、デコードとして組織されています。

モデル#

まずベースのLTX‑Video 2.3チェックポイントを読み込み、続いて2つのオプションのLoRAsが順番に適用され、シャープネスと効率を調整します。長いプロンプトの下で忠実度を向上させるためにアテンションパッチングが有効になります。両方のLoRAsを保持することも、1つを無効にすることも、完全にバイパスすることもできます。

入力ビデオ設定#

クリップの幅、高さ、合計秒数、FPSを選択します。ワークフローは秒数とFPSの積としてフレーム数を自動的に計算し、画像とオーディオの長さを同期させます。プロンプトを書き始める前にこれらを設定して、快適に収まるビート数を把握してください。

VLM#

参照画像を読み込むか、ドロップします。画像は事前処理され、Qwen VLMに送られ、短い指示テンプレートに従ってパイプ文字 "|" で区切られた4つの簡潔なビートラインを提案します。生成されたテキストをオンスクリーンビューアでレビューして編集するか、VLMをスキップして独自のラインを書くことができます。

Prompt Relayによるコンディショニング#

PromptRelayEncodeは、スタイルと設定のためのグローバルプロンプトと、ビートごとのアクションのためのローカルプロンプトを受け取ります。ローカルプロンプトでビートを "|" で区切り、エンコーダーが各セグメントをその時間範囲にルーティングし、スムーズなハンドオフのためにブレンドします。ノードはプロンプトコンディショニングとパッチモデルを出力し、サンプラーがあなたのビートスクリプトに忠実に従います。参照と使用法はComfyUI‑PromptRelayプロジェクトによって提供されます。 kijai/ComfyUI-PromptRelay

潜在の作成#

選択した解像度と長さに合わせて空のビデオ潜在が初期化されます。事前処理された参照画像がタイムラインの最初のフレームに書き込まれ、アイデンティティ、ポーズ、ライティングを固定します。デコードがフレームと一緒に準備完了の波形を生成するように、同じ期間の空のオーディオ潜在が作成されます。

サンプリング#

スケジューラーがノイズスケジュールを作成し、ビジュアライザーがそれをプレビューし、サンプラーが連結されたオーディオ‐ビデオ潜在でLTX 2.3モデルとPrompt Relayのコンディショニングを使用して実行します。シャープネスと安定性の間で異なるトレードオフを好む場合は、サンプラータイプを変更できます。結果は、ビデオとオーディオの両方をすでにエンコードした単一の潜在です。

デコードとエクスポート#

潜在はビデオとオーディオのブランチに分割され、LTX 2.3 Video VAEとAudio VAEによってデコードされます。VideoHelperSuiteがフレームと波形をH.264 MP4に組み合わせ、広いプレーヤー互換性を持つ標準ピクセルフォーマットで保存し、再現性のためにメタデータを保存します。 ComfyUI-VideoHelperSuite

ComfyUI LTX 2.3 プロンプトリレーワークフローの主なノード#

`PromptRelayEncode` (#605)#

推論時にセグメント化されたプロンプトルーティングを適用するコアコントローラーです。スタイル、設定、被写体、レンズ言語を持続させるためにはglobal_promptを、ビート特有のアクションにはlocal_promptsを使用します。ビートは簡潔で集中したものにしてください。通常、3から6ビートがきれいに読み取れます。トランジションのタイミングを手動で行いたい場合は、隣接するビートを意味的に互換性のあるものにして、ブレンドが自然になるようにします。参照: kijai/ComfyUI-PromptRelay

`AILab_QwenVL_Advanced` (#610)#

参照画像を読み取り、短い指示プロンプトを使用してアイデアをビートラインに展開するVLMアシスタントです。指示テキストを編集してトーンやカメラボキャブラリーを調整し、生成されたビートをビューアでレビューします。出力は直接local_promptsにフィードされ、いつでも自分の文章で上書きできます。参照: 1038lab/ComfyUI-QwenVL

`LTXVImgToVideoInplaceKJ` (#582)#

潜在ビデオの最初のフレームを入力画像でシードし、ビート全体でのアイデンティティとライティングの安定性を促進します。純粋なテキスト‐トゥ‐ビデオの場合、このノードをバイパスして空のビデオ潜在から開始します。シードフレームへの強い忠実性を求める場合は、グローバルプロンプトを画像コンテンツと一致させてください。

`BasicScheduler` (#514) と `VisualizeSigmasKJ` (#358)#

サンプラーが使用するデノイズスケジュールを制御およびプレビューします。サンプラーやステップ数を切り替えるときにカーブの形状を目視確認するためにビジュアライザーを使用します。よりスムーズなスケジュールは通常、より安定した動きをもたらしますが、より積極的なスケジュールは詳細を押し出します。

`VHS_VideoCombine` (#604)#

デコードされたフレームとオーディオを1つのMP4にマルチプレックスし、広く互換性のあるピクセルフォーマットで保存します。正確な同期のために、そのフレームレートが入力ビデオ設定グループと一致していることを確認してください。静かなエクスポートを望む場合は、ここでオーディオ入力を切断します。参照: ComfyUI-VideoHelperSuite

オプションの追加#

ビートライティングのヒント: 現在形で書き、各ビートを1つのアクションにし、ビートを進める短い会話のみを追加し、カメラの動詞（例: "プッシュイン", "パンライト", "ハンドヘルドドリフト"）で始めます。
グローバルプロンプトはアートディレクションやオプティクス（照明、レンズ、ムード）に使用し、ローカルプロンプトは動き、ジェスチャー、フレーミングの変更に使用します。
より速い反復のために、ビートをドラフトする際は解像度を控えめにし、最終レンダリングの際に解像度を上げます。
LoRAsが過剰にシャープ化したり色をシフトしたりする場合は、重みを下げるか、1つを無効にして中立性を回復します。

謝辞#

このワークフローは、以下の作品やリソースを実装し、それに基づいて構築されています。Prompt-Relayのgordonchen19、ComfyUI-PromptRelayのkijai、ComfyUIモデルコンテキストのLTX2.3_comfyのKijai、ComfyUI-QwenVLの1038lab、ワークフローソースのPatreon投稿者（Innovate Futures @ Benji）に感謝いたします。詳細については、以下のリンクされたオリジナルのドキュメントとリポジトリを参照してください。

リソース#

Patreon/ワークフローソース
- ドキュメント / リリースノート: ポスト @Benji
gordonchen19/Prompt-Relay
- GitHub: gordonchen19/Prompt-Relay
- ドキュメント / リリースノート: サイト
kijai/ComfyUI-PromptRelay
- GitHub: kijai/ComfyUI-PromptRelay
Kijai/LTX2.3_comfy
- Hugging Face: Kijai/LTX2.3_comfy
- ドキュメント / リリースノート: ディスカッション #51
1038lab/ComfyUI-QwenVL
- GitHub: 1038lab/ComfyUI-QwenVL

注: 参照されているモデル、データセット、およびコードの使用は、それぞれの作成者および管理者によって提供されるライセンスおよび条件に従います。

Want More ComfyUI Workflows?

AnimateDiff + Batch Prompt Schedule | Text to Video

AnimateDiffとPrompts Travelを使用して、アニメーション内の特定のフレームを正確に制御します。

AnimateDiff + Batch Prompt Schedule | テキストからビデオへ

AnimateDiffを使用したBatch Prompt Scheduleは、アニメーション作成における物語と視覚要素を正確に制御できます。

LTX 2.3 First Last Frame | シームレスビデオジェネレーター

キーフレームを超スムーズでリアルなビデオトランジションに変換します。

Wan2.2 Fun Inp | シネマティックビデオジェネレーター

2つの画像から滑らかで制御可能なトランジションを持つ驚くべきビデオへ。

CogVideoX-5B | 高度なテキストからビデオへのモデル

CogVideoX-5B：高品質なビデオ生成のための高度なテキストからビデオへのモデル。

SVD + IPAdapter V1 | 画像からビデオへ

静止画像の生成には IPAdapters を、動的なビデオ生成には Stable Video Diffusion を活用します。

LayerDiffuse + TripoSR | 画像から3Dへ

LayerDiffuseで画像の透明化を行い、TripoSRで素早く3Dオブジェクトを作成

Wan 2.2 Qwen マルチアングルスプリットスタック | マルチビュービデオジェネレーター

1 つの画像を同期されたマルチアングルアニメーションビデオに素早く変換します。

フォローする

サポート

リソース

法的情報

RunComfy

RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン環境とサービス、および ComfyUIワークフロー魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Models, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。

LTX 2.3 プロンプトリレー | シーンコントロールビデオメーカー