LTX-2 ファーストラストフレーム: ComfyUIでのスタートからエンドまで制御されたオーディオ同期ビデオ生成
LTX-2 ファーストラストフレームは、指定した開始フレームと終了フレーム間で正確なシネマティックモーションを望むクリエイターのためのComfyUIワークフローです。1回のパスで同期されたオーディオとビジュアルを生成しながら、両方の画像(およびオプションでガイドとなる中間フレーム)に条件付けすることで、ショット全体のアイデンティティ、フレーミング、およびライティングを保持し、モーションを最後のフレームに正確に着地させます。それは、物語のビート、タイトルまたはシーンのトランジション、カメラの動き、および時間的な連続性とオーディオの整合性が重要な瞬間のために設計されています。
LTX-2リアルタイムモデルによって強化されたこのワークフローは、プロンプト、LoRAsを介したカメラ動作、およびファースト/ラストフレームの強度に対する細かい制御を提供しながら、反復を迅速に保ちます。その結果、タイミング、外観、サウンドが最初のフレームから最後のフレームまであなたの指示に従うスムーズで一貫したシーケンスが得られます。
注意: 2x Large以下のマシンタイプでは、"ltx-2-19b-dev-fp8.safetensors"モデルを使用してください!
Comfyui LTX-2 ファーストラストフレームワークフローの主要モデル
- LTX-2 19B (dev)。テキストとフレームコントロールからジョイントオーディオビデオレイテントを生成するコアビデオ生成モデル。リアルタイムの反復とカメラ対応のLoRAsをサポート。公式リポジトリとウェイトを参照:Lightricks/LTX-2 on GitHub および Lightricks/LTX-2 on Hugging Face。
- Gemma 3 12B Instructテキストエンコーダー for LTX‑2。このパイプラインで視覚およびオーディオのプロンプトに対する堅牢で命令調整された言語理解を提供します。ComfyUI用にLTX互換のテキストエンコーダーとしてパッケージ化されています。ウェイト参照:Comfy‑Org/ltx‑2 split text encoders。
- LTXV Audio VAE (24 kHz vocoder)。オーディオレイテントをエンコードおよびデコードし、サウンドトラックをビデオとともに生成し、画面上のアクションと同期を維持します。モデルファミリーのコンテキストを参照:Lightricks/LTX-2。
- LTX‑2 Spatial Upscaler x2。ベースパス後のクリーンな高解像度結果のためのレイテントアップスケーラー。アップスケールサンプリングステージ中に使用されます。ウェイトは Lightricks/LTX-2 で入手可能です。
- LTX‑2 LoRAパック for カメラコントロールとディテール。Dolly In/Out/Left/Right, Jib Up/Down, Static, および Image‑Conditioning DetailerなどのオプションのLoRAsは、カメラモーションと細部を形作ります。公式コレクションを参照:Lightricks LTX‑2 LoRAs。
Comfyui LTX-2 ファーストラストフレームワークフローの使用方法
このワークフローは、入力とプロンプトからベースのオーディオビデオサンプルに移行し、MP4にオーディオとともにデコードおよびマルチプレックスする前にガイド付き2xアップスケールパスを実行します。ベースおよびアップスケールステージの両方でファースト/ラストフレームコントロールに依存し、軌道を安定化させるためにオプションの中間フレームを使用します。
モデル
モデルグループは、LTX‑2チェックポイント、Gemma 3 12B Instructテキストエンコーダー、およびLTXV Audio VAEをロードします。ckpt_nameパネルを使用して、GPUに基づいて標準とFP8のバリアントを選択します。テキストエンコーダーはLTXAVTextEncoderLoaderによって提供され、正および負のプロンプトの両方に供給されます。オーディオVAEは、プロンプトに記述された対話、効果音、または雰囲気がビジュアルとともに出現するように、ジョイントオーディオビデオ生成を可能にします。
プロンプト
ポジティブプロンプトにシーンを書き、ネガティブプロンプトに望ましくない特性をリストします。時間経過に伴うアクション、主要な視覚的特性、および発生する順序でのサウンドイベントを説明します。LTXVConditioningブロックは、選択したフレームレートとともにプロンプトを適用し、タイミングとモーションが一貫して解釈されるようにします。スピーチ、効果音、または雰囲気が必要な場合は、プロンプトの一部としてオーディオを扱います。
ビデオ設定
Width、Height、および合計Video Framesを設定し、必要に応じてファースト/ラストコントロールの間隔のためのLengthを選択します。ワークフローは、寸法がモデルの要件に一致し、入力を適切にスケールすることを保証します。入力画像が大きい場合、グラフはそのサイズを読み取ってレイテントキャンバスを初期化し、提供されたフレームをフィットするようにリサイズします。意図した配信に一致するフレームレートを選択してください。
レイテント
このグループは、空のビデオレイテントと一致するオーディオレイテントを構築し、それらを連結してモデルがオーディオとビデオを一緒にサンプリングできるようにします。ファースト/ラストフレームガイダンスがベースパスで最初に注入される場所です。中間フレームを提供することはオプションですが、ミッドショットでのアイデンティティまたはキーポーズの安定化に役立ちます。結果は、ベースサンプリングの準備が整った単一のAVレイテントです。
ベーシックサンプラー
ベースパスは、ランダムノイズ、スケジューラー、および設定されたガイダーを使用してプロンプトを一貫したAVレイテントに解決します。ガイダーは、ポジティブおよびネガティブの条件付けとLoRA修正モデルを受け取ります。サンプリング後、レイテントは再びビデオとオーディオに分割され、ビデオはアップスケールされ、オーディオは同期されたままにされます。このステージは、グローバルモーション、ペーシング、およびオーディオリズムを設定し、アップスケールパスがこれを改善します。
アップスケール
アップスケーラーは、2回目のサンプリングパスの前にレイテントをより高い空間解像度に引き上げます。ファースト/ラストフレームコントロールがこの高解像度で再適用され、オープニングとクロージングフレームが正確にロックされます。ここで中間フレームをフィードして、アップスケールを通じて特徴を安定させることもできます。結果は、計画されたモーションを維持するシャープなAVレイテントです。
モデル
このモデルグループは、アップスケールグループで使用されるLTX‑2レイテントアップスケーラーをロードします。特定のx2空間モデルを準備し、レイテントアップサンプラーノードに公開します。複数のアップスケーラーを維持する場合、ここでモデルを切り替えます。デフォルトのx2の動作で満足している場合は、このグループを変更しないでください。
アップスケールサンプリング(2x)
2回目のパスは、別のサンプラーとシグマスケジュールを使用してアップスケールされたレイテントに対してガイド付きサンプリングを実行します。クロップ対応ガイドが新しい解像度に条件付けを合わせ、ディテールが一貫しているようにします。出力は再びビデオとオーディオに分割され、デコードされます。このパスは主にエッジをシャープにし、小さなテキストやテクスチャを改善し、ファースト/ラストフレームの一致を維持します。
LTX-2-19b-IC-LoRA-Detailer
これは、LTX‑2のイメージコンディショニングパスウェイ用に調整されたディテール指向のLoRAを適用します。リアルイメージに対するコンディショニング後に、より微細なディテールやタイトなテクスチャを望む場合に有効にします。プロンプトやフレーム制約を圧倒しないように、強度は適度に保ちます。入力がすでに鮮明で十分に照らされている場合、このLoRAをバイパスできます。
カメラコントロール-ドリーイン
カメラが時間の経過とともに被写体に向かって進むべき場合、このLoRAを使用します。最初/最後のターゲットを尊重しながら前方の動きにモデルを偏らせます。動きを記述するテキストキューと組み合わせて最強の効果を得ます。動きが意図したフレーミングを超過する場合は、強度を減らします。
カメラコントロール-ドリーアウト
ショットが被写体から引き離されるべき場合、これを選択します。シーケンスが進行するにつれてネガティブパララックスと広がるコンテキストを作成するのに役立ちます。最後のフレームがあなたの出口構成と一致するようにして、動きをクリーンに着地させます。シネマティックな公開のために大気的なオーディオプロンプトと組み合わせてください。
カメラコントロール-ドリーレフト
ドリーまたはトラックとして読み取られる左側への横方向の動きを適用します。会話のビートやセットを横切る公開に適しています。オブジェクトがぼやけたり漂ったりする場合は、ファースト/ラストの強度を少し増やすか、中間フレームを追加してください。LoRAを補完するために「ゆっくりと左に移動」などの小さなテキストヒントとバランスを取ってください。
カメラコントロール-ドリーレフト
ドリー左のミラーで、右側への動きに偏らせます。キャラクターを追ったり、新しい被写体にパンしたりするのに適しています。プッシュインも要求する場合は、LoRAの強度を控えめに保って競合する信号を避けてください。最後のフレームの構成が望ましいエンドポイントと一致していることを確認してください。
カメラコントロール-ジブアップ
垂直の上昇を作成し、公開や設立ショットに役立ちます。視点の変化や地平線のシフトについての浅いプロンプトと組み合わせて明確にします。動きが強い場合は、天井や空の露出に注意してください。ネガティブプロンプトを微調整してハイライトの白飛びを避けてください。必要に応じて、中間フレームを追加して中間上昇のフレーミングを示します。
カメラコントロール-ジブダウン
制御された下降を生成し、しばしば詳細やキャラクターに落ち着くのに使用されます。強調のために静かなオーディオベッドと組み合わせることができます。最後のフレームがターゲットオブジェクトまたは顔を含んでいることを確認して、動きが明確に解決するようにします。下降が速すぎると感じる場合は、LoRAの強度を調整します。
カメラコントロール-スタティック
カメラの動きなしでアクションを望む場合、仮想カメラを固定します。これは、被写体のみが動く対話や製品ショットに役立ちます。ファースト/ラストフレームコントロールと組み合わせて構成を完全に安定させます。カメラLoRAではなくテキストプロンプトを通じて微妙な動きを追加します。
Comfyui LTX-2 ファーストラストフレームワークフローの主要ノード
LTXVFirstLastFrameControl_TTP (#227)
ベースAVレイテントに最初と最後の画像制約を注入します。first_strengthを調整して最初のフレームがどれだけ厳密に一致するかを制御し、last_strengthを調整してシーケンスが最終フレームにどれだけ強く着地するかを決定します。クリップの中間が漂う場合は、LTXVMiddleFrame_TTPを介して中間フレームを供給し、動きを過度に制約しないように強度を適度に保ちます。
LTXVMiddleFrame_TTP (#181)
オプションで、アイデンティティやポーズを安定させるために開始と終了の間の選択したpositionにガイドフjson レームを挿入します。被写体がショットの途中であまりにも変わる場合は、strengthを増やします。控えめに使用してください。最良の結果は、多くの競合する制約ではなく、1つの適切に選ばれた中間リファレンスから得られます。
LTXVLatentUpsampler (#217)
LTX‑2空間アップスケーラーを使用してレイテント空間でx2空間アップスケールを実行します。2xサンプリングパスの前にこれを使用して、高解像度の詳細がモデルによって精緻化されるようにします。メモリが厳しい場合は、このステージでLoRAの使用を最小限に抑えてください。
LTXVFirstLastFrameControl_TTP (#223)
x2アップスケール後に開始/終了(およびオプションの中間)ガイダンスを再適用します。これにより、最終的にデコードされたフレームが配信解像度で最初と最後のリファレンスに正確に一致することが保証されます。アップスケールが微小なシフトを導入する場合は、ベースステージではなくここでlast_strengthを少し上げてください。
LTXVSpatioTemporalTiledVAEDecode (#230)
空間時間タイルを使用して高解像度ビデオレイテントをフレームにデコードします。シームや時間的ちらつきを見る場合のみ、タイルとオーバーラップ設定を調整します。オーバーラップが大きいほどVRAMを多く消費しますが、一貫性が向上します。最後のフレームに小さなドリフトが見られる場合は、last_frame_fixを維持してください。
VHS_VideoCombine (#254)
デコードされたフレームと生成されたオーディオを単一のMP4にマルチプレックスします。出力format、pix_fmt、およびcrfを配信ターゲットに設定し、条件付けと一致するframe_rateを選択します。レンダリングごとに再現性のある記録を保持するためにメタデータ保存を有効にします。
オプションのエクストラ
- GPUが制限されている場合は、LTX‑2のFP8ウェイトを使用してください。VRAMが許可する場合は、最高の忠実度のためにフル精度に戻します。ウェイトは Lightricks/LTX‑2 にあります。
- 幅と高さが32n + 1の形式の場合、寸法が最適に機能します。合計フレームは8n + 1として最適に機能します。必要に応じて、ワークフローは最も近い有効な値に自動補正します。
- オーディオキューをポジティブプロンプトに直接記述します(対話、効果音、雰囲気)。モデルのジョイントAVレイテントは、唇、アクション、サウンドを整合させたままにします。
- 適度なファースト/ラストの強度で開始します。最後のポーズを確定するために最後の強度を上げるか、アイデンティティを安定させるために中間フレームを追加します。
- 明確な意図のために、一度に1つのカメラLoRAのみを適用します。公式オプションを Lightricks LTX‑2 LoRA collection で参照してください。
謝辞
このワークフローは、以下の作品やリソースを実装し、それに基づいて構築されています。我々は、LTX-2 ファーストラストフレームワークフローリファレンスの@AIKSKに彼らの貢献と維持に感謝します。権威ある詳細については、以下のリンクされた元のドキュメントとリポジトリを参照してください。
リソース
- RunningHub/LTX-2 ファーストラストフレームワークフローリファレンス
- ドキュメント/リリースノート: LTX-2 ファーストラストフレームワークフローリファレンス from AIKSK
注意: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者およびメンテナによって提供されるライセンスと条件に従います。
