LTX 2.3 Movie Builder Workflow: 一貫したマルチシーン、オーディオ対応の映画製作 in ComfyUI#
LTX 2.3 Movie Builder Workflowは、Qwen/GemmaプロンプトインテリジェンスとLTX‑2.3ビデオモデルを組み合わせて、一貫したマルチシーン映画、ストーリードリブンのクリップ、ミュージックビデオを生成する映画的AI映画製作システムです。キャラクターのアイデンティティ、動きの連続性、映画的なペースを維持しながら、シーン計画、プロンプトシーケンス、ショット組み立てを自動化します。テキストだけで結果を駆動したり、画像からビデオにスタートしたり、リップシンクやジェスチャーのタイミングのためにオーディオ参照を使用したりすることができ、スタイル、カメラの動き、長さ、編集順序に対して創造的なコントロールを維持できます。
このComfyUIグラフは、スタートイメージの作成をFLUX.2と統合し、構造化されたスピーチプロンプト、オーディオ対応のコンディショニング、オプションのレイテントアップスケーリング、最終ショットアセンブラーを備えた生産ワークフロー用にMickmumpitz.aiによって構築されました。すぐに撮影可能なパイプラインが必要な場合、LTX 2.3 Movie Builder Workflowは最小限の手動設定で参照やスクリプトラインから完成したカットに到達します。
Comfyui LTX 2.3 Movie Builder Workflowの主要モデル#
- Lightricks LTX‑2.3 22B (transformer only, FP8): 画像からビデオ、テキストからビデオ生成に使用される主要なテキストからビデオのバックボーン。 Model
- LTX‑2.3 Distilled LoRA 384 1.1: LTX‑2.3サンプリングを高速化し安定化する蒸留ウェイト。 LoRA
- LTX‑2.3 Spatial Upscaler x2 1.1: よりクリーンで大きなビデオのためのオプションのレイテントアップスケーラー。 Model
- LTX‑2.3 Video VAE (BF16) and Audio VAE (BF16): LTXビデオとオーディオレイテントのためのVAE。 Video VAE · Audio VAE
- LTX‑2.3 ID LoRA TalkVid 3k: スピーキングアイデンティティと口の動きを改善するアイデンティティ対応のLoRA。 LoRA
- Gemma 3 12B IT + LTX‑2.3 Text Projection: LTXプロンプト用のテキストエンコーディングスタック。 Encoder · Projection
- FLUX.2‑klein‑9B FP8: スタートフレーム、プロップ、ルック開発のための高速画像ジェネレーター。 Model
- FLUX.2‑klein‑9B Consistency LoRA V2 and 360 ERP Outpaint LoRA: アセットの時間的安定性と広いコンテキストを向上させます。 Consistency · 360 ERP
- Flux2 VAE and Qwen 3 8B text encoder for FLUX: アセット作成パスで使用されるエンコーダー。 Flux2 VAE · Qwen 3 8B
- オプションの低VRAMパス: LTX‑2.3 GGUF 量子化UNet。 GGUF
Comfyui LTX 2.3 Movie Builder Workflowの使用方法#
概要: 映画の解像度とfpsを選択し、主人公の画像(顔/体)をロードし、オプションで声の参照を追加し、FLUXでスタートフレームを生成するか、独自の静止画を提供し、構造化されたプロンプトを書き、ショットをレンダリングします。新しいシーンのためにショットを複製し、アセンブラーで順序を再配置して最終映画をエクスポートします。
設定#
ビデオキャンバスとペースをLtxResolutionPicker(#13492)とFrame Rate(#13480)で設定します。グローバルサンプリングコントロールはSet_steps(#845)とSet_cfg(#851)にあり、アセット作成とLTXビデオ生成の両方に影響を与えます。静止画のみを反復している場合、ENABLE / DISABLE VIDEO GENERATION(#13715)バイパスを切り替えて時間を節約します。これらの設定は、各クリップがどれくらいの長さで実行され、最終タイムラインにどのように構成されるかを定義します。
LTXモデルの読み込み#
LTXスタックはUNETLoader(#13450)、2つのLoad Distilled LoRAノード(#10370、#10159)、キャラクターの一貫性のためのID LoRA LoraLoaderModelOnly(#10324)でロードされます。プロンプトはGemma + LTXプロジェクションを使用してDualCLIPLoader(#13451)によってエンコードされます。ビデオとオーディオのVAEはVAELoader(#13449)とVAELoader(#13832)を介してロードされ、オプションのレイテントアップスケーラーはLatentUpscaleModelLoader(#10349)で提供されます。グラフはこれらを再利用可能な"Get/Set"値として保存するため、すべてのショットが同じモデルパックを読みます。
FLUXモデルの読み込み#
スタートイメージの作成とルック開発のために、FLUXパスはConsistencyと360 ERP LoRA(LoraLoaderModelOnly #6228、#13261)を使用してUNETLoader(#1992)をロードします。テキストはQwenを使用してCLIPLoader(#362)でエンコードされ、画像はVAELoader(#360)でデコードされます。このステージは独立しているため、プロップ、環境、または設定ショットをLTXに渡す前に迅速に反復できます。
主人公画像の読み込み#
LoadImage(#4867、#1284)と必要に応じてコンパニオンセット(#13472、#13473)を使用して顔と体の参照を追加します。埋め込まれた"REMOVE BG"ツールチェーンにより、顔を自動クロップし、背景を削除してFACE、BODY、FACEBODYセット(Set_FACE #3093、Set_BODY #3291、Set_FACEBODY #1334)を生成します。クリーンな参照はショット全体でのアイデンティティの保持に不可欠です。
アセットクリエイター(オプション)#
ワークフローが正確なスタート静止画像を作成する場合、Text Prompt(#13442)に説明を書き、FLUXサンプラーKSampler(#13361)を実行します。生成されたフレームはOUT_01としてキャッシュされ、SaveImage(#13439)を介して保存され、必要に応じてColorMatch(#13478)を使用して参照と調和されます。これが続く画像からビデオへのパスのビジュアルアンカーになります。
オーディオ参照(オプション)#
LoadAudio(#10343)で声またはパフォーマンスのキューをロードし、TrimAudioDuration(#10344)でトリミングします;PreviewAudio(#10346)でプレビューします。オーディオはEnable Voice Reference(#13320)がオンのときにLTXVReferenceAudio(#13329)に渡され、口の形、フレージング、ジェスチャーのビートをガイドします。2番目の参照スロット(AUDIO REFERENCE 02)が利用可能で、反復中にテイクを比較または切り替えたい場合に使用できます。
ショット01#
各ショットは共有プールからモデルと設定を読み取り、アセット、プロンプト、およびオプションのオーディオをブレンドしてビデオを作成します。Text Prompt(#13384)に映画的な説明またはスピーチ駆動のプロンプトを入力します;最良の結果を得るために含まれるフォーマット[VISUAL] / [SPEECH] / [SOUNDS]を使用します。スタート静止画はLTXVPreprocess(#13308)で前処理され、LTXVImgToVideoInplace(#13289)でアニメーション化され、オーディオコンディショニングはLTXVReferenceAudio(#13329)によって提供されます(有効な場合)。パイプラインは二段階のサンプラー(SamplerCustomAdvanced #13316、#13331)を実行し、Enable Upscale(#13322)がオンの場合、LTXVLatentUpsampler(#13306)で詳細を洗練します。CreateVideo(#13310)はフレームとオーディオをミックスします;ShotVideoOutput(#13379)とVideo Output(#13393)を介してショットごとの出力を保存できます。
最終映画出力#
ヘルパーノードMickmumpitzShotOrder(#8230)とMickmumpitzShotDuplicator(#6357)でショットの順序を整理し、Video Output - Shot Assembler(#5598)でカットを組み立てます。アセンブラーはクリップをクロップして連結し、エクスポートのための単一のタイムラインを準備します。Video Output(#5521)で最終映画をレンダリングします。長編映画を作成するには、SHOT 01を複製し、プロンプトを調整し、入出力位置を調整し、再エクスポートします。
Comfyui LTX 2.3 Movie Builder Workflowの主要ノード#
LTXVImgToVideoInplace (#13289)#
高品質の静止画を時間的一貫性のあるビデオレイテントに変換し、アイデンティティと構成を維持します。FLUXで作成されたスタートや独自の参照を動きに変換するために使用します。Text Promptで明確なシーンの指示をペアにし、同じシードを使用して比較可能な代替品を得るときに使用します。
LTXVReferenceAudio (#13329)#
声や音楽ベッドからタイミングと音素のキューを注入し、スピーチとジェスチャーが自然に一致するようにします。[VISUAL]、[SPEECH]、[SOUNDS]を分けたプロンプトで最適に機能します。Enable Voice Referenceを切り替えて、オーディオガイドとプロンプト駆動の動きの間を切り替えます。
LTXVLatentUpsampler (#13306)#
LTX‑2.3 Spatial Upscalerを使用してレイテントスペースで詳細を洗練し、より鮮明なテクスチャとエッジを提供します。ショットがクローズアップやテキストオーバーレイとインターカットされる場合に有効にし、ルック開発中に迅速に反復するために無効にします。
ColorMatch (#13478)#
スタート静止画と参照出力の色を一致させ、シーン間の一貫性を維持します。複数のFLUX生成アセットを合成する場合や照明設定を混合する場合に役立ちます。
KSampler (#13361)#
ビデオステージのためのプロップ、ロケーション、ヒーロー静止画を作成するFLUXアセットジェネレーター。シーケンス全体で一貫したビジュアル言語を保つためにシードをロックし、テキストを微調整して小さなスタイルの変更を探求し、一貫性を損なわないようにします。
Video Output - Shot Assembler (#5598)#
個々のショットレンダリングを収集し、単一のカットとして出力します。シーンの順序を変更し、一貫してクロップし、映画を一度にエクスポートします。
オプションの付加機能#
- グラフのヒjson
ントに示されているプロンプト構造を使用してください: [VISUAL] シーンの説明、[SPEECH] 正確な言葉、[SOUNDS] 声のスタイルと雰囲気。これにより、LTXテキストとオーディオエンコーダーが協力しやすくなります。
- キャラクターのアイデンティティを安定させるために、顔と体の両方の参照を提供し、LTX‑2.3 ID LoRAを有効にします。
- 高速な反復のために、アップスケーラーとボイスリファレンスを無効にし、ショットの長さを短くし、ビデオバイパスを使用してスタートフレームのみを生成します。
- 低VRAMシステムでは、LTX‑2.3のGGUFビルドを試し、最終パスまで追加のLoRAをスタックしないようにします。 GGUF
- 新しいシーンのためにSHOT 01を複製し、ショット間でプロンプトを最小限に変化させ、シードを再利用して、カット間のトーンと照明をLTX 2.3 Movie Builder Workflow全体で安定させます。
謝辞#
このワークフローは、以下の作品とリソースを実装および活用しています。LTX 2.3 Movie Builder Workflow Sourceの貢献とメンテナンスに対して、Mickmumpitzに心から感謝いたします。詳細については、以下にリンクされたオリジナルのドキュメントとリポジトリを参照してください。
リソース#
- Mickmumpitz/LTX 2.3 Movie Builder Workflow Source
- Docs / Release Notes: mickmumpitz.ai/posts/new-video-free-i-157336696
注意: 参照されたモデル、データセット、およびコードの使用は、著者およびメンテナによって提供されたそれぞれのライセンスおよび条件に従います。

