LTX 2.3 MSR マルチサブジェクトアイデンティティビデオワークフロー for ComfyUI#
このワークフローは、LTX 2.3 MSRを使用して、複数のキャラクターまたはオブジェクト参照を単一の一貫した、物語準備完了のビデオに変換します。LTX‑2.3オーディオビジュアルモデルを活用して、複数のサブジェクト間でアイデンティティを保持しながら、動き、シネマトグラフィー、同期されたサウンドを生成します。クリエイターは最大4つのサブジェクト画像と背景を組み合わせ、ダイアログ、グループショット、ダイナミックなライフスタイルシーケンスのプロンプトでシーンをガイドできます。
ストーリーテラー、広告主、ソーシャルクリエイター向けに構築されたこのグラフは、参照をMSRガイドに組み立て、イメージコンディションのLoRAパスを介してアイデンティティを注入し、オーディオビジュアル潜在をサンプリングしてフレームとオプションのオーディオにデコードします。LTX 2.3 MSRはアイデンティティの忠実性のアンカーであり、残りのパイプラインは構成、動きのガイダンス、エクスポートを処理します。
Comfyui LTX 2.3 MSRワークフローの主要モデル#
- LTX‑2.3 22B distilled (1.1) by Lightricks。動き、ビジュアル、同期されたオーディオを生成する基本的なオーディオビジュアル基盤モデル。WeightsはHugging FaceのLTX‑2.3で公開されています。 Lightricks/LTX-2.3
- Gemma 3 12B Instructテキストエンコーダー (fp4 mixed)。LTXスタックのプロンプトエンコーディングに使用され、生成のためのコンディショニングシグナルにテキストを翻訳します。ComfyUI用のLTXアセットとパッケージされています。 Comfy-Org/ltx-2
- LTX 2.3 MSR LoRA (Licon MSR V1)。LTX‑2.3用に特化されたマルチサブジェクトリファレンスLoRAで、一度に複数のアイデンティティをロックし、クリップ全体で顔、衣服、オブジェクトの特徴を安定させます。 liconstudio/ComfyUI-Licon-MSR
- LTX‑2 Audio VAE。LTX‑2.xアセットで同期されたサウンドを生成または添付する際に使用される潜在オーディオ空間とデコードを提供します。 Comfy-Org/ltx-2
Comfyui LTX 2.3 MSRワークフローの使用方法#
このグラフには3つのフェーズがあります:参照からMSRガイドを構築し、マルチイメージガイダンスとプロンプトでビデオ潜在をコンディションし、それからサンプルしてフレームとオーディオにデコードします。
- Comfig
- 設定ノードでキャンバスの
width、height、合計frames、fpsを設定します。これらは空のビデオとオーディオ潜在を供給し、エクスポート段階を保ち、コンディショニングから最終レンダリングまでのタイミングを一貫させます。 - あなたのストーリーに合ったアスペクトと期間を選択します。フレーム数が多いと動きの連続性が向上しますが、VRAMと実行時間も増加します。
- 設定ノードでキャンバスの
- Reference loaders
- 最大4つのサブジェクト画像(
img1、img2、img3、img4)と背景(bg)をロードします。これらはrefimg1..4およびrefbgゲッターにマッピングされ、ソースを再配線せずにすばやく交換できます。 - 明確でよく照らされた画像を使用し、サブジェクトが中央に配置され、遮られないようにします。保持したい衣服や小道具がある場合は、少なくとも1つの参照で見えるようにしてください。
- 最大4つのサブジェクト画像(
- MSR composer
LiconMSR(#28)はサブジェクト参照と背景を単一のMSRイメージ出力に組み立てます。これがLTX 2.3 MSRの視覚的アイデンティティの青写真となり、サンプリング前に顔の特徴、服装、オブジェクトの詳細を整列させます。- 小さな
VHS_VideoCombine(#66)は、MSR出力からクイックな低FPSプレビューを作成し、フルレンダリングを実行する前に構成を確認できます。
- Multi‑guide conditioning
LTXVAddGuideMulti(#108)は、最大5つの画像(4つのサブジェクトプラス背景)をポジティブおよびネガティブプロンプトとともに取り込んで、空間および外観のガイダンスを備えた初期ビデオ潜在を生成します。- ポジティブプロンプトテキストはシーン、カメラ、雰囲気を説明し、ネガティブテキストはアーティファクトやスタイル外の外観を避けます。
LTXVConditioning(#7)はfpsを添付し、動きのタイミングがエクスポータと一致するようにします。
- LoRA identity control
- LTX 2.3 MSR LoRAはモデルにロードされ、
LTXAddVideoICLoRAGuide(#9)はMSRイメージを使用してイメージコンディションのLoRAパスを適用します。これにより、フレーム全体でアイデンティティを強化しながら動きを固定しません。 - この段階を使用して、自然な動きと表現の自由を持ちながらアイデンティティの強度をバランスさせます。
- LTX 2.3 MSR LoRAはモデルにロードされ、
- Sampling
- サンプラースタックは
CFGGuider(#37)、KSamplerSelect(#13)、ManualSigmas(#27)、RandomNoise(#15)を使用してSamplerCustomAdvanced(#16)を供給します。結果は、参照、プロンプト、およびMSR制約を反映した共同オーディオビジュアル潜在です。 - 新しいバリエーションが必要な場合は、ノイズシードまたはサンプラーを変更し、参照とMSR設定を固定して一貫性を保ちます。
- サンプラースタックは
- Crop guidance and decode
LTXVCropGuides(#17)は、ターゲットフレームサイズにビデオ潜在を調整し、不要なトリムを避けます。その後、ビデオとオーディオ潜在はLTXVSeparateAVLatent(#24)によって分割されます。VAEDecode(#38)はビデオ潜在をフレームに変換し、LTXVAudioVAEDecode(#25)はオーディオを再構築します。
- Export
VHS_VideoCombine(#96)はフレームとオプションのオーディオをH.264 MP4に組み立て、選択したfpsを使用し、filename_prefixを使用して最終ビデオを作成します。これはLTX 2.3 MSRワークフローによって生成された最終ビデオです。
Comfyui LTX 2.3 MSRワークフローの主要ノード#
LiconMSR (#28)#
1〜4つのサブジェクト参照と背景を単一のMSRガイドに組み立てます。構成されたガイドと最終フレームが整列するようにターゲットキャンバスに合わせてwidthとheightを設定します。アイデンティティのドリフトが見られる場合は、入力参照を見直すか、キーサブジェクトがソース画像にどれだけ目立っているかを増やします。
LTXVAddGuideMulti (#108)#
複数のガイダンス画像とプロンプトを組み合わせて初期ビデオ潜在を形成します。ヒーローサブジェクトをわずかに優先して、どの参照がシーンを支配するかを優先します。安定した環境とシーンのジャンプを減らすために背景ガイダンスをアクティブに保ちます。
LTXAddVideoICLoRAGuide (#9)#
構成されたMSRイメージを使用してイメージコンディションのMSR LoRAを注入します。顔、衣装、または小道具のアイデンティティ保持を強化するためにstrengthを増やし、動きが制約されすぎると感じる場合は減少させます。作物の選択は、サブジェクトがフレーム内で最も頻繁に表示される場所を反映するべきです。
CFGGuider (#37)#
サンプラーがプロンプトに従う強さを制御します。cfgが高いほど、テキストの意図への忠実度が向上しますが、バリエーションが減少する可能性があります。中程度の値は自然な外観を保ちながらMSRガイダンスを尊重します。
SamplerCustomAdvanced (#16)#
選択したサンプラー、シグマ、ノイズシードを使用してデノイズプロセスを実行します。EulerまたはDPMスタイルのサンプラーはLTX‑2.3とよく連携します。同じ参照を維持してアイデンティティを保持しながら、シードを探索して代替案を見つけます。
VHS_VideoCombine (#96)#
オプションのオーディオを使用して最終的なMP4を構築します。コンディショニングステージに合わせてframe_rateを一致させ、バージョン管理のために明確なfilename_prefixを設定します。このノードのプレビューを使用して、共有前にペースとアイデンティティの一貫性を確認します。
オプションの追加#
- 中立的で正面を向いた角度で最小限の遮蔽を備えた参照を準備します。複雑なヘアスタイルやアクセサリーのために2つ目の角度を追加します。
- 衣装や小道具の参照を十分に大きくして、テクスチャやロゴが見えるようにします。ソース画像での激しいモーションブラーを避けてください。
- アイデンティティが完璧だが動きが硬い場合、LTX 2.3 MSRステージでLoRAガイドの強度をわずかに下げ、動きのプロンプトキューを追加します。
- 長いストーリーの場合、
framesを増やし、タイミングを保つためにfpsを一定に保ちます。スナッピーな編集の場合、fpsを上げてframesを短縮します。 - 照明と視点が意図したシーンに似た背景参照を使用して、一貫性のない点を減らします。
謝辞#
このワークフローは、以下の作品とリソースを実装し、それを基に構築されています。LTXプロジェクトのLTX 2.3 MSR(マルチサブジェクトリファレンス)ワークフローへの貢献とメンテナンスに感謝します。権威ある詳細については、以下のリンクされた元のドキュメントとリポジトリを参照してください。
リソース#
- LTX/LTX 2.3 MSRワークフローソース
- ドキュメント / リリースノート: RunningHub post
注: 参照されるモデル、データセット、およびコードの使用は、それぞれの作者およびメンテナーによって提供されるライセンスおよび条件に従います。

