LTX 2.3 Sulphur 2 テキストからビデオへのワークフローによるシネマティックキャラクターアニメーション#
この ComfyUI パイプラインは、Lightricks LTX‑2.3 と Sulphur 2 コンポーネントを中心に構築され、自然言語のプロンプトを短く、シネマティックでキャラクターに焦点を当てたビデオに変換します。モーションプランニングのために低解像度で生成を行い、潜在シーケンスをアップスケールし、高解像度でのデコード前にフレームを精緻化し、同期された音声トラックをマージします。
LTX 2.3 Sulphur 2 テキストからビデオへのワークフローは、迅速なキャラクターアニメーションのテスト、D‑Human スタイルのモーションコンセプト、洗練されたテキストからビデオへの実験に最適です。画像からビデオへの入力やプロンプトの中継に依存せず、すべてがテキストから始まり、LTXV コンディショニングがビデオと音声の潜在をエンドツーエンドでガイドします。
Comfyui LTX 2.3 Sulphur 2 テキストからビデオへのワークフローの主要モデル#
- Lightricks LTX‑2.3。時空間合成およびマルチモーダル AV 潜在を使用するコアテキストからビデオへのジェネレーター。能力と制限に関するメモと重みについては、公式モデルリポジトリを参照してください。 Hugging Face: Lightricks/LTX-2.3
- Lightricks LTX‑2.3 FP8 チェックポイント。メモリエフィシェントな LTX‑2.3 のバリアントで、推論を高速化し、制約された GPU でより長いクリップや高解像度を可能にします。 Hugging Face: Lightricks/LTX-2.3-fp8
- Sulphur 2 ベースモデル。このワークフローで LoRA を介してスタイルプライヤーとキャラクターディテールを提供し、鮮明な顔とシネマティックなトーンを実現します。 Hugging Face: SulphurAI/Sulphur-2-base
- LTX‑2.3 スペーシャルアップスケーラー x2 1.1。高解像度の精緻化パス前に空間的な詳細を増加させる潜在空間アップスケーラー。 Hugging Face: Lightricks/LTX-2.3 file ltx-2.3-spatial-upscaler-x2-1.1.safetensors
- LTX テキストエンコーダー (Gemma 3 12B IT for LTX)。LTX‑2.3 コンディショニングに合わせたテキスト埋め込み空間を提供し、プロンプトを忠実にフォローします。 Hugging Face: Comfy-Org/ltx-2
- LTX Audio VAE。最終レンダリングが同期されたサウンドトラックを含むように、ビデオと一緒に生成された音声潜在をデコードします。 Hugging Face: Lightricks/LTX-2.3
Comfyui LTX 2.3 Sulphur 2 テキストからビデオへのワークフローの使用方法#
全体のロジック このパイプラインは3つのアクトで実行されます:動きと構成を確立するための低解像度生成、空間的詳細を増加させるための潜在アップスケーリング、そして最終音声をも生み出す高解像度精緻化パスです。潜在はフレームと波形にデコードされ、配信準備が整った MP4 コンテナにマージされます。
ビデオ設定 "Video Settings" グループを使用して、幅、高さ、フレームレート、および持続時間を定義します。フレーム数は、持続時間と fps から自動的に計算されるため、タイミングとテンポが一貫しています。これらの値は潜在割り当てとデコードを駆動するため、ターゲットのアスペクト比と実行時間に合わせて最初に設定します。ここで fps を調整すると、コンディショニングにも情報が伝達され、モーションの滑らかさと音声の同期が同じクロックを使用します。
プロンプト "Prompt" では、LTXAVTextEncoderLoader (#316) で LTX テキストエンコーダーを読み込み、CLIPTextEncode (#303) でポジティブな説明を書き、CLIPTextEncode (#312) で不要な特性を指定します。ノード LTXVConditioning (#304) はポジティブとネガティブのコンディショニングをマージし、選択したフレームレートを追加して、時間的ガイダンスが fps に一致するようにします。ポジティブプロンプトをショートブリーフのように扱い、被写体、カメラ、ライティング、ムード、スタイルの手がかりにします。ネガティブリストは、定期的に目にするアーティファクトに焦点を合わせ、削除したいものに集中します。
モデル "Model" グループは、CheckpointLoaderSimple (#315) を介してメインチェックポイントをロードし、LoraLoaderModelOnly (#285) で Sulphur 2 LoRA を適用してシネマティックなテクスチャとキャラクターの忠実性を注入します。これにより、全体の外観とモーションプライヤーを変更するためにチェックポイントや LoRA を交換できます。モデルの出力は、初期および精緻化ガイダンスの両方にルーティングされ、スタイルとアイデンティティがパス全体で一貫しています。LTX‑2.3 と Sulphur 2 の組み合わせにより、パンチの効いたコントラストとモーションでよく読める詳細な顔が得られます。
数値変換 ユーティリティの式が fps と秒を整数フレーム数に変換し、下流で使用されます。これにより、音声とビデオのタイムラインが手動の数学なしで一致します。後で fps または持続時間を修正した場合、グラフは依存ノードを自動的に更新します。
空の潜在 "Empty Latent" は生成用の整列したコンテナを作成します:EmptyLTXVLatentVideo (#295) はビデオ潜在の空間サイズと長さを定義し、LTXVEmptyLatentAudio (#305) は同じフレームレートで音声潜在を割り当て、LTXVConcatAVLatent (#321) がそれらを単一の AV 潜在にマージします。空の潜在から始めることで、ディフュージョンパスが既存のコンテンツではなく、プロンプトとコンディショニングを完全に反映します。
低解像度生成 最初のサンプリングステージは、低コストで動きと構成を確立します。CFGGuider (#313), KSamplerSelect (#291), および ManualSigmas (#306) がプロンプトが生成をどれだけ強く導くかと全体のノイズスケジュールを管理します。SamplerCustomAdvanced (#283) が AV 潜在を一貫したクリップにデノイズします。結果は LTXVSeparateAVLatent (#307) によって分割され、LTXVCropGuides (#284) が空間的な注目を精緻化して、後でアップスケーリング中に希望する被写体のフレーミングが維持されるようにします。
潜在アップスケール LTXVLatentUpsampler (#287) は、LTX‑2.3 x2 アップスケーラーを使用して空間的な詳細を上げ、速度と安定性を保ちながら潜在空間に留まります。アップスケールされたビデオ潜在を前方にフィードすることで、テクスチャと読みやすさを改善し、高解像度の精緻化の前にモーションを保持します。これにより、最初のパスで気に入った動きを維持しながら、よりシャープなエッジと豊かな素材のための空間が開かれます。
高解像度生成 アップスケールされたビデオ潜在は LTXVConcatAVLatent (#278) で音声潜在と再結合され、最終的な品質のために再びガイドされます。CFGGuider (#282), KSamplerSelect (#280), および ManualSigmas (#281) がプロンプトの強度、詳細、および時間的一貫性に関する最終的な言葉を提供し、SamplerCustomAdvanced (#308) が精緻化された AV 潜在を生成します。LTXVSeparateAVLatent (#309) がビデオを VAEDecodeTiled (#314) に渡して、メモリに優しいフレームデコードを行い、音声を LTXVAudioVAEDecode (#297) に渡して、波形を再構築します。CreateVideo (#310) がフレームと音声をターゲット fps でマージし、SaveVideo (#75) が MP4/H.264 ファイルを書き出します。
画像前処理 このエリアは、ベース VAE とアップスケーラーモデルをルーティングし、タイル化と潜在アップスケーリングが VRAM の予算内で機能するようにします。メモリのプレッシャーを感じる場合は、FP8 LTX‑2.3 の重みを優先し、タイル化されたデコードを有効にしてスループットと品質を維持します。
Comfyui LTX 2.3 Sulphur 2 テキストからビデオへのワークフローの主要ノード#
LTXVConditioning (#304) ポジティブとネガティブのテキストコンディショニングをマージし、作業フレームレートを添付して、時間的ガイダンスがレンダリングに一致するようにします。強力で具体的なシーン言語がショットの構造を改善し、簡潔なネガティブがアーティファクトを減少させます。コンディショニングのメモについては、LTX‑2.3 モデルカードを参照してください。 Hugging Face: Lightricks/LTX-2.3
LTXVCropGuides (#284) 意図したようにメインの被写体をフレーム内に保つために構成を柔軟に導きます。アップスケーリングと精緻化の前に顔のサイズ、地平線の配置、または中心に配置された被写体を保護するために使用します。特に対話スタイルのショットや中距離のクローズアップに役立ちます。
CFGGuider (#313, #282) プロンプトがディフュージョントラジェクトリーにどれだけ積極的に影響を与えるかを制御します。最初のガイダーを使用して動きと構成を固定し、次に二番目のガイダーを使用してシャープさを追加しながら、確立されたショットから離れないようにします。
ManualSigmas (#306, #281) ノイズスケジュールを定義します。より多くのノイズをフロントロードすることで、より大きな動きの探索を促進し、穏やかなスケジュールは時間的一貫性を強調します。低解像度と高解像度のスケジュールを補完的に保ち、同一にしないようにします。
LTXVLatentUpsampler (#287) 公式の LTX アップスケーラーを使用して x2 潜在アップスケーリングを行い、精緻化サンプラーの前に詳細を取得します。別の LTX‑2.3 アップスケーラーバリアントに切り替えると、シャープネスと粒度がわずかに変わる可能性があります。 Hugging Face: Lightricks/LTX-2.3
VAEDecodeTiled (#314) 長いまたは大きなクリップを管理可能なタイルでデコードして、VRAM スパイクを回避します。空間サイズやクリップの長さを変更する場合は、タイル化を調整してメモリの余裕とデコード速度をバランスさせます。
LoraLoaderModelOnly (#285) ベースモデルパスに Sulphur 2 LoRA を適用して、キャラクターの忠実性とスタイルの手がかりをサンプリングステージに転送します。これを使用して、同じ LTX‑2.3 バックボーンを保持しながら外観を迅速に切り替えます。 Hugging Face: SulphurAI/Sulphur-2-base
オプションのエクストラ#
- シード制御: 両方の
RandomNoiseノードに固定値を設定して、テイクを再現可能にし、一つのシードを変更して代替を探索します。 - プロンプト: ショットディレクション(被写体、カメラ、ライティング、ムード)としてプロンプトを書きます。ネガティブリストは焦点を絞り短く保ちます。
- パフォーマンス: VRAM が制限されている場合は、FP8 LTX‑2.3 の重みを優先し、タイル化されたデコードを有効に保ちます。
- 出力: グラフは MP4/H.264 を書き出します。
SaveVideoでコンテナまたはコーデックを変更して、json
ProRes プロキシワークフローが必要な場合は、SaveVideo でコンテナまたはコーデックを変更します。
この LTX 2.3 Sulphur 2 テキストからビデオへのワークフローは、プロンプトから洗練されたビデオまでのクリーンでエンドツーエンドのパスを提供し、同期された音声を含み、シネマティックキャラクターアニメーションの迅速な反復を可能にします。
謝辞#
このワークフローは、以下の作品とリソースを実装し、構築しています。Sulphur2 ベーシックワークフロー for ビデオプロダクションの RunningHub、SulphurAI の Sulphur-2-base モデル、Lightricks の LTX-2.3 および LTX-2.3-fp8 モデル、Comfy-Org の LTX-2 テキストエンコーダーの貢献とメンテナンスに感謝します。権威ある詳細については、以下にリンクされている元のドキュメントとリポジトリを参照してください。
リソース#
- RunningHub/Sulphur2 Basic Workflow for Video Production
- ドキュメント / リリースノート: Sulphur2 Basic Workflow for Video Production
- SulphurAI/Sulphur-2-base
- Hugging Face: SulphurAI/Sulphur-2-base
- Lightricks/LTX-2.3
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
- Lightricks/LTX-2.3-fp8
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3-fp8
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
- Comfy-Org/ltx-2
- Hugging Face: Comfy-Org/ltx-2
注: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者および管理者によって提供されるライセンスおよび条件に従います。

