Stable Video Infinity 2.0 ComfyUI ワークフローによる長く一貫した画像からビデオへの変換(Wan 2.2)
このワークフローは、単一の画像を長く、ストーリー駆動のビデオに変換し、アイデンティティ、動きの流れ、シーンの一貫性を維持します。Wan 2.2 I2V A14BモデルとStable Video Infinity 2.0 LoRAを組み合わせることで、短いクリップの限界を超えて時間的連続性を拡張します。このパイプラインは、モーションラテントを次のセクションに引き継ぐ5つのパスとして構成されており、オーバーラップブレンディングでトランジションを滑らかにし、すべてをまとめる最終レンダーを行います。
拡張アニメーション、ナラティブビート、シネマティックAIビデオを必要とするクリエイターは、Stable Video Infinityがシーンの進化に伴ってキャラクターとスタイルを安定させ続けることを発見するでしょう。クイックレビュー用の中間パスビデオと、ComfyUIグラフから直接生成された最終マスターレンダーを取得できます。
Comfyui Stable Video Infinity ワークフローの主要モデル
- Wan 2.2 I2V A14B UNetペア(HighNoiseとLowNoise)、量子化されたGGUFバリアント。これらは画像ラテントからモーションを生成し、探索とディテールの洗練をバランスさせるために交互に使用されます。ソース: Comfy-Org/Wan_2.2_ComfyUI_Repackaged。
- Stable Video Infinity 2.0 LoRA for Wan 2.2 I2V A14B、HIGHおよびLOWバリアントで提供され、2つのUNetに一致します。長いシーケンスの時間的一貫性を拡張します。ソース: Kijai/WanVideo_comfy – Stable-Video-Infinity v2.0。
- WanテキストエンコーダーUMT5 XXL。パスごとのプロンプトをビデオジェネレーターのコンディショニングにエンコードします。ソース: Comfy-Org/Wan_2.1_ComfyUI_repackaged。
- Wan 2.1 VAE。開始画像をラテントスペースにエンコードし、各パスのフレームを画像にデコードします。ソース: Comfy-Org/Wan_2.2_ComfyUI_Repackaged – VAE。
- オプションのWan 2.2 LightX2V LoRAセット(HighNoiseおよびLowNoise)。これらの補助LoRAは、サンプリング中にStable Video Infinityを補完します。ソース: Comfy-Org/Wan_2.2_ComfyUI_Repackaged – loras。
Comfyui Stable Video Infinity ワークフローの使用方法
このワークフローは、単一の参照画像を取り込み、選択した解像度で準備し、5つの連続パスを実行します。各パスはStable Video Infinityを使用してセグメントを生成し、前のセグメントとのオーバーラップを数フレームブレンドし、そのモーションラテントを次のパスに引き継ぎます。各パスをMP4としてプレビューし、最終的なステッチレンダーを生成することもできます。
グループ: モデル
このグループは、Wan 2.2 I2V A14B UNetペア、Wan VAE、およびUMT5 XXLテキストエンコーダーをロードします。次に、LightX2V LoRAセットとStable Video Infinity 2.0 LoRAをHighNoiseおよびLowNoiseの両方のブランチに適用し、すべてのパスが同じ機能を共有するようにします。LoRAの強さを調整する場合は、スタイルや動作のドリフトを避けるために、HighNoiseとLowNoiseの両方のブランチをバランスさせてください。
グループ: プロンプト
プロンプトは各パスごとに作成され、ナラティブビートを作成します。ポジティブプロンプトは5つのCLIPTextEncodeノード(例: CLIPTextEncode (#93, #152, #284, #297, #310))に配置されます。ネガティブプロンプトは一般的な品質フィルターで事前に埋められ、CLIPTextEncode (#89, #157, #279, #293, #306)で編集可能です。被写体の説明をパス全体で一貫させ、アクション動詞やカメラキューのみを変えることで、シーンの進化を維持しながらアイデンティティを保持します。
入力画像と解像度
LoadImage (#97)で単一の参照画像をロードし、Resolution (LayerUtility: ImageScaleByAspectRatio V2 (#398))で目標アスペクトに合わせてスケーリングします。画像はVAEEncode (#135)でラテントにエンコードされ、実行全体でアイデンティティを安定させるためのアンカーラテントも確立されます。入力やアスペクト比を変更する場合は、パスを実行する前に再エンコードしてください。
パス1 - シーンを確立
WanImageToVideoSVIPro (#134)は、最初のパスプロンプトとアンカーラテントを使用してモーションを生成します。2つのサンプラー、KSamplerAdvanced (#277 for HighNoise, #278 for LowNoise)は、動きを探索しディテールを洗練するために協力します。結果はVAEDecode (#87)でデコードされ、VHS_VideoCombine (#126)を介してMP4としてプレビューされます。このパスを使用して、Stable Video Infinityが引き継ぐ被写体、照明、全体のスタイルを設定します。
パス2 - アクションを続行
WanImageToVideoSVIPro (#160)は、Pass 1からprev_samplesを受け取り、視覚的なジャンプなしに動きを拡張します。同じ二段階のサンプリングパターンがKSamplerAdvanced (#276 HighNoise, #275 LowNoise)を通して実行され、フレームはVAEDecode (#162)でデコードされます。ImageBatchExtendWithOverlap (#168)がPass 1の最後尾と短いオーバーラップをブレンドしてシームを隠し、VHS_VideoCombine (#167)がセグメントプレビューを書き込みます。
パス3 - 中間シーケンスの拡張
WanImageToVideoSVIPro (#290)はPass 2のラテントから続き、同じデュアルサンプラーの洗練をKSamplerAdvanced (#291, #287)で行います。VAEDecode (#282)でデコード後、ImageBatchExtendWithOverlap (#292)が新しいフレームをタイムラインに追加します。プロンプトを更新して微細なアクションを進化させながら、被写体の用語を同一に保ちます。
パス4 - ビートに向けて構築
WanImageToVideoSVIPro (#305)はPass 3からバトンを受け取り、再びHighNoiseとLowNoiseのサンプラーKSamplerAdvanced (#303, #300)を使用します。VAEDecode (#295)とImageBatchExtendWithOverlap (#304)が連続シーケンスを生成し、VHS_VideoCombine (#296)を介してプレビュー可能です。このパスを使用してカメラの動きや二次アクションを追加し、アイデンティティを保持するために説明を安定させます。
パス5 - 解決とレンダー
WanImageToVideoSVIPro (#318)はストーリーを完結し、KSamplerAdvanced (#316, #313)にフレームを引き渡して洗練します。VAEDecode (#308)でデコード後、ImageBatchExtendWithOverlap (#317)でフレームが追加されます。VHS_VideoCombine (#319)が最終的なステッチMP4を生成します。frame_rateとfilename_prefixを調整して配信に適したものにします。
Comfyui Stable Video Infinity ワークフローの主要ノード
WanImageToVideoSVIPro (#134)
このノードは、アンカーラテントとプロンプトをモーションラテントに変換し、以前のパスから続行するためにprev_samplesを受け入れることができます。lengthを使用してパスが生成するフレーム数を定義し、motion_latent_countで新しいモーションエネルギーの導入量を制御します。prev_samplesをフィードしてパスを連鎖させることが、Stable Video Infinityがポップせずに長いシーケンスを構築する方法です。
KSamplerAdvanced (#276)
各パスは、最初に探索し、その後ディテールを統合するためにHighNoiseサンプラーとLowNoiseサンプラーをペアにします。ワークフローはstepsと二次分割制御を公開しており、パス予算が2つの間でどのように分配されるかを決定できます。引き継ぎ時のちらつきを避けるために、分割を一貫させてください。
ImageBatchExtendWithOverlap (#168)
このユーティリティは、前のパスの最後尾フレームの少数と新しいパスの先頭をブレンドします。overlapを調整し、シームを隠しながら動きの方向を維持するためにモードを滑らかなブレンドに保ちます。Stable Video Infinityセグメントが一つの連続したテイクのように感じられるようにするための鍵です。
VHS_VideoCombine (#319)
デコードされたフレームをMP4に組み立て、プレビューと最終レンダーの両方を提供します。frame_rate、format、crfを調整して配信目標とファイルサイズに合わせます。プレビューを最終出力と区別するために、異なるfilename_prefix値を使用してください。
LoraLoaderModelOnly (#141, #142)
Stable Video Infinity 2.0 LoRAバリアントをWan 2.2 UNetペアに適用します。strength_model制御により、LoRAがモーションと一貫性をどの程度強く誘導するかを微調整できます。HIGHおよびLOWブランチを揃えて、両方のサンプラーが同様にプロンプトを解釈するように保ちます。
オプションの追加事項
- すべての5つのプロンプトで被写体の説明を一定に保ち、動詞やカメラのヒントのみを変えることでアイデンティティを保持します。
- 動きがあまりにも控えめに感じられる場合は、プロンプトを大幅に書き換えるのではなく、次のパスで
motion_latent_countを少し上げてください。 - パス間でディテールが揺れる場合は、HighNoiseの
stepsのシェアを減らすか、両方のブランチでLoRAの強度を均一に下げてください。 - 速いアクションには短いオーバーラップを使用し、遅く微妙なシーンには長いオーバーラップを使用して、シームを隠すことと実行時間をバランスさせます。
- クイックカットダウンの場合は、アイデンティティと動きを確認するためにPass 1とPass 3のプレビューのみをレンダリングし、フルランにコミットする前に確認してください。
謝辞
このワークフローは、以下の作品やリソースを実装し、構築しています。Stable-Video-Infinity v2.0 (SVI 2.0)の貢献とメンテナンスに感謝し、Kijaiに感謝の意を表します。権威ある詳細については、以下にリンクされたオリジナルのドキュメントとリポジトリを参照してください。
リソース
- Kijai/Stable-Video-Infinity v2.0 (SVI 2.0)
- Hugging Face: SVI 2.0 Source
注: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者およびメンテナーによって提供されたライセンスおよび条件に従います。
