Wan 2.2 VBVR in ComfyUI: 推論対応の画像からビデオ生成
ComfyUIにおけるWan 2.2 VBVRは、Wan 2.2画像からビデオへのビジュアル推論をもたらすプロダクション対応のワークフローです。標準のWan 2.2 Mixture-of-Expertsパイプラインを推論調整されたモデルパスとオプションのVBVR LoRAパスで拡張し、ビデオがオブジェクト、アクション、因果イベントを強力な時間論理とシーンの一貫性で追跡できるようにします。
クリエイティブディレクション、シミュレーション、物語の要素が必要な美しいフレーム以上のものを必要とするこのComfyUIワークフローは、複雑なプロンプトを構造化された動きと複数オブジェクトの相互作用に整合させます。純粋なVBVRモデルルートを選択するか、Wan 2.2にVBVRと動きのLoRAをレイヤーとして追加して速度を向上させ、編集可能なMP4をエクスポートすることができます。
Comfyui Wan 2.2 VBVRワークフローの主要モデル
- Wan2.2-I2V-A14B (MoEバックボーン)。高ノイズと低ノイズフェーズに特化した2つのエキスパートがあり、デノイズ中にSNRで切り替え、追加のステップごとのコストなしで高い容量を提供します。これはワークフローが拡張しブレンドする主要なジェネレーターです。 モデルカード • 技術詳細
- VBVR-Wan2.2。Wan2.2-I2V-A14Bを大規模なビデオ推論スイートで微調整し、時間的、因果的、マルチオブジェクト推論を改善しながらアーキテクチャを変更せずに利用します。最強の推論整合性を望むときに使用します。 モデルカード • 論文
- Wan 2.x VAE。480p–720pワークフロー向けにフレームを効率的に再構築する高圧縮ビデオオートエンコーダーで、Wan 2.2は高速な720p生成を可能にする圧縮設計を説明します。 概要
- uMT5-XXLテキストエンコーダー。Wan 2.2テキストおよび画像からビデオへのパイプラインのプロンプト埋め込みを派生するために使用される堅牢な多言語T5ファミリーエンコーダー。 モデルカード
- Wan 2.2の動きと推論LoRA。ワークフローは推論バイアスのためにVBVR LoRAをロードし、より強い動きの振幅とカメラの動きを実現するLightX2Vステップ蒸留LoRAをロードできます。 VBVR LoRA例 • LightX2Vコレクション
Comfyui Wan 2.2 VBVRワークフローの使用方法
このワークフローは3つの補完的なルートを提供します。各ルートはプロンプトとオプションの開始画像からビデオ出力まで自己完結しているため、すべてのルートをテストして最良のテイクを保持できます。
- VBVRモデルルート
- 目的。最強のビデオ推論を望むときに使用します。高SNRと低SNRのペアのVBVR校正Wan 2.2モデルを実行し、「レイアウト」ステージと「詳細」ステージの間でデノイズスケジュールを分割します。
- 仕組み。高ノイズステージはまず
WanVideoSampler(#173)で実行され、次にその潜在データが低ノイズステージWanVideoSampler(#172)に流れ、動きの論理と詳細を洗練します。切り替えはサンプラーのstart_stepとend_stepで制御され、Wan 2.2のSNRゲートエキスパートの引き継ぎを反映します。 - 設定。
LoadImage(#67)を介して必要に応じて開始画像を提供し、エンコーダーに供給されるWanVideoTextEncode(#170)の近くのTextノードにプロンプトを書きます。サンプラーの隣の小さな整数ノードでフレーム数を調整します(Int(#168))。 - 出力。フレームは
WanVideoDecode(#164)でデコードされ、VHS_VideoCombine(#176)でMP4として組み立てられます。
- Wan 2.2 + PainterI2Vルート
- 目的。映画的な動きのための迅速で一般的なパスです。標準のWan 2.2 I2Vモデルを保持しながら、
PainterI2VforKJで画像の条件付けを強化し、4ステップLoRAに共通するスローモーションアーティファクトを修正します。 - 仕組み。開始画像はモデル用にリサイズされ、
PainterI2VforKJ(#181)で埋め込まれ、その後WanVideoSampler(#129, #130)でサンプリングされます。このルートはVBVRと同様に高ノイズと低ノイズの引き継ぎを使用しますが、標準のWan 2.2ウェイトを使用します。 - 設定。
WanVideoTextEncode(#152)を供給するTextノードにプロンプトを入力します。LightX2V LoRAをチェーンする場合、このルートの条件付けにより動きがより意図的に感じられます。ノードのreadmeでその設計目標を参照してください。 PainterI2VforKJ - 出力。フレームは
WanVideoDecode(#142)でデコードされ、VHS_VideoCombine(#154)で保存されます。
- 目的。映画的な動きのための迅速で一般的なパスです。標準のWan 2.2 I2Vモデルを保持しながら、
- Wan 2.2 + VBVR LoRAルート
- 目的。迅速なイテレーションのためのハイブリッドです。高ノイズWan 2.2モデルにVBVR LoRAをレイヤーとして追加し、低ノイズモデルに動きのLoRAを追加し、早期に推論の刺激を与え、後期にクリーンな動きの仕上げを行います。
- 仕組み。高ノイズストリームは
WanVideoSampler(#27)を通じて実行され、低ノイズストリームはWanVideoSampler(#90)を通じて実行されます。両方ともWanVideoTextEncode(#16)からのテキスト埋め込みとPainterI2VforKJ(#179)からのオプションの画像条件付けを受け取ります。LoRAはステージごとに適用され、エキスパートの役割に一致します。 - 設定。
WanVideoTextEncode(#16)の近くのTextノードにプロンプトを入力し、必要に応じて「Split_step」とラベル付けされた近くの整数ウィジェットでステージ分割を調整します。このグループのLoRAノードからVBVRとLightX2V LoRAを選択可能です。 VBVR LoRA - 出力。フレームは
WanVideoDecode(#28)を通じてデコードされ、VHS_VideoCombine(#60)を通じてエクスポートされます。
Comfyui Wan 2.2 VBVRワークフローの主要ノード
WanVideoModelLoader(#165, #162)- 初期と後期のデノイズエキスパートにマッピングされるVBVR校正済み高SNRおよび低SNR Wan 2.2モデルをロードします。ペアを一貫して維持し、SNRベースの引き継ぎが安定しているようにします。Wan 2.2のMoEとSNRスイッチ設計のコンテキストを参照してください。 詳細
WanVideoSampler(#173, #172, #129, #130, #27, #90)- 生成を駆動し、エキスパートの分割を制御します。
stepsを調整して詳細と速度のバランスをとり、start_stepまたはend_stepを調整して初期レイアウトエキスパートと後期詳細エキスパートの間で作業をシフトします。cfgを使用して動きの自由度に対する順守をトレードします。ラッパーのサンプラーノードの参考実装を参照してください。 ラッパーレポ
- 生成を駆動し、エキスパートの分割を制御します。
PainterI2VforKJ(#178, #181, #179)- 4ステップLightX2V LoRAを使用したときのスローモーションを修正するために設計された動き増幅バリアントでバニラ画像からビデオへの条件付けを置き換えます。カメラプロンプトとアクションビートを強化しながら被写体のアイデンティティを保持します。 ノードreadme
WanVideoTextEncode(#170, #152, #16)- uMT5-XXLエンコーダーを介してポジティブおよびネガティブプロンプトをエンコードし、サンプラーが豊かな多言語セマンティクスを受け取るようにします。プロンプトの構造を明確に保ち、シーン、被写体、アクション、カメラ意図を分離することで整合性が向上することが多いです。 uMT5
VHS_VideoCombine(#176, #154, #60)- メタデータを含むMP4にデコードされたフレームを組み立てます。音声を渡すと、ノードはビデオと音声をマルチプレックスします。これはVideoHelperSuiteのユーティリティノードから来ています。 VideoHelperSuite
オプションの追加
- 各ルートの選択時期
- VBVRモデル: 複雑な相互作用、因果関係のシーン、またはマルチオブジェクトの振り付け。
- Wan 2.2 + PainterI2V: 動的な動きやカメラ優先のストーリーテリングとLightX2V LoRA。
- Wan 2.2 + VBVR LoRA: デノイズの早期に推論バイアスの恩恵を受けつつ迅速なプレビュー。
- ComfyUIにおけるWan 2.2 VBVRのプロンプティングのヒント
- [SCENE]、[SUBJECT]、[ACTION]、[CAMERA]、[LIGHTING]のような短いセクションを使用します。これにより、テキストエンコーダーが意図を分離しやすくなります。
- オブジェクトの相互作用では、誰が何を誰にどの順番で行うかを明確にします。
- LoRAのスタッキング
- フレームサイズとアスペクト
- 入力の近くにある
ImageResizeKJv2ノードは、VAEのクリーンな割り切りを保証し、アーティファクトを減少させます。開始画像のアスペクトをターゲットビデオに合わせることで、スムーズな動きの伝播が可能です。
- 入力の近くにある
謝辞
このワークフローは以下の作品やリソースを実装し、それに基づいて構築されています。@Ai Verse、ComfyUIにおけるWan 2.2 VBVRのソースの著者に感謝し、その貢献とメンテナンスを承認します。公式の詳細については、以下にリンクされた元のドキュメントとリポジトリを参照してください。
リソース
- YouTube/Wan 2.2 VBVR in ComfyUI Source
- ドキュメント / リリースノート: Wan 2.2 VBVR in ComfyUI Source @Ai Verse
注意: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者とメンテナの提供するライセンスと条件に従います。


