ENTIRE AI WORLDS (Vace Wan 2.1)は、Mickmumpitzによる本番環境対応のComfyUIワークフローで、ライブアクション映像を新しい環境に変換しつつ元のカメラモーションを維持します。背景を交換し、視点とスケールを保持し、マスクされた俳優をテキストと参照画像に基づいて完全に再生成された世界に合成します。
Wan 2.1 VACEスタック上に構築されたこのワークフローは、映画製作者、VFXアーティスト、迅速なプレビズや洗練されたショットを必要とするクリエイターに最適です。プロンプトでシーンを指示し、オプションの参照画像から開始し、高速なFP8パイプラインまたは低VRAM GGUFパイプラインを選択できます。結果はシームレスなワールドビルディングで、日常のプレートから真にENTIRE AI WORLDS (Vace Wan 2.1)を生成できます。
このワークフローは、二重パスのVACE戦略に従います。最初に、コントロールイメージからシーンの動きをエンコードしてカメラの動きをロックし、次に俳優の挿入をエンコードし、再生成された環境にブレンドします。最大速度を得るためにFP8パスを実行するか、低VRAMのためにGGUFパスを実行できます。以下のセクションはオングラフグループに対応しており、全体のGenerate ENTIRE AI WORLDS (Vace Wan 2.1)パイプラインを自信を持って操作できます。
入力エリアでは、作業解像度と基本的なクリップコントロールを選択できます。解像度スイッチを使用してプリセットを選択(720p、576p、または480p)、これによりSet_width
(#370)とSet_height
(#369)がフィードされ、すべてのステージが同期されます。フレーム数を制限してターンアラウンドを速く保ち、インポイントをオフセットしたい場合に小さなスキップを設定できます。安定性とメモリのために、シーケンスを推奨範囲内に保ちます。グラフラベルは、ほとんどのGPUに対して81フレームが合理的な上限であることを示しています。これらの選択は、コントロールイメージ、VACEエンコード、および最終レンダーにグローバルに適用されます。
注意: 入力ビデオは、別のワークフローMASK_AND_TRACKを通じて生成することもできます。そのワークフローファイルをここからダウンロードできます: workflow.json。ダウンロード後、新しいワークフロータブにファイルをドラッグして実行し、入力ビデオを取得します。
背景プレートとオプションの参照画像がビジュアルスタイルをガイドします。背景スチルをロードすると、グラフが作業サイズに合わせてリサイズします。ハードバックプレートの代わりにスタイルアンカーが必要な場合は、セレクターを通じてreference_image
を有効にします。この画像は、ジオメトリを決定することなく、色、構成、トーンをガイドします。特定の外観を反映するGenerate ENTIRE AI WORLDS (Vace Wan 2.1)をモデルに生成させたい場合に参照ルートが役立ちますが、テキストプロンプトが残りを処理します。テキストのみのコントロールを好む場合はオフにします。
生成を開始する方法を決定するためにこのセクションを使用します。準備された俳優スチルで、Image Remove Background Rembg (mtb)
(#1433)がクリーンなマスクを引き出し、ImageCompositeMasked
(#1441)が選択した背景に俳優を配置してスタートフレームを形成します。Start Frame
スイッチ(ImpactSwitch
, #1760)は、俳優と背景の合成、背景のみ、スタートフレームなしの3つのモードを提供します。スタートフレームはアイデンティティとレイアウトを固定するのに役立ちます。背景のみではキャラクターが時間をかけて「入る」ことができ、スタートフレームがない場合、モデルはテキストと参照から主題と世界の両方を確立します。ライブプレビューブロックは、コミットする前にそのスタートがどのように見えるかを示します。
コントロールイメージは、カメラの動きをロックし、視点と視差がリアルに感じられるようにします。カメラトラックビデオをグループに供給します。グラフはOpenPoseとCannyレイヤーを導出し、強い構造シグナルを作成するためにそれらをブレンドします。Control Image Nodes
スイッチ(ImpactSwitch
, #1032)を使用して、トラックのみ、トラック+ポーズ、Canny+ポーズ、または外部で準備されたコントロールビデオを選択できます。プレビューコンバインでスタックを確認し、シルエットとエッジが明確に読めることを確認します。長いシーケンスの場合、構造を再計算するのを避けるために、後で再ロードするためにこのコントロールビデオを保存できます。これはプロンプトやマスクを反復し続けながらGenerate ENTIRE AI WORLDS (Vace Wan 2.1)を生成する際に特に便利です。
既に「コントロールイメージ」ビデオをエクスポートしている場合は、ここにドロップして前処理をバイパスします。コントロールイメージスイッチで対応するオプションを選択し、パイプラインの残りがキャッシュされた構造を使用するようにします。これにより、ランごとに一貫したカメラトラッキングが維持され、長いテイクでの反復時間が大幅に短縮されます。
FP8ブランチは、Wan 2.1モデルスタック全体をロードします。WanVideoModelLoader
(#4)はT2V 14BバックボーンとVACEモジュールを取り込み、オプションのLightX LoRAを使用して高速で一貫したサンプリングを可能にします。WanVideoVAELoader
(#26)はVAEを供給し、WanVideoBlockSwap
(#5)は必要に応じてブロックをデバイスメモリにスワップすることでVRAMを節約する戦略を公開します。このブランチは、VRAMに余裕がある場合に最速でENTIRE AI WORLDS (Vace Wan 2.1)を生成する方法です。
プロンプトはWanVideoTextEncodeSingle
によって正および負のテキストとしてエンコードされ、WanVideoApplyNAG
を通じてフレージングの一貫性が保たれます。最初のパス、WanVideo VACE Encode (CN‑CameraTrack)
(#948)は、コントロールイメージを読み取り、モーションアウェアな埋め込みを生成します。第二のパス、WanVideo VACE Encode (InsertPerson)
(#1425)は、俳優をクリーンなアルファとマスクを使用して注入し、ハローを避けるためにマスクを少し成長または縮小することができます。WanVideoSampler
(#2)はシーケンスをレンダリングし、WanVideoDecode
(#1)は潜在をフレームに変換し、シンプルなスイッチで元のフレームレートまたはFILM補間ストリームを選択して最終ビデオを組み合わせます。
GGUFブランチは、低VRAMワークフロー用に設計されています。UnetLoaderGGUF
(#1677)は量子化されたWan 2.1 VACE UNetをロードし、CLIPLoader
(#1680)はテキストエンコーダーを提供し、LoRAはLoraLoader
(#2420)で適用できます。標準のComfyUI VAELoader
(#1676)がデコードを処理します。このルートは、スピードを犠牲にしてフットプリントを縮小しながら、同じ二重パスVACEロジックを維持するため、控えめなハードウェアでもENTIRE AI WORLDS (Vace Wan 2.1)を生成できます。
量子化パスでは、WanVaceToVideo
(#1724)がVACE埋め込み、テキストコンディショニング、および参照をガイドされた潜在に変換します。WanVideoNAG
とWanVideoEnhanceAVideoKJ
はアイデンティティとローカルディテールを維持し、その後KSampler
(#1726)が最終潜在シーケンスを生成します。VAEDecode
(#1742)はフレームを生成し、オプションのFILMステップが時間的スムーズネスを追加し、ビデオコンバインが結果をディスクに書き込みます。VRAMが厳しい場合や長く安定したショットが必要な場合にこのパスを使用します。
プロンプトパネルは2つあります。FP8側はWan T5テキストエンコーダーを使用し、GGUF側はCLIPコンディショニングパスを使用します。どちらも正および負のテキストを受け取ります。ポジティブプロンプトは、生成したい世界に対してシネマティックで具体的にし、ネガティブプロンプトは圧縮アーティファクト、過飽和、および不要な前景の乱雑を対象にします。柔らかい参照画像をプロンプトと組み合わせて色と照明を誘導しつつ、モデルが意図に合ったENTIRE AI WORLDS (Vace Wan 2.1)を生成するようにします。
WanVideo VACE Encode (CN-CameraTrack)
(#948)WanVideo VACE Encode (InsertPerson)
(#1425)DilateErodeMask
, #2391)を調整してマットを少し引き込んでjson
ください。このパスは、挿入をシーンモーションに結びつけるため、スケールと視差が自然に保たれます。WanVaceToVideo
(#1724 and #1729)WanVideoSampler
(#2)KSampler
(#1726)Enhance A Video
ブロックに傾けます。FILM VFI
(#2019 and #1757)DilateErodeMask
を使用して俳優マスクを調整し、ハローを消します。これらの手順を使用して、ワークフローを自信を持ってエンドツーエンドで実行し、実際のカメラモーションに耐えるENTIRE AI WORLDS (Vace Wan 2.1)を生成できます。
このワークフローは、@mickmumpitzの作品とリソースを実装し、基にしています。Mickmumpitzのワークフローチュートリアルに感謝し、その貢献とメンテナンスに感謝します。権威ある詳細については、以下のリンクされた元のドキュメントとリポジトリを参照してください。
注意: 参照されたモデル、データセット、およびコードの使用は、Mickmumpitzによって提供されたそれぞれのライセンスと条件に従います。
RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Playground, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。