Wan 2.2 Animate V2は、単一の参照画像と駆動ポーズビデオをリアルでアイデンティティを保持するアニメーションに変換するポーズ駆動ビデオ生成ワークフローです。初版に基づき、より高い忠実度、滑らかな動き、優れた時間的一貫性を提供し、ソースビデオの全身の動きと表情を忠実に再現します。
このComfyUIワークフローは、キャラクターアニメーション、ダンスクリップ、パフォーマンス駆動のストーリーテリングに対して迅速で信頼性の高い結果を求めるクリエーター向けに設計されています。強力な前処理(ポーズ、顔、被写体のマスキング)をWan 2.2モデルファミリーとオプションのLoRAsと組み合わせることで、スタイル、ライティング、背景処理を自信を持って調整できます。
大まかに言えば、パイプラインは、駆動ビデオからポーズと顔の手がかりを抽出し、単一の参照画像からアイデンティティをエンコードし、必要に応じてSAM 2マスクで被写体を分離し、アイデンティティを保持しながら動きに一致するビデオを合成します。ワークフローは、最終結果を生成するために協力する4つのグループと、迅速なQAのための2つの便利な出力(ポーズとマスクのプレビュー)で構成されています。
このグループは、ポートレートまたは全身画像をロードし、ターゲット解像度にリサイズしてグラフ全体で利用可能にします。リサイズされた画像はGet_reference_imageで保存され、プレビューされるため、フレーミングを迅速に評価できます。アイデンティティ機能はWanVideoClipVisionEncode (CLIP Vision) (#70)によってエンコードされ、同じ画像がWanVideoAnimateEmbeds (#62)にref_imagesとして供給され、より強力なアイデンティティ保持が行われます。最良の結果を得るためには、駆動ビデオの被写体タイプに一致する明るく照らされたクリアな参照を提供してください。ヘッドルームと最小限の遮蔽は、Wan 2.2 Animate V2が顔の構造や衣服にロックオンするのに役立ちます。
駆動ビデオはVHS_LoadVideo (#191)でロードされ、後で使用するためにフレーム、オーディオ、フレーム数、およびソースfpsが公開されます。ポーズと顔の手がかりはOnnxDetectionModelLoader (#178)とPoseAndFaceDetection (#172)によって抽出され、DrawViTPose (#173)で視覚化されるため、トラッキングの品質を確認できます。被写体の分離はSam2Segmentation (#104)によって処理され、GrowMaskWithBlur (#182)とBlockifyMask (#108)が続き、クリーンで安定したマスクを生成します。ヘルパーDrawMaskOnImage (#99)はマットをプレビューします。このグループはまた、駆動ビデオから幅、高さ、およびフレーム数を標準化し、Wan 2.2 Animate V2が空間的および時間的設定を推測せずに一致させることができるようにします。迅速なチェックは短いビデオとしてエクスポートされます:ポーズオーバーレイとマスクプレビューでゼロショット検証が可能です。
WanVideoVAELoader (#38)はWan VAEをロードし、WanVideoModelLoader (#22)はWan 2.2 Animateバックボーンをロードします。オプションのLoRAsはWanVideoLoraSelectMulti (#171)で選択され、WanVideoSetLoRAs (#48)で適用されます。WanVideoBlockSwap (#51)は、スタイルと忠実度に影響を与える建築的な調整のためにWanVideoSetBlockSwap (#50)を通じて有効化できます。プロンプトはWanVideoTextEncodeCached (#65)によってエンコードされ、WanVideoClipVisionEncode (#70)は参照画像を強力なアイデンティティ埋め込みに変換します。WanVideoAnimateEmbeds (#62)は、CLIP特徴、参照画像、ポーズ画像、顔クロップ、オプションの背景フレーム、SAM 2マスク、および選択した解像度とフレーム数を単一のアニメーション埋め込みに融合させます。そのフィードはWanVideoSampler (#27)を駆動し、プロンプト、アイデンティティ、動きの手がかりと一致する潜在ビデオを合成し、WanVideoDecode (#28)は潜在をRGBフレームに戻します。
出力を比較するために、ワークフローはシンプルなサイドバイサイドを組み立てます:生成されたビデオと、参照画像、顔クロップ、ポーズオーバーレイ、駆動ビデオのフレームを示す垂直ストリップが並んでいます。ImageConcatMulti (#77, #66)はビジュアルコラージュを構築し、VHS_VideoCombine (#30)は「比較」mp4をレンダリングします。最終的なクリーン出力はVHS_VideoCombine (#189)によってレンダリングされ、クイックレビューカットのために駆動からオーディオを引き継ぎます。これらのエクスポートにより、Wan 2.2 Animate V2がどれだけ動きを追従し、アイデンティティを保持し、意図した背景を維持したかを簡単に判断できます。
VHS_LoadVideo (#191)
駆動ビデオをロードし、グラフ全体で使用されるフレーム、オーディオ、メタデータを公開します。被写体を完全に可視化し、モーションブラーを最小限に抑えることで、より強力なキーポイントトラッキングが可能になります。短いテストを希望する場合は、ロードされるフレーム数を制限してください。最終結合でオーディオの同期ずれを避けるために、ソースfpsを下流で一貫して維持してください。
PoseAndFaceDetection (#172)
YOLOとViTPoseを実行して、モーション転送を直接ガイドする全身キーポイントと顔クロップを生成します。ローダーからの画像と標準化された幅と高さを供給します。必要に応じて、retarget_image入力を使用して、異なるフレーミングにポーズを適応させることができます。ポーズオーバーレイがノイズが多い場合は、高品質なViTPoseモデルを検討し、被写体が大きく遮蔽されていないことを確認してください。参照: ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation (#104)
背景を保存するか、Wan 2.2 Animate V2でのリライティングをローカライズすることができる被写体マスクを生成します。PoseAndFaceDetectionから検出されたバウンディングボックスを使用するか、必要に応じてクイックポジティブポイントを描画してマットを洗練させます。GrowMaskWithBlurとペアにして、速い動きでのエッジをクリーンにし、マスクプレビューエクスポートで結果を確認してください。参照: Segment Anything 2.
WanVideoClipVisionEncode (#70)
参照画像をCLIP Visionでエンコードし、顔の構造、髪、衣服などのアイデンティティの手がかりをキャプチャします。複数の参照画像を平均してアイデンティティを安定させたり、ネガティブ画像を使用して不要な特徴を抑制することができます。照明が一貫したセンタークロップは、より強力な埋め込みを生成するのに役立ちます。
WanVideoAnimateEmbeds (#62)
アイデンティティ特徴、ポーズ画像、顔クロップ、オプションの背景フレーム、SAM 2マスクを単一のアニメーション埋め込みに融合させます。被写体の背景がドリフトする場合は、クリーンな背景フレームと堅固なマスクを提供してください。顔がドリフトする場合は、顔クロップが存在し、適切に照明されていることを確認してください。
WanVideoSampler (#27)
プロンプト、LoRAs、アニメーション埋め込みによってガイドされる実際のビデオ潜在を生成します。長いクリップの場合は、スライディングウィンドウ戦略またはモデルのコンテキストオプションを選択してください。クリップの長さに合わせてウィンドウを調整し、動きのシャープさと長距離の一貫性をバランスさせます。スケジューラとガイダンスの強さを調整して、忠実度、スタイルの順守、動きの滑らかさをトレードオフし、LoRAスタックがそれを活用する場合はブロックスワップを有効にすることを検討してください。
このワークフローで使用される便利なリソース:
このワークフローは以下の作品とリソースを実装および拡張しています。Benji’s AI PlaygroundのワークフローとWanチームのWan 2.2 Animate V2モデルに対する貢献とメンテナンスに心より感謝申し上げます。権威ある詳細については、以下にリンクされた元のドキュメントとリポジトリを参照してください。
注: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者およびメンテナの提供するライセンスおよび条件に従います。
RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Playground, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。