Wan 2.2 Animate V2 ポーズ駆動ビデオ生成ワークフロー for ComfyUI
Wan 2.2 Animate V2は、単一の参照画像と駆動ポーズビデオをリアルでアイデンティティを保持するアニメーションに変換するポーズ駆動ビデオ生成ワークフローです。初版に基づき、より高い忠実度、滑らかな動き、優れた時間的一貫性を提供し、ソースビデオの全身の動きと表情を忠実に再現します。
このComfyUIワークフローは、キャラクターアニメーション、ダンスクリップ、パフォーマンス駆動のストーリーテリングに対して迅速で信頼性の高い結果を求めるクリエーター向けに設計されています。強力な前処理(ポーズ、顔、被写体のマスキング)をWan 2.2モデルファミリーとオプションのLoRAsと組み合わせることで、スタイル、ライティング、背景処理を自信を持って調整できます。
ComfyUI Wan 2.2 Animate V2ワークフローの主要モデル
- Wan 2.2 Animate 14B。コアビデオ拡散モデルで、マルチモーダル埋め込みから時間的一貫性のあるフレームを合成します。重み: Kijai/WanVideo_comfy_fp8_scaled (Wan22Animate).
- Wan 2.1 VAE。Wanファミリーが最小限の損失でRGBフレームを再構築するために使用する潜在ビデオデコーダー/エンコーダー。重み: Wan2_1_VAE_bf16.safetensors.
- UMT5‑XXLテキストエンコーダー。ルック、シーン、シネマティクスをガイドするプロンプトをエンコードします。重み: umt5‑xxl‑enc‑bf16.safetensors.
- CLIP Vision (ViT‑H/14)。参照画像からアイデンティティを保持する特徴を抽出します。論文: CLIP.
- ViTPose Whole‑Body (ONNX)。動き転送を駆動する密なボディキーポイントを推定します。モデル: ViTPose‑L WholeBody と ViTPose‑H WholeBody. 論文: ViTPose.
- YOLOv10 detector。ポーズ検出とセグメンテーションを安定させるために人物ボックスを提供します。例: yolov10m.onnx.
- Segment Anything 2。背景の保存、合成、またはリライティングプレビュー用の高品質な被写体マスク。リポジトリ: facebookresearch/segment-anything-2.
- スタイルと光輸送のためのオプションのLoRAs。Wan 2.2 Animate V2出力におけるリライティングとテクスチャディテールに役立ちます。例: Lightx2v と Wan22_relight.
ComfyUI Wan 2.2 Animate V2ワークフローの使用方法
大まかに言えば、パイプラインは、駆動ビデオからポーズと顔の手がかりを抽出し、単一の参照画像からアイデンティティをエンコードし、必要に応じてSAM 2マスクで被写体を分離し、アイデンティティを保持しながら動きに一致するビデオを合成します。ワークフローは、最終結果を生成するために協力する4つのグループと、迅速なQAのための2つの便利な出力(ポーズとマスクのプレビュー)で構成されています。
参照画像
このグループは、ポートレートまたは全身画像をロードし、ターゲット解像度にリサイズしてグラフ全体で利用可能にします。リサイズされた画像はGet_reference_imageで保存され、プレビューされるため、フレーミングを迅速に評価できます。アイデンティティ機能はWanVideoClipVisionEncode (CLIP Vision) (#70)によってエンコードされ、同じ画像がWanVideoAnimateEmbeds (#62)にref_imagesとして供給され、より強力なアイデンティティ保持が行われます。最良の結果を得るためには、駆動ビデオの被写体タイプに一致する明るく照らされたクリアな参照を提供してください。ヘッドルームと最小限の遮蔽は、Wan 2.2 Animate V2が顔の構造や衣服にロックオンするのに役立ちます。
前処理
駆動ビデオはVHS_LoadVideo (#191)でロードされ、後で使用するためにフレーム、オーディオ、フレーム数、およびソースfpsが公開されます。ポーズと顔の手がかりはOnnxDetectionModelLoader (#178)とPoseAndFaceDetection (#172)によって抽出され、DrawViTPose (#173)で視覚化されるため、トラッキングの品質を確認できます。被写体の分離はSam2Segmentation (#104)によって処理され、GrowMaskWithBlur (#182)とBlockifyMask (#108)が続き、クリーンで安定したマスクを生成します。ヘルパーDrawMaskOnImage (#99)はマットをプレビューします。このグループはまた、駆動ビデオから幅、高さ、およびフレーム数を標準化し、Wan 2.2 Animate V2が空間的および時間的設定を推測せずに一致させることができるようにします。迅速なチェックは短いビデオとしてエクスポートされます:ポーズオーバーレイとマスクプレビューでゼロショット検証が可能です。
モデル
WanVideoVAELoader (#38)はWan VAEをロードし、WanVideoModelLoader (#22)はWan 2.2 Animateバックボーンをロードします。オプションのLoRAsはWanVideoLoraSelectMulti (#171)で選択され、WanVideoSetLoRAs (#48)で適用されます。WanVideoBlockSwap (#51)は、スタイルと忠実度に影響を与える建築的な調整のためにWanVideoSetBlockSwap (#50)を通じて有効化できます。プロンプトはWanVideoTextEncodeCached (#65)によってエンコードされ、WanVideoClipVisionEncode (#70)は参照画像を強力なアイデンティティ埋め込みに変換します。WanVideoAnimateEmbeds (#62)は、CLIP特徴、参照画像、ポーズ画像、顔クロップ、オプションの背景フレーム、SAM 2マスク、および選択した解像度とフレーム数を単一のアニメーション埋め込みに融合させます。そのフィードはWanVideoSampler (#27)を駆動し、プロンプト、アイデンティティ、動きの手がかりと一致する潜在ビデオを合成し、WanVideoDecode (#28)は潜在をRGBフレームに戻します。
結果コラージュ
出力を比較するために、ワークフローはシンプルなサイドバイサイドを組み立てます:生成されたビデオと、参照画像、顔クロップ、ポーズオーバーレイ、駆動ビデオのフレームを示す垂直ストリップが並んでいます。ImageConcatMulti (#77, #66)はビジュアルコラージュを構築し、VHS_VideoCombine (#30)は「比較」mp4をレンダリングします。最終的なクリーン出力はVHS_VideoCombine (#189)によってレンダリングされ、クイックレビューカットのために駆動からオーディオを引き継ぎます。これらのエクスポートにより、Wan 2.2 Animate V2がどれだけ動きを追従し、アイデンティティを保持し、意図した背景を維持したかを簡単に判断できます。
ComfyUI Wan 2.2 Animate V2ワークフローの主要ノード
VHS_LoadVideo (#191) 駆動ビデオをロードし、グラフ全体で使用されるフレーム、オーディオ、メタデータを公開します。被写体を完全に可視化し、モーションブラーを最小限に抑えることで、より強力なキーポイントトラッキングが可能になります。短いテストを希望する場合は、ロードされるフレーム数を制限してください。最終結合でオーディオの同期ずれを避けるために、ソースfpsを下流で一貫して維持してください。
PoseAndFaceDetection (#172) YOLOとViTPoseを実行して、モーション転送を直接ガイドする全身キーポイントと顔クロップを生成します。ローダーからの画像と標準化された幅と高さを供給します。必要に応じて、retarget_image入力を使用して、異なるフレーミングにポーズを適応させることができます。ポーズオーバーレイがノイズが多い場合は、高品質なViTPoseモデルを検討し、被写体が大きく遮蔽されていないことを確認してください。参照: ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation (#104) 背景を保存するか、Wan 2.2 Animate V2でのリライティングをローカライズすることができる被写体マスクを生成します。PoseAndFaceDetectionから検出されたバウンディングボックスを使用するか、必要に応じてクイックポジティブポイントを描画してマットを洗練させます。GrowMaskWithBlurとペアにして、速い動きでのエッジをクリーンにし、マスクプレビューエクスポートで結果を確認してください。参照: Segment Anything 2.
WanVideoClipVisionEncode (#70) 参照画像をCLIP Visionでエンコードし、顔の構造、髪、衣服などのアイデンティティの手がかりをキャプチャします。複数の参照画像を平均してアイデンティティを安定させたり、ネガティブ画像を使用して不要な特徴を抑制することができます。照明が一貫したセンタークロップは、より強力な埋め込みを生成するのに役立ちます。
WanVideoAnimateEmbeds (#62) アイデンティティ特徴、ポーズ画像、顔クロップ、オプションの背景フレーム、SAM 2マスクを単一のアニメーション埋め込みに融合させます。被写体の背景がドリフトする場合は、クリーンな背景フレームと堅固なマスクを提供してください。顔がドリフトする場合は、顔クロップが存在し、適切に照明されていることを確認してください。
WanVideoSampler (#27) プロンプト、LoRAs、アニメーション埋め込みによってガイドされる実際のビデオ潜在を生成します。長いクリップの場合は、スライディングウィンドウ戦略またはモデルのコンテキストオプションを選択してください。クリップの長さに合わせてウィンドウを調整し、動きのシャープさと長距離の一貫性をバランスさせます。スケジューラとガイダンスの強さを調整して、忠実度、スタイルの順守、動きの滑らかさをトレードオフし、LoRAスタックがそれを活用する場合はブロックスワップを有効にすることを検討してください。
オプションのエクストラ
- クリーンなドライバークリップから始める: 安定したカメラ、シンプルなライティング、最小限の遮蔽により、Wan 2.2 Animate V2が動きをクリーンに追跡する可能性を最大限に高めます。
- ターゲットの衣装とフレーミングに一致する参照を使用し、プロンプトやLoRAsと競合する極端な角度や重いフィルターを避けてください。
- SAM 2マスクで背景を保存または置換します。合成する際には、速い動きでのハローを避けるためにエッジを柔らかく保ちます。
- ロードからエクスポートまでfpsを一貫して維持し、オーディオを引き継ぐ際にリップシンクとビートの整合性を保持します。
- クイックなイテレーションのために、最初に短いセグメントをテストし、ポーズ、アイデンティティ、ライティングが正しいと感じたらフレーム範囲を拡張します。
このワークフローで使用される便利なリソース:
- 前処理ノード: kijai/ComfyUI‑WanAnimatePreprocess
- ViTPose ONNXモデル: ViTPose‑L, ViTPose‑Hモデル と data
- YOLOv10 detector: [yolovjson
- yolov10m.onnx](https://huggingface.co/Wan-AI/Wan2.2-Animate-14B/blob/main/process_checkpoint/det/yolov10m.onnx)
- Wan 2.2 Animate 14B weights: Wan22Animate
- LoRAs: Lightx2v, Wan22_relight
謝辞
このワークフローは以下の作品とリソースを実装および拡張しています。Benji’s AI PlaygroundのワークフローとWanチームのWan 2.2 Animate V2モデルに対する貢献とメンテナンスに心より感謝申し上げます。権威ある詳細については、以下にリンクされた元のドキュメントとリポジトリを参照してください。
リソース
- Wanチーム/Wan 2.2 Animate V2
- ドキュメント / リリースノート: YouTube @Benji’s AI Playground
注: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者およびメンテナの提供するライセンスおよび条件に従います。
