Wan 2.2 Animate V2は、単一のリファレンス画像とドライビングポーズビデオをリアルな、アイデンティティを保持するアニメーションに変えるポーズ駆動ビデオ生成ワークフローです。最初のバージョンに基づき、より高い忠実度、より滑らかな動き、そしてより良い時間的一貫性を提供し、ソースビデオからの全身の動きと表情を忠実に追跡します。
このComfyUIワークフローは、キャラクターアニメーション、ダンスクリップ、パフォーマンス駆動のストーリーテリングのために迅速で信頼性の高い結果を求めるクリエイター向けに設計されています。強力な事前処理(ポーズ、顔、被写体のマスキング)をWan 2.2モデルファミリーとオプションのLoRAsと組み合わせることで、スタイル、ライティング、背景処理を安心して調整できます。
大まかに言うと、このパイプラインはドライビングビデオからポーズと顔の手がかりを抽出し、単一のリファレンス画像からアイデンティティをエンコードし、オプションでSAM 2マスクで被写体を分離し、動きに一致しつつアイデンティティを保持するビデオを合成します。このワークフローは、最終結果を生成するために協力する4つのグループと、クイックQA(ポーズとマスクプレビュー)のための2つの便利な出力に編成されています。
このグループはあなたのポートレートまたは全身画像を読み込み、ターゲット解像度にリサイズし、グラフ全体で利用可能にします。リサイズされた画像はGet_reference_image
で保存され、プレビューされるため、フレーミングを迅速に評価できます。アイデンティティの特徴はWanVideoClipVisionEncode
(CLIP Vision
) (#70) によってエンコードされ、同じ画像はWanVideoAnimateEmbeds
(#62) にref_images
として供給され、より強いアイデンティティの保存を実現します。ドライバービデオの被写体タイプに一致する明確でよく照明されたリファレンスを提供することで、最良の結果が得られます。ヘッドルームと最小限の遮蔽は、Wan 2.2 Animate V2が顔の構造と衣装を捉えるのに役立ちます。
ドライバービデオはVHS_LoadVideo
(#191) で読み込まれ、後で使用するためのフレーム、オーディオ、フレーム数、ソースfpsが公開されます。ポーズと顔の手がかりはOnnxDetectionModelLoader
(#178) とPoseAndFaceDetection
(#172) によって抽出され、DrawViTPose
(#173) で視覚化されるため、追跡品質を確認できます。被写体の分離はSam2Segmentation
(#104) によって処理され、その後GrowMaskWithBlur
(#182) とBlockifyMask
(#108) によってクリーンで安定したマスクが生成されます。ヘルパーDrawMaskOnImage
(#99) はマットのプレビューを提供します。このグループはまた、ドライバービデオの幅、高さ、フレーム数を標準化し、Wan 2.2 Animate V2が空間的および時間的設定に一致するようにします。クイックチェックとして、ポーズオーバーレイとマスクプレビューの短いビデオがエクスポートされ、ゼロショット検証が可能です。
WanVideoVAELoader
(#38) はWan VAEをロードし、WanVideoModelLoader
(#22) はWan 2.2 Animateバックボーンをロードします。オプションのLoRAsはWanVideoLoraSelectMulti
(#171) で選択され、WanVideoSetLoRAs
(#48) によって適用されます。WanVideoBlockSwap
(#51) は、スタイルと忠実度に影響を与える建築的調整のためにWanVideoSetBlockSwap
(#50) を通じて有効化できます。プロンプトはWanVideoTextEncodeCached
(#65) によってエンコードされ、WanVideoClipVisionEncode
(#70) はリファレンス画像を頑丈なアイデンティティ埋め込みに変えます。WanVideoAnimateEmbeds
(#62) は、CLIP特徴、リファレンス画像、ポーズ画像、顔のクロップ、オプションの背景フレーム、SAM 2マスク、選択した解像度とフレーム数を単一のアニメーション埋め込みに融合します。そのフィードがWanVideoSampler
(#27) を駆動し、プロンプト、アイデンティティ、動きの手がかりに一致した潜在ビデオを合成し、WanVideoDecode
(#28) は潜在をRGBフレームに戻します。
出力を比較するために、ワークフローは簡単なサイドバイサイドを組み立てます:生成されたビデオと、リファレンス画像、顔のクロップ、ポーズオーバーレイ、ドライバービデオのフレームを示す縦のストリップを並べます。ImageConcatMulti
(#77, #66) はビジュアルコラージュを構築し、VHS_VideoCombine
(#30) は「比較」mp4をレンダリングします。最終的なクリーンな出力はVHS_VideoCombine
(#189) によってレンダリングされ、ドライバーからのオーディオもクイックレビューカットのために引き継がれます。これらのエクスポートは、Wan 2.2 Animate V2が動きをどれだけうまく追従し、アイデンティティを保持し、意図した背景を維持したかを判断するのを容易にします。
VHS_LoadVideo
(#191)
ドライビングビデオを読み込み、グラフ全体で使用されるフレーム、オーディオ、メタデータを公開します。強いキーポイントトラッキングのために、被写体が完全に見えるようにし、動きのブレを最小限に抑えます。短いテストを希望する場合は、読み込むフレーム数を制限し、オーディオのデシンクを避けるために下流でソースfpsを一貫させてください。
PoseAndFaceDetection
(#172)
YOLOとViTPoseを実行して、動きの転送を直接ガイドする全身のキーポイントと顔のクロップを生成します。ローダーからの画像と標準化された幅と高さを供給します。オプションのretarget_image
入力を使用すると、必要に応じて異なるフレーミングにポーズを適応させることができます。ポーズオーバーレイがノイズが多い場合は、より高品質のViTPoseモデルを検討し、被写体が強く遮蔽されていないことを確認してください。参考: ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation
(#104)
背景を保存したり、Wan 2.2 Animate V2での再照明を局所化するための被写体マスクを生成します。PoseAndFaceDetection
から検出されたバウンディングボックスを使用することも、必要に応じてマットを洗練するためにクイックポジティブポイントを描くこともできます。GrowMaskWithBlur
と組み合わせて、速い動きにおけるエッジをクリーンにし、マスクプレビューエクスポートで結果を確認します。参考: Segment Anything 2.
WanVideoClipVisionEncode
(#70)
リファレンス画像をCLIP Visionでエンコードし、顔の構造、髪、衣装などのアイデンティティ手がかりをキャプチャします。複数のリファレンス画像を平均してアイデンティティを安定させるか、不要な特性を抑制するためにネガティブ画像を使用することができます。照明が一貫したセンタークロップは、より強力な埋め込みを生成するのに役立ちます。
WanVideoAnimateEmbeds
(#62)
アイデンティティ特徴、ポーズ画像、顔のクロップ、オプションの背景フレーム、SAM 2マスクを単一のアニメーション埋め込みに融合します。width
、height
、num_frames
をドライバービデオに合わせて、アーティファクトを減らします。背景のドリフトが見られる場合は、クリーンな背景フレームと堅実なマスクを提供し、顔がドリフトする場合は、顔のクロップが存在し、よく照らされていることを確認してください。
WanVideoSampler
(#27)
プロンプト、LoRAs、およびアニメーション埋め込みによってガイドされた実際のビデオ潜在を生成します。長いクリップの場合、スライディングウィンドウ戦略またはモデルのコンテキストオプションの間で選択します。ウィンドウをクリップの長さに合わせて動きのシャープさと長距離の一貫性をバランスさせます。スケジューラーとガイダンス強度を調整して、忠実度、スタイルの遵守、動きの滑らかさをトレードオフし、LoRAスタックがそれから利益を得る場合はブロックスワップを有効にすることを検討してください。
このワークフローで使用された便利なリソース:
このワークフローは、以下の作品やリソースを実装し、構築しています。Benji’s AI PlaygroundのワークフローとWanチームのWan 2.2 Animate V2モデルへの貢献と維持に感謝します。詳細については、以下にリンクされた元のドキュメントとリポジトリを参照してください。
注:参照されたモデル、データセット、コードの使用は、それぞれの著者およびメンテナーによって提供されるライセンスおよび条件に従います。
RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Playground, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。