このワークフローは、1枚の静止画像を高忠実度なファンタジーポートレートアニメーションに変換します。Fantasy-AMAPのFantasyPortraitモデルを表現強化型拡散トランスフォーマーと統合し、Wan Video 2.1の画像から動画へのパイプラインでラッピングしているため、最小限のセットアップでアイデンティティを保持し、感情豊かなトーキングショットを生成できます。映画的なファンタジーポートレートモーションを1枚の写真から作成したいクリエイター向けに設計されており、フレーミング、持続時間、スタイルを明確にコントロールできます。
パイプラインは完全に自動化されています: ポートレートを投入し、解像度とフレーム数を選択し、オプションでプロンプトとLoRAを追加し、MP4にレンダリングします。内部では、グラフが顔を検出し、画像とテキストのガイダンスをエンコードし、ファンタジーポートレートのアイデンティティエンベディングをWanのI2Vコンディショナーに融合し、動画をサンプリングし、フレームをデコードして最終クリップを保存します。
FantasyPortrait (Fantasy-AMAP)
コアアイデンティティおよび表現モジュール。被写体の特性を保持しつつ、微細な顔の動きを可能にする表現強化型のエンベディングを提供します。
|
WanVideo 2.1 I2V (14B, 720p)
ポートレートおよびテキスト/画像条件付けからアニメーションをサンプリングするために使用されるビデオ拡散バックボーン。Kijaiのモデルパックを通じて量子化され、Comfy対応の重みが利用可能です。
UMT5-XXLエンコーダー
ビデオサンプラーでのプロンプトガイダンスに使用される高容量テキストエンコーダー。
例の重み: umt5-xxl-enc-bf16.safetensors
in
Wan 2.1 VAE
潜在変数のエンコード/デコード用に最適化されたビデオVAE。
例の重み: Wan2_1_VAE_bf16.safetensors
in
ワークフローは、入力から最終ビデオまで左から右に進行します。主に設定するのは、画像、寸法、および持続時間の3つです。その後、必要に応じて短いプロンプトやLoRAで微調整できます。
LoadImage
に1枚のポートレートをロードし、それが処理用にリサイズされます。2段階のリサイズにより、選択した幅
および高さ
に合わせて画像が一致しつつ構図が維持されます。Width
、Height
、およびFrames
のコントロールを使用して出力サイズ(デフォルトは720 × 720)とアニメーションの長さを定義します。これにより、パイプライン全体でファンタジーポートレートのフレーミングが一貫性を持ちます。
FantasyPortraitModelLoader
がFantasyPortraitの重みをロードし、FantasyPortraitFaceDetector
が画像からアイデンティティおよび表現に敏感なポートレートエンベディングを抽出します。コアアイデアは、被写体が誰かを分離し、最終アニメーションがアイデンティティを保持しながら表現豊かな動きを可能にすることです。モデルを交換しない限り、ここでは何も調整する必要はありません。
画像ガイダンスのために、CLIPVisionLoader
とWanVideoClipVisionEncode
がポートレートから堅牢な視覚特徴を生成します。テキストガイダンスのために、WanVideoTextEncodeCached
がUMT5-XXLエンコーダーを使用して、肯定および否定のプロンプトをビデオ条件エンベディングに変換します。「自然なスタジオクローズアップ、穏やかな微笑み」などの短くシンプルなプロンプトが、クリーンなファンタジーポートレートの外観に十分な場合が多いです。
VHS_LoadVideo
は便利なフレームカウンターとして使用されます。プレースホルダクリップをそのままにするか、好みの持続時間で参照をロードし、そのフレーム数がWanVideoImageToVideoEncode
にフィードされ、開始画像と画像/テキストエンベディングをI2V条件に変換します。固定長を好む場合は、Frames
を直接設定し、参照ローダーを無視してください。
WanVideoAddFantasyPortrait
がステップ2からのポートレートエンベディングとI2V条件を統合します。これが最終的なファンタジーポートレートアニメーションに強いアイデンティティ保持と表現豊かなディテールを与えます。画像がロードされると、追加の入力は必要ありません。
WanVideoModelLoader
がWan 2.1をロードし、WanVideoLoraSelect
がKijaiパックからの軽量I2V LoRAをオプションで適用し、動きや美学をバイアスすることができます。アイデンティティを維持しながら、少しスタイリッシュなファンタジーポートレートを求める場合、ここで実験するのが良いです。
WanVideoSampler
が融合された条件を使用して潜在フレームを生成します。プロンプトをシンプルに保ち、詳細が必要な場合はステップを適度に増やし、長い否定で過度に制約しないようにします。WanVideoDecode
が潜在変数を画像に変換し、ワークフローはプレビューを連結し、VHS_VideoCombine
がMP4(デフォルト16 fps、yuv420p)を書き込みます。出力ファイル名のプレフィックスは便利に設定されています。
FantasyPortraitModelLoader
(#138)FantasyPortraitの重みをロードします。新しいFantasy-AMAPリリースをテストする場合はここで交換してください。チューニングは必要ありませんが、WanモデルとVAEの精度を一致させてください。
FantasyPortraitFaceDetector
(#142)リサイズされた画像からポートレートエンベディングを抽出します。良好な結果は、よく照らされた正面の写真で、遮蔽が最小限のものから得られます。動きが不自然に見える場合は、入力クロップを確認し、よりクリーンなソース画像を試してください。
WanVideoImageToVideoEncode
(#151)CLIP画像特徴、開始画像、および持続時間からWanのI2V条件を構築します。width
、height
、およびnum_frames
を調整してレンダーフットプリントと長さを制御します。長いシーケンスには、より多くのVRAMと時間が必要です。
WanVideoAddFantasyPortrait
(#150)ファンタジーポートレートのアイデンティティ/表現をI2Vコンディショナーに融合します。これを使用して、フレーム間で被写体を同一に保ちながら、微細な表現の変化を可能にします。通常、パラメータの調整は必要ありません。
WanVideoSampler
(#149)ビデオ潜在変数を生成します。より鮮明なディテールを望む場合は、ステップを控えめに増加させます。動きがずれる場合は、プロンプトの複雑さを減らすか、別のLoRAを試してください。ガイダンスを一貫性のあるものに保ち、冗長にしないでください。
WanVideoTextEncodeCached
(#155)UMT5-XXLを使用して肯定/否定のプロンプトをエンコードします。短く、説明的なフレーズを使用してください。過度に強い否定プロンプト(例えば、「悪い品質」の多用なスタック)は表現を抑制する可能性があります。
このワークフローは、チームのファンタジーポートレートモデルを活用し、Expression-Augmented Diffusion TransformersをComfyUIに統合して、完全自動化された高品質ポートレートアニメーションパイプラインを実現しています。
特に、画像から動画へのフレームワークでポートレートアニメーションをシームレスに実行可能にするWan Video Wrapperノードを作成し統合したkijaiに感謝します。
また、オープンな創造的ツールへの継続的な貢献をしているComfyUIコミュニティ全体に感謝します。
リンク:
RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Playground, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。