Pose Control LipSync with Wan2.2 S2Vは、単一の画像、オーディオクリップ、およびポーズリファレンスビデオを同期した話すパフォーマンスに変えます。リファレンス画像のキャラクターは、リファレンスビデオのボディモーションに従い、リップムーブメントはオーディオに一致します。このComfyUIワークフローは、アバター、ストーリーシーン、トレーラー、解説ビデオ、ミュージックビデオなど、ポーズ、表情、およびスピーチタイミングを厳密に制御したい場合に最適です。
Wan 2.2 S2V 14Bモデルファミリーに基づいて構築されており、テキストプロンプト、クリーンなボーカル機能、ポーズマップを融合して、安定したアイデンティティでシネマティックな動きを生成します。操作が簡単でありながら、ルック、ペーシング、フレーミングに細かく制御できるように設計されています。
ワークフローは5つの部分で構成されています: モデルのロード、オーディオの準備、画像とポーズの入力、条件付け、および生成。グループは左から右へのフローで実行され、オーディオの長さが自動的にクリップの長さを16 fpsで設定します。
このグループは、Wan 2.2 S2Vモデル、そのVAE、UMT5‑XXLテキストエンコーダー、およびLightX2V LoRAをロードします。ベーストランスフォーマーはUNETLoader
(#37)で初期化され、低ステップサンプリングを高速化するためにLoraLoaderModelOnly
(#61)で適応されます。Wan VAEはVAELoader
(#39)によって提供されます。テキストエンコーダーは、Wanによって参照されるUMT5‑XXLの重みをロードするCLIPLoader
(#38)によって提供されます。このグループに触れる必要はほとんどありませんが、モデルファイルを交換する場合を除きます。
オーディオファイルをLoadAudio
(#58)にドロップします。AudioSeparation
(#85)はボーカルステムを分離し、唇が背景の楽器ではなく明確なスピーチや歌に従うようにします。Audio Duration (mtb)
(#70)はクリップを測定し、SimpleMath+
(#71)は16 fpsでのフレーム数に変換するため、ビデオの長さがオーディオに一致します。AudioEncoderEncode
(#56)はWav2Vec2‑Largeエンコーダーを供給し、Wanが音素を口の形にマップして正確なリップシンクを実現できるようにします。
LoadImage
(#52)は、アイデンティティ、衣装、カメラ設定を持つ被写体の静止画を提供します。ImageResizeKJv2
(#69)は画像の寸法を読み取り、パイプラインが後のすべてのステージで一貫してターゲットの幅と高さを導出できるようにします。最も忠実なリップムーブメントを得るために、口が遮られていないシャープで正面を向いた画像を使用してください。
VHS_LoadVideo
(#80)はポーズリファレンスビデオをインポートします。ImageResizeKJv2
(#83)はフレームをターゲットサイズに適応させ、DWPreprocessor
(#78)はYOLOX検出とDWPoseキーポイントを使用してそれらをポーズマップに変換します。最終的なImageResizeKJv2
(#81)は生成解像度にポーズフレームを合わせ、それらを制御ビデオとして次のステップに渡します。VHS_VideoCombine
(#95)にルーティングしてポーズ出力をプレビューすることができ、リファレンスのフレーミングとタイミングが被写体に適合していることを確認するのに役立ちます。
スタイルとシーンの意図をCLIP Text Encode (Positive Prompt)
(#6)に書き込み、CLIP Text Encode (Negative Prompt)
(#7)を使用して不要なアーティファクトを抑制します。プロンプトは高レベルの美学と背景の動きを誘導し、オーディオはリップムーブメントを駆動し、ポーズリファレンスはボディダイナミクスを制御します。プロンプトは簡潔にし、ターゲットのカメラアングルとムードに合わせてください。
WanSoundImageToVideo
(#55)はテキスト、オーディオ機能、リファレンス画像、およびポーズ制御ビデオを融合し、レイテントシーケンスを準備します。KSamplerAdvanced
(#64)はLightX2Vスタイルの加速に適した低ステップのデノイジングを行い、VAEDecode
(#8)がフレームを再構築します。VHS_VideoCombine
(#62)はフレームをMP4に組み立て、元のオーディオを添付するので、出力はレビューまたは編集の準備が整います。
WanSoundImageToVideo
(#55)プロンプト、ボーカル、被写体画像、およびポーズ制御ビデオでWan2.2‑S2Vを条件付けするワークフローの中心です。重要な部分だけを調整してください: 被写体画像とオーディオの長さに合わせてwidth
、height
、length
を設定し、モーション制御のために前処理されたポーズビデオをプラグインします。別のカメラトラックを挿入する計画がない限り、ref_motion
を空にしておいてください。モデルのスピーチ‑トゥ‑ビデオの挙動は、Wan‑AI/Wan2.2‑S2V‑14B および Wan‑Video/Wan2.2で説明されています。
DWPreprocessor
(#78)YOLOXを使用してポーズマップを生成し、DWPoseで全身のキーポイントを検出します。強力なポーズキューは、Wanが四肢と胴体を追従するのを助け、オーディオがリップと表情を制御します。リファレンスにカメラの動きが多い場合は、意図したパフォーマンスに合わせて視点とタイミングが一致するポーズビデオを使用してください。DWPoseおよびそのバリエーションは、IDEA‑Research/DWPoseで文書化されています。
KSamplerAdvanced
(#64)レイテントシーケンスのデノイジングを実行します。LightX2V LoRAがロードされている場合、低ステップで高速プレビューを維持しながらモーションの一貫性を保持できます。最大の詳細を求める場合はステップを増やします。スケジューラーの選択はモーションの滑らかさとシャープさに影響し、LoRAの使用と共に調整する必要があります。WanのDiffusers documentationに記載されているように。
VHS_LoadVideo
(#80)ポーズリファレンスをインポートしてスクラブします。ノード内のフレーム選択ツールを使用して、オーディオセグメントに一致する正確なセグメントを選択します。リファレンス画像とフレーミングと被写体サイズを一貫させることで、モーショントランスファーを安定させます。このノードはVideoHelperSuiteの一部です: ComfyUI‑VideoHelperSuite。
VHS_VideoCombine
(#62)生成されたフレームとオーディオをMP4に結合し、ワークフローメタデータを保存します。出力フレームレートを16 fpsに設定し、このワークフローでオーディオの持続時間から計算されたフレーム数と一致させます。資産管理のニーズに応じてメタデータ保存を無効または有効にします。VideoHelperSuiteのドキュメントはComfyUI‑VideoHelperSuiteで確認できます。
AudioSeparation
(#85)ボーカルを分離し、Wav2Vec2機能が楽器やFXの干渉なしに口の形を駆動できるようにします。入力がすでにクリーンスピーチである場合、分離をバイパスできます。最良の結果を得るためには、オーディオレベルを一貫させ、リバーブを最小限に抑えます。
このPose Control LipSync with Wan2.2 S2Vワークフローは、オーディオと静止画像から制御可能でビートに合わせたパフォーマンスを迅速に実現し、統一感のある表現豊かな見た目を提供します。
このワークフローは、以下の作品やリソースを実装し、それらに基づいて構築されています。Pose Control LipSync with Wan2.2 S2VDemoの作成者の貢献とメンテナンスに感謝の意を表します。権威ある詳細については、以下にリンクされたオリジナルのドキュメントとリポジトリを参照してください。
注意: 参照されたモデル、デjson ータセット、およびコードの使用は、それぞれの著者およびメンテナーによって提供されたライセンスと条件に従う必要があります。
RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Playground, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。