logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>ワークフロー>Pose Control LipSync S2V | 表現豊かなビデオジェネレーター

Pose Control LipSync S2V | 表現豊かなビデオジェネレーター

Workflow Name: RunComfy/Pose-Control-LipSync-Wan2.2-S2V
Workflow ID: 0000...1288
このワークフローでは、音声駆動のリップシンクとポーズベースの動作を使用して、表現豊かで制御可能なキャラクターアニメーションを作成できます。静止画像、ポーズリファレンス、オーディオクリップを開始点として、キャラクターが自然に動き、同期して話すシームレスなビデオを生成します。動きや表情を高精度で調整できるため、アバター、デジタルストーリーテリング、またはミュージックビデオに最適です。Wan 2.2モデルに支えられ、自然なボディトラッキングとスムーズなスピーチアライメントを提供します。効率的で高品質なビデオ生成とクリエイティブなコントロールを求めるクリエイター向けに設計されています。

Pose Control LipSync with Wan2.2 S2V: オーディオ駆動、ポーズ制御のイメージからビデオへの表現豊かなアバター

Pose Control LipSync with Wan2.2 S2Vは、単一の画像、オーディオクリップ、およびポーズリファレンスビデオを同期した話すパフォーマンスに変えます。リファレンス画像のキャラクターは、リファレンスビデオのボディモーションに従い、リップムーブメントはオーディオに一致します。このComfyUIワークフローは、アバター、ストーリーシーン、トレーラー、解説ビデオ、ミュージックビデオなど、ポーズ、表情、およびスピーチタイミングを厳密に制御したい場合に最適です。

Wan 2.2 S2V 14Bモデルファミリーに基づいて構築されており、テキストプロンプト、クリーンなボーカル機能、ポーズマップを融合して、安定したアイデンティティでシネマティックな動きを生成します。操作が簡単でありながら、ルック、ペーシング、フレーミングに細かく制御できるように設計されています。

Comfyui Pose Control LipSync with Wan2.2 S2Vワークフローの主要モデル

  • Wan2.2‑S2V‑14B。静止画像とオーディオをビデオに変換するコアスピーチ‑トゥ‑ビデオジェネレーターで、モーションガイダンスのための任意のポーズ条件付けが可能です。公式リポジトリとモデルカードで機能と使用メモを参照してください: Wan‑Video/Wan2.2 および Wan‑AI/Wan2.2‑S2V‑14B。
  • Wan VAE。Wanオートエンコーダーは高忠実度でビデオレイテントをエンコードおよびデコードし、Wan 2.xパイプライン全体で使用されます。参考実装: DiffusersのWanパイプライン documentation。
  • Google UMT5‑XXLテキストエンコーダー。高レベルのシーン意図とスタイル制御のための強力な多言語テキスト条件付けを提供します。モデルカード: google/umt5‑xxl。
  • Facebook Wav2Vec2‑Large。リップシンクとマイクロ表現を駆動する強力な音声機能を抽出します。モデルカード: facebook/wav2vec2‑large‑960h。
  • DWPose with YOLOX detector。リファレンスビデオからフルボディの動きをガイドするために人間のポーズキーポイントとポーズマップを生成します。リポジトリ: IDEA‑Research/DWPose および Megvii‑BaseDetection/YOLOX。
  • LightX2V LoRA for Wan。モーション品質を保持しながら低ステップのイメージ‑トゥ‑ビデオスタイルのデノイジングを加速するために使用される軽量LoRA; Wan 2.2はデノイザーでLoRAsをサポートします。WanパイプラインでのLoRAの使用に関するWan Diffusersガイダンスを参照してください: Wan pipelines。

Comfyui Pose Control LipSync with Wan2.2 S2Vワークフローの使用方法

ワークフローは5つの部分で構成されています: モデルのロード、オーディオの準備、画像とポーズの入力、条件付け、および生成。グループは左から右へのフローで実行され、オーディオの長さが自動的にクリップの長さを16 fpsで設定します。

モデルローダー

このグループは、Wan 2.2 S2Vモデル、そのVAE、UMT5‑XXLテキストエンコーダー、およびLightX2V LoRAをロードします。ベーストランスフォーマーはUNETLoader (#37)で初期化され、低ステップサンプリングを高速化するためにLoraLoaderModelOnly (#61)で適応されます。Wan VAEはVAELoader (#39)によって提供されます。テキストエンコーダーは、Wanによって参照されるUMT5‑XXLの重みをロードするCLIPLoader (#38)によって提供されます。このグループに触れる必要はほとんどありませんが、モデルファイルを交換する場合を除きます。

オーディオローダー

オーディオファイルをLoadAudio (#58)にドロップします。AudioSeparation (#85)はボーカルステムを分離し、唇が背景の楽器ではなく明確なスピーチや歌に従うようにします。Audio Duration (mtb) (#70)はクリップを測定し、SimpleMath+ (#71)は16 fpsでのフレーム数に変換するため、ビデオの長さがオーディオに一致します。AudioEncoderEncode (#56)はWav2Vec2‑Largeエンコーダーを供給し、Wanが音素を口の形にマップして正確なリップシンクを実現できるようにします。

画像ローダー

LoadImage (#52)は、アイデンティティ、衣装、カメラ設定を持つ被写体の静止画を提供します。ImageResizeKJv2 (#69)は画像の寸法を読み取り、パイプラインが後のすべてのステージで一貫してターゲットの幅と高さを導出できるようにします。最も忠実なリップムーブメントを得るために、口が遮られていないシャープで正面を向いた画像を使用してください。

ポーズとカメラの動き

VHS_LoadVideo (#80)はポーズリファレンスビデオをインポートします。ImageResizeKJv2 (#83)はフレームをターゲットサイズに適応させ、DWPreprocessor (#78)はYOLOX検出とDWPoseキーポイントを使用してそれらをポーズマップに変換します。最終的なImageResizeKJv2 (#81)は生成解像度にポーズフレームを合わせ、それらを制御ビデオとして次のステップに渡します。VHS_VideoCombine (#95)にルーティングしてポーズ出力をプレビューすることができ、リファレンスのフレーミングとタイミングが被写体に適合していることを確認するのに役立ちます。

条件付け

スタイルとシーンの意図をCLIP Text Encode (Positive Prompt) (#6)に書き込み、CLIP Text Encode (Negative Prompt) (#7)を使用して不要なアーティファクトを抑制します。プロンプトは高レベルの美学と背景の動きを誘導し、オーディオはリップムーブメントを駆動し、ポーズリファレンスはボディダイナミクスを制御します。プロンプトは簡潔にし、ターゲットのカメラアングルとムードに合わせてください。

サンプルとデコード

WanSoundImageToVideo (#55)はテキスト、オーディオ機能、リファレンス画像、およびポーズ制御ビデオを融合し、レイテントシーケンスを準備します。KSamplerAdvanced (#64)はLightX2Vスタイルの加速に適した低ステップのデノイジングを行い、VAEDecode (#8)がフレームを再構築します。VHS_VideoCombine (#62)はフレームをMP4に組み立て、元のオーディオを添付するので、出力はレビューまたは編集の準備が整います。

Comfyui Pose Control LipSync with Wan2.2 S2Vワークフローの主要ノード

WanSoundImageToVideo (#55)

プロンプト、ボーカル、被写体画像、およびポーズ制御ビデオでWan2.2‑S2Vを条件付けするワークフローの中心です。重要な部分だけを調整してください: 被写体画像とオーディオの長さに合わせてwidth、height、lengthを設定し、モーション制御のために前処理されたポーズビデオをプラグインします。別のカメラトラックを挿入する計画がない限り、ref_motionを空にしておいてください。モデルのスピーチ‑トゥ‑ビデオの挙動は、Wan‑AI/Wan2.2‑S2V‑14B および Wan‑Video/Wan2.2で説明されています。

DWPreprocessor (#78)

YOLOXを使用してポーズマップを生成し、DWPoseで全身のキーポイントを検出します。強力なポーズキューは、Wanが四肢と胴体を追従するのを助け、オーディオがリップと表情を制御します。リファレンスにカメラの動きが多い場合は、意図したパフォーマンスに合わせて視点とタイミングが一致するポーズビデオを使用してください。DWPoseおよびそのバリエーションは、IDEA‑Research/DWPoseで文書化されています。

KSamplerAdvanced (#64)

レイテントシーケンスのデノイジングを実行します。LightX2V LoRAがロードされている場合、低ステップで高速プレビューを維持しながらモーションの一貫性を保持できます。最大の詳細を求める場合はステップを増やします。スケジューラーの選択はモーションの滑らかさとシャープさに影響し、LoRAの使用と共に調整する必要があります。WanのDiffusers documentationに記載されているように。

VHS_LoadVideo (#80)

ポーズリファレンスをインポートしてスクラブします。ノード内のフレーム選択ツールを使用して、オーディオセグメントに一致する正確なセグメントを選択します。リファレンス画像とフレーミングと被写体サイズを一貫させることで、モーショントランスファーを安定させます。このノードはVideoHelperSuiteの一部です: ComfyUI‑VideoHelperSuite。

VHS_VideoCombine (#62)

生成されたフレームとオーディオをMP4に結合し、ワークフローメタデータを保存します。出力フレームレートを16 fpsに設定し、このワークフローでオーディオの持続時間から計算されたフレーム数と一致させます。資産管理のニーズに応じてメタデータ保存を無効または有効にします。VideoHelperSuiteのドキュメントはComfyUI‑VideoHelperSuiteで確認できます。

AudioSeparation (#85)

ボーカルを分離し、Wav2Vec2機能が楽器やFXの干渉なしに口の形を駆動できるようにします。入力がすでにクリーンスピーチである場合、分離をバイパスできます。最良の結果を得るためには、オーディオレベルを一貫させ、リバーブを最小限に抑えます。

オプションの追加機能

  • 最良のリップシンクを実現するためには、クリーンスピーチまたはアカペラのボーカルを優先してください。Wav2Vec2は16 kHzで動作します; ほとんどのパイプラインは自動的にリサンプルしますが、16 kHzファイルを提供することで役立ちます。
  • 歯と唇が見える明るく正面を向いた被写体画像を使用してください。遮蔽があると精度が低下します。
  • ポーズリファレンスのフレーミングと動きを被写体に合わせてください。大きなカメラの動きは、ポーズビデオの長さがオーディオセグメントと一致する場合に最適です。
  • クイックイテレーションには480pから始め、最終品質には720pに移行します。Wan 2.2はS2Vで両方の解像度をサポートしています。
  • プロンプトを短くし、画像とポーズリファレンスのカメラ設定と一貫させて、矛盾を避けてください。
  • LoRAsを試す場合は、Wan 2.2デノイザーと互換性があることを確認してください。Wan Diffusersのdocsに記載されているLoRAノートを参照してください。

このPose Control LipSync with Wan2.2 S2Vワークフローは、オーディオと静止画像から制御可能でビートに合わせたパフォーマンスを迅速に実現し、統一感のある表現豊かな見た目を提供します。

謝辞

このワークフローは、以下の作品やリソースを実装し、それらに基づいて構築されています。Pose Control LipSync with Wan2.2 S2VDemoの作成者の貢献とメンテナンスに感謝の意を表します。権威ある詳細については、以下にリンクされたオリジナルのドキュメントとリポジトリを参照してください。

リソース

  • YouTube/Pose Control LipSync with Wan2.2 S2VDemo
    • ドキュメント / リリースノート: Pose Control LipSync with Wan2.2 S2VDemo

注意: 参照されたモデル、デjson ータセット、およびコードの使用は、それぞれの著者およびメンテナーによって提供されたライセンスと条件に従う必要があります。

Want More ComfyUI Workflows?

Wan 2.2 | オープンソースのビデオ生成リーダー

今すぐ利用可能!より良い精度と滑らかな動き。

Wan 2.2 + Lightx2v V2 | 超高速 I2V & T2V

デュアル Light LoRA セットアップ、4倍速。

Wan 2.2 FLF2V | 始めと終わりのフレームビデオ生成

Wan 2.2 FLF2Vを使用して、始まりと終わりのフレームからスムーズなビデオを生成します。

Wan 2.2 Lightning T2V I2V | 4ステップ超高速

Wan 2.2が20倍速に!T2V + I2Vを4ステップで。

Wan2.2 S2V | サウンドからビデオ生成

音声クリップを1枚の画像からリアルな同期動画に変換

MV-Adapter | 高解像度マルチビュージェネレーター

単一の画像や説明からあらゆるものの360度ビューを生成します。

Flux DepthとCanny

公式Flux Tools - Flux DepthとCanny ControlNetモデル

Hunyuan3D 2.1 | 画像から3Dモデルへ

2.0からの大きな飛躍: 写真を瞬時に驚異的な3Dモデルに変換。

フォローする
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
サポート
  • Discord
  • メール
  • システムステータス
  • アフィリエイト
リソース
  • 無料のComfyUIオンライン
  • ComfyUIガイド
  • RunComfy API
  • ComfyUIチュートリアル
  • ComfyUIノード
  • 詳細を見る
法的情報
  • 利用規約
  • プライバシーポリシー
  • Cookieポリシー
RunComfy
著作権 2025 RunComfy. All Rights Reserved.

RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Playground, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。