ワークフローチュートリアル
Wan 2.2 Animate: キャラクターの交換 & リップシンク
カメラ上の任意のスピーカーを、オリジナルの音声に合わせてモーション、表情、口の形を整えながら自分のキャラクターに交換します。このComfyUIワークフローは、Wan 2.2 Animate: Swap Characters & Lip-Syncを中心に構築されており、入力ビデオからのボディポーズと顔フレームを検出し、それらを単一の参照画像にリターゲットし、一貫したスピーチ同期の結果をレンダリングします。
このワークフローは、インタビュー、リール、VTubing、スライド、または吹き替えショートのために信頼できるキャラクター交換を望む編集者、クリエイター、研究者に適しています。ソースクリップと1つのクリーンな参照画像を提供してください。パイプラインは、新しいキャラクターにポーズとリップの表示を再現し、オリジナルのサウンドトラックを最終出力にミックスします。
Comfyui Wan 2.2 Animate: Swap Characters & Lip-Syncワークフローの主要モデル
- Wan 2.2 Animate 14B (FP8 scaled): ポーズ、顔、およびコンテキスト信号を使用してフレーム全体でリターゲットされたキャラクターを合成するコアビデオジェネレーター。Model hub
- Wan 2.1 VAE (bf16): Wanがサンプリングおよび出力中に使用するビデオラテントをエンコード/デコードします。Weights
- UMT5‑XXL Text Encoder (bf16): 軽いプロンプティングやショットディスクリプタのためのテキスト埋め込みを構築します。Weights
- CLIP Vision H: リファレンスポートレートから堅牢な画像特徴を抽出してアイデンティティを保持します。Weights
- Lightx2v I2V 14B LoRA: リファレンスフレームでの駆動時に画像からビデオへの安定性と忠実度を向上させます。LoRA
- Wan22 Relight LoRA: ショット全体で一貫したシェーディングとリライティングを維持するのに役立ちます。LoRA
- YOLOv10m (ONNX): ポーズ推定の前に使用される高速な人物/顔検出。Model
- ViTPose WholeBody Large (ONNX): フルボディモーション転送のための高品質なスケルトンキーポイント。Model
- Segment Anything 2.1: 置換を導くクリーンな前景マスクのためのセグメンテーション。Repo
Comfyui Wan 2.2 Animate: Swap Characters & Lip-Syncワークフローの使い方
グラフは7つのグループを通過します: 入力をロードし、参照を構築し、ポーズ/顔とマスクを前処理し、生成モデルをロードし、キャラクター交換を実行し、診断をプレビューし、オーディオと共にエクスポートします。
ビデオのロード
VHS_LoadVideo (#63)を使用してソースクリップをインポートします。このノードはリサイズ用のオプションの幅/高さを公開し、下流で使用するためのビデオフレーム、オーディオ、およびフレーム数を出力します。処理を高速化したい場合は、クリップを話している部分の近くでトリミングしてください。オーディオはエクスポーターに渡され、最終ビデオがオリジナルのサウンドトラックと一致するようにします。
参照画像
ターゲットキャラクターの単一のクリーンなポートレートを提供します。画像はImageResizeKJv2 (#64)で作業解像度に合わせてリサイズされ、CLIP Visionとジェネレーターで使用される標準の参照として保存されます。ソースショットに似た照明の下でシャープで正面向きの画像を選ぶことで、色とシェーディングのドリフトを減らします。
前処理
OnnxDetectionModelLoader (#178)がYOLOとViTPoseをロードし、PoseAndFaceDetection (#172)が各フレームを分析してフルボディのキーポイントとフレームごとの顔のクロップを生成します。Sam2Segmentation (#104)は、検出されたバウンディングボックスまたはキーフレームポイントを使用して前景マスクを作成します。1つのヒントが失敗した場合は、別のヒントに切り替えてより良い分離を得ます。マスクはGrowMaskWithBlur (#182)で洗練され、BlockifyMask (#108)でブロック化されて、ジェネレーターに安定した明確な被写体領域を提供します。オーバーレイオプション (DrawViTPose (#173)とDrawMaskOnImage (#99)) で、生成前にポーズカバレッジとマスク品質を視覚的に確認できます。
モデル
WanVideoModelLoader (#22)がWan 2.2 Animate 14Bをロードし、WanVideoVAELoader (#38)がVAEを提供します。リファレンスポートレートからのアイデンティティ特徴はCLIPVisionLoader (#71)とWanVideoClipVisionEncode (#70)によってエンコードされます。スタイルと安定性はWanVideoLoraSelectMulti (#171)で調整され、WanVideoSetLoRAs (#48)とWanVideoSetBlockSwap (#50)がLoRAsとブロックスワップ設定をモデルに適用します。これらのツールはWanラッパーライブラリから来ています。実装の詳細はComfyUI‑WanVideoWrapperを参照してください。
キャラクター交換
WanVideoTextEncodeCached (#65)は、外観やショットのムードを調整したい場合に短い記述プロンプトを受け入れます。WanVideoAnimateEmbeds (#62)は、リファレンス画像、フレームごとのポーズ、顔のクロップ、背景、マスクを統合し、アイデンティティを保持しながらモーションと口の形を一致させる画像埋め込みを作成します。WanVideoSampler (#27)はフレームをレンダリングします; そのスケジューラーとステップはシャープネスとモーションのトレードオフを制御します。WanVideoDecode (#28)からデコードされたフレームは、エクスポート前にサイズとカウントを確認するためのインスペクターに渡されます。
結果のコラージュ
迅速な品質確認のために、ワークフローはImageConcatMulti (#77, #66)を使用して主要な入力を連結し、リファレンス、顔のクロップ、ポーズの可視化、および生のフレームのシンプルな比較ストリップを形成します。テスト通過後すぐにアイデンティティの手がかりと口の形を確認するために使用してください。
出力
VHS_VideoCombine (#30)は最終ビデオを生成し、オリジナルのオーディオをミックスしてタイミングを完璧に保ちます。追加のエクスポーターが含まれているため、中間の診断や別のカットを保存することもできます。長いクリップで最良の結果を得るには、まず短いテストをエクスポートし、LoRAミックスとマスクを繰り返し調整してからフルレンダリングにコミットします。
Comfyui Wan 2.2 Animate: Swap Characters & Lip-Syncワークフローの主要ノード
VHS_LoadVideo (#63) フレームとオリジナルのオーディオを一度にロードします。GPUの予算に合った作業解像度を設定し、下流ノードが消費するフレーム数を確認するために使用します。ComfyUI‑VideoHelperSuiteから。
PoseAndFaceDetection (#172) YOLOとViTPoseを実行して人物ボックス、フルボディキーポイント、およびフレームごとの顔のクロップを抽出します。良好なキーポイントは信頼できるモーショントランスファーのバックボーンであり、リップアーティキュレーションにも直接再利用されます。ComfyUI‑WanAnimatePreprocessから。
Sam2Segmentation (#104) バウンディングボックスまたはキーフレームポイントのヒントを使用して被写体の周りに前景マスクを構築します。髪や手が見逃されている場合は、ヒントの種類を切り替えるか、ブロック化する前にマスクをわずかに成長させます。ComfyUI‑segment‑anything‑2から。
WanVideoLoraSelectMulti (#171) Lightx2vやWan22 RelightなどのLoRAをミックスして、モーションの安定性、照明の一貫性、アイデンティティの強さをバランスさせます。LoRAの重みを増やして影響を強めますが、顔の過剰なスタイリングに注意してください。ComfyUI‑WanVideoWrapperから。
WanVideoAnimateEmbeds (#62) リファレンスポートレート、ポーズ画像、顔のクロップ、背景フレーム、マスクを結合し、Wan 2.2 Animateを条件付けるコンパクトな表現を作成します。意図したエクスポートと一致するようにwidth、height、およびnum_framesを確認して、再サンプリングによるアーティファクトを避けてください。ComfyUI‑WanVideoWrapperから。
WanVideoSampler (#27) 最終フレームを生成します。よりクリーンなディテールが必要な場合は高いステップ数と安定したスケジューラーを使用するか、迅速なプレビューには軽いスケジュールを使用します。非常に長いクリップの場合、WanVideoContextOptions (#110)を配線してコンテキストウィンドウ制御を導入し、ウィンドウ全体で時間的一貫性を維持できます。
VHS_VideoCombine (#30) 完成したビデオをエクスポートし、オリジナルのオーディオをミックスしてリップムーブメントを同期させます。オーディオに合わせてトリムするオプションで、サウンドトラックと持続時間を一致させます。ComfyUI‑VideoHelperSuiteから。
オプションのエクストラ
- クリーンなアイデンティティ転送のために中立的な唇を持つシャープで正面向きの参照を使用してください。重いメイクや遮蔽物を避けてください。
- セグメンテーションが髪やアクセサリーを見逃した場合は、
Sam2Segmentationのヒントをバウンディングボックスとキーフレームポイントの間で切り替え、ブロック化する前にマスクをわずかに成長させてください。 - Lightx2v LoRAはI2Vの安定性を向上させ、Wan22 Relight LoRAは不一致な照明を一致させます。わずかな重みの変更でちらつきを解決し、過度にスタイルを固定しないようにします。
- ブロックスワップは長いショットでのアイデンティティドリフトを減らすことができます。時間の経過とともに顔が柔らかくなる場合は、
WanVideoSetBlockSwap(#50)で有効にして再テストしてください。 - アスペクトの歪みを防ぐために、ソースに比例した作業解像度を維持してください。リファレンス画像がサポートするのに十分詳細である場合にのみ、サイズをアップしてください。
- 能力のあるランタイムでは、ラッパーノードでtorchコンパイルと効率的な注意を有効にするとサンプリングを高速化できます。詳細はComfyUI‑WanVideoWrapperを参照してください。
このWan 2.2 Animate: Swap Characters & Lip-Syncワークフローは、最小限のセットアップで一貫したモーショントランスファーとスピーチ同期の口の形を提供し、ComfyUI内での高品質なキャラクター交換を迅速かつ繰り返し可能にします。
謝辞
このワークフローは以下の作品とリソースを実装および構築しています。我々は、ワークフロー全体を構築した@MDMZ、WAN 2.2 Animateおよび関連するComfyUIノードを提供したKijai、json Wan-AIからYOLOv10m検出を含むWan2.2-Animateアセット、Comfy-OrgからWan 2.1 Clip Visionモデルを提供してくれたWan-AIとComfy-Orgに感謝します。権威ある詳細については、以下にリンクされたオリジナルのドキュメントとリポジトリを参照してください。
リソース
- ワークフローチュートリアル
- Youtube: ComfyUI-Tutorial from @MDMZ
注: 参照されているモデル、データセット、およびコードの使用は、それぞれの著者およびメンテナーによって提供されたライセンスおよび条件に従います。

