このワークフローは、エンドツーエンドのビデオキャラクター置換 (MoCha) を提供します: リアルなビデオ内のパフォーマーを新しいキャラクターにスワップし、動き、ライティング、カメラ視点、シーンの連続性を保持します。Wan 2.1 MoCha 14B プレビューを中心に構築されており、参照アイデンティティをソースパフォーマンスに合わせ、一貫した編集クリップとオプションのサイドバイサイド比較を合成します。映画制作者、VFXアーティスト、AIクリエイター向けに設計されており、最小限の手動クリーンアップで正確で高品質なキャラクタースワップが可能です。
このパイプラインは、強力な初フレームマスキングとSegment Anything 2 (SAM 2)、MoChaの動きに対応した画像埋め込み、WanVideoのサンプリング/デコーディング、顔の忠実度を向上させるオプションのポートレートアシストを組み合わせます。ソースビデオと1枚または2枚の参照画像を提供すると、完成した置換ビデオとA/B比較が生成され、ビデオキャラクター置換 (MoCha) の反復評価が迅速かつ実用的になります。
Wan 2.1 MoCha 14B プレビュー。キャラクター置換のためのコアビデオジェネレーター; MoChaの画像埋め込みとテキストプロンプトから時間的に一貫した合成を駆動します。モデルの重みはKijaiによってWanVideo Comfy形式で配布され、効率のためにfp8スケールのバリエーションも含まれています。 Hugging Face: Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
MoCha (Orange-3DV-Team)。アイデンティティ/動きの条件付け方法と参照実装で、ここで使用される埋め込みステージにインスピレーションを与えました。参照の選択とポーズの整合性を理解するのに役立ちます。 GitHub, Hugging Face
Segment Anything 2 (SAM 2)。高品質のポイントガイドによるセグメンテーションで、初フレームの俳優を分離します。クリーンマスクは安定したアーティファクトフリーのスワップに不可欠です。 GitHub: facebookresearch/segment-anything-2
Qwen-Image-Edit 2509 + Lightning LoRA。オプションのシングルイメージアシストで、クリーンでクローズアップのポートレートを生成し、難しいショットでの顔のアイデンティティ保持を改善します。 Hugging Face: Comfy-Org/Qwen-Image-Edit_ComfyUI, lightx2v/Qwen-Image-Lightning
Wan 2.1 VAE。Wanサンプラー/デコーダーステージで使用されるビデオVAEで、効率的な潜在処理を行います。 Hugging Face: Kijai/WanVideo_comfy
全体のロジック
入力ビデオ
初フレームマスク
ref1
ref2 (オプション)
ステップ1 - モデルのロード
ステップ2 - 編集用画像のアップロード
ステップ4 - プロンプト
シーン2 - サンプリング
Mocha
MochaEmbedsステージは、ソースビデオ、初フレームマスク、および参照画像をMoCha画像埋め込みにエンコードします。埋め込みはアイデンティティ、テクスチャ、局所的な外観の手がかりをキャプチャし、元の動きのパスを尊重します。ref2が存在する場合、それは顔の詳細を強化するために使用されます; そうでない場合、ref1のみがアイデンティティを担います。Wanモデル
Wanサンプリング
MochaEmbeds (#302)。ソースクリップ、初フレームマスク、参照画像をMoCha画像埋め込みにエンコードし、アイデンティティと外観を操作します。ref1のポーズは初フレームに一致させ、ドリフトが見られる場合はref2を含めます。エッジがちらつく場合、埋め込み前にマスクを少し拡大して背景の漏れを防ぎます。
Sam2Segmentation (#326)。ポジティブ/ネガティブクリックを初フレームマスクに変換します。髪や肩の周りのクリーンなエッジを優先し、近くの小道具を除外するためにいくつかのネガティブポイントを追加します。セグメンテーション後にマスクを少し拡大することで、俳優が動く際の安定性が向上します。
WanVideoSampler (#314)。ビデオキャラクター置換 (MoCha) の重作業を担い、潜在をフレームにデノイズします。ステップ数を増やすことで詳細と時間的安定性が向上します; ステップを減らすことで反復速度が向上します。参照やマスクの変更を比較する際にはスケジューラーを一貫して保ちます。
WanVideoSetBlockSwap (#344)。VRAMが不足している場合、より深いブロックスワッピングを有効にしてWan 2.1 MoCha 14Bパスを小さなGPUに適合させます。速度の損失が予想されます; その代わりに解像度とシーケンス長を保持できます。
VHS_VideoCombine (#355)。最終的なMP4を書き込み、ワークフローメタデータを埋め込みます。ソースと同じフレームレートを使用し(すでに配線済み)、幅広いプレーヤー互換性のためにyuv420p出力を使用します。
クリーンスワップのためのヒント
便利な参照
このワークフローは、以下の作品とリソースを実装および構築しています。私たちは、Video Character Replacement (MoCha) のための“Video Character Replacement (MoCha)”のBenji’s AI Playgroundの貢献とメンテナンスに感謝します。権威ある詳細については、以下にリンクされた元のドキュメントとリポジトリを参照してください。
注: 参照されたモデル、データセット、およびコードの使用json
RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Playground, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。