SCAIL-2 モーショントランスファー in ComfyUI | 参照イメージからビデオへ

ComfyUI SCAIL-2 character motion transfer, reference image to long video workflow, Western editorial market example ワークフロー

SCAIL-2 Motion Transfer in ComfyUI | Reference Image to Video

このワークフローを実行しますか？

完全に動作するワークフロー
欠落したノードやモデルはありません
手動セットアップは不要
魅力的なビジュアルを特徴としています

ComfyUI SCAIL-2 character motion transfer, reference image to long video workflow, Western editorial market example 例

SCAIL-2 キャラクターモーショントランスファー: 参照画像から長編ビデオへのワークフロー#

この ComfyUI パイプラインは、単一の参照画像を長編、アイデンティティを忠実に再現したキャラクターパフォーマンスに変換します。ドライビングビデオからモーションを借用し、SCAIL-2 Wan 2.1 14B パスに CLIP Vision 調整、SAM に基づく人物マスキング、LightX2V 加速を組み合わせて構築されており、長いシーケンスでの安定性と簡単なサイドバイサイド検査に最適化されています。アイデンティティ、ワードローブ、スタイルを何百ものフレームにわたって一貫して必要とするクリエイターのための実用的な SCAIL-2 キャラクターモーショントランスファー参照画像から長編ビデオへのワークフローです。

カタログスタイルのモーションテスト、参照画像からビデオへのデモンストレーション、および西洋編集市場の例ビデオを生成するために使用します。ワークフローは、被写体をドライビングシーンに調和させながら、顔や衣装の詳細を参照画像と一致させるためのオプションのリライトガイダンスをサポートしています。

ComfyUI SCAIL-2 キャラクターモーショントランスファー参照画像から長編ビデオへのワークフローの主要モデル#

SCAIL-2 on Wan 2.1 14B。モーショントランスファーに使用されるコアアイデンティティ認識ビデオ拡散。ワークフローは、ComfyUI 用にパッケージ化された 14B SCAIL-2 ウェイトをロードし、再構成のために Wan VAE とペアにします。Comfy-Org/SCAIL-2 のモデルコレクションと zai-org/SCAIL のメソッド概要をご覧ください。
OpenCLIP ViT-H/14 for CLIP Vision。参照画像から頑強なアイデンティティおよび外観エンベディングを抽出し、生成を条件付け、フレーム間でのキャラクターの忠実度を向上させます。参照モデルファミリー: laion/CLIP-ViT-H-14-laion2B-s32B-b79K。
Segment Anything (SAM) ファミリー。ドライビングビデオと参照画像の両方で被写体をローカライズする人物マスクとフレームごとのトラックを提供し、ターゲットを絞った条件付けを可能にします。プロジェクト参照: facebookresearch/segment-anything。
LightX2V LoRA および WanAnimate Relight LoRA。ワークフローがロードするオプションのアダプターで、フレーム間推論を加速し、転送されたキャラクターがドライビングクリップの照明に一致するようにリライトガイダンスを提供します。

ComfyUI SCAIL-2 キャラクターモーショントランスファー参照画像から長編ビデオへのワークフローの使い方#

高レベルでは、1 つの参照画像と 1 つのドライビングビデオを提供します。セグメンテーショングループは、両方のソースで人物を見つけてマスクし、CLIP Vision は参照アイデンティティをエンコードし、ファーストパスは初期セグメントを生成し、マルチパスループはそのセグメンティングロジックを完全なタイムラインに転がして、長く一貫したビデオを提供します。サイドバイサイドプレビューパネルにより、アイデンティティとポーズの整合性を簡単に検査できます。

モデル#

このグループはバックボーンモデルとオプションのアダプターを初期化します。UNet は SCAIL-2 Wan 2.1 14B チェックポイントをロードし、VAE はビデオフレームの潜在デコードを処理します。ワークフローはまた、アイデンティティエンベディングのために CLIP Vision をロードし、2 つの LoRA アダプター、LightX2V for speed と WanAnimate Relight for lighting guidance をロードします。テキストプロンプトは Wan テキストスタックによってエンコードされ、シーンとトーンを調整するのに便利であり、西洋編集市場の例を作成する際に便利です。

パラメーター#

パラメーターグループを使用して、プロジェクト全体のコントロールを設定します。解像度は公開されているため、GPU 予算に合った高速なベースラインまたはよりシャープな設定を選択できます。フレームレートは、ドライビングビデオがサンプリングされ、出力が再生用にエンコードされる方法を決定します。セグメントの長さは、各推論チャンクに含まれるフレーム数を定義し、長いタイムラインでメモリを予測可能に保ちます。最終フレームキャップは、ルックデベロップメント中の処理を制限し、フルクリップを実行する前に利用可能です。

セグメンテーション#

セグメンテーショングループは、モーショントランスファーのためのクリーンでターゲットを絞ったガイダンスを準備します。VHS_LoadVideo (#33) はドライビングビデオをインポートし、フレームは選択した解像度にリサイズされ、SCAIL-2 パスと一致するようにします。2 つのトラッカー、SAM3_VideoTrack (#85) はポーズビデオ用、SAM3_VideoTrack (#91) は参照用で、単純な "person" テキスト条件付けによって導かれた人物検出を実行し、リコールを増加させます。SCAIL2ColoredMask (#104) はトラックを 2 つの一貫したマスクにマージし、1 つはポーズビデオ用、もう 1 つは参照画像用で、生成ノードが被写体に編集を集中させるために消費します。

ファーストパス#

ファーストパスはシーケンスをブートストラップし、アイデンティティロックを確立します。CLIPVisionEncode (#76) は参照画像からエンベディングを抽出し、WanSCAILToVideo (#114) はこれらのエンベディングをポーズビデオと 2 つのマスクと組み合わせ、最初のセグメントの潜在シーケンスを生成します。シンプルなサンプラースタック SamplerCustom (#19) と BasicScheduler (#18) がこの潜在を画像にレンダリングし、VAEDecode (#6) によってデコードされます。このパスはまた、マルチパスステージが後続のチャンクを整列させるために使用するフレームオフセットを公開します。

マルチパス#

マルチパスグループは、一貫性を失わずに長編ビデオにランを拡大します。for ループペア、easy forLoopStart (#233) と easy forLoopEnd (#234) は、固定サイズのセグメントでタイムライン全体を反復し、デコードされたフレームを時間的コンテキストとして前方にパスします。WanSCAILToVideo (#115) は、その previous_frames 入力を介してそのコンテキストを消費し、セグメント境界を超えて顔、髪、ワードローブの連続性を向上させます。サンプリングスタック SamplerCustom (#63) は、選択したサンプラーとシグマスケジュールによって駆動され、速度と遵守をバランスさせることができ、VAEDecode (#66) は各チャンクを画像として返します。その後、ワークフローは範囲をつなぎ合わせて、エクスポート用に準備します。

マスク#

マスクグループは、セグメンテーションで計算された人物マスクをルーティングし、ファーストパスとマルチパスノードの両方が正しい被写体領域を受け取るようにします。Get_pose_video_mask (#122) と Get_reference_image_mask (#120) によって、スタイル転送とアイデンティティ保持が必要な場所に正確に適用され、背景のドリフトを減少させ、被写体外のシーンの詳細を保護します。

キャラクター置換を有効にする#

このグループは、元の背景を尊重するアイデンティティ転送と完全な前景置換の間を切り替えることができます。easy imageRemBg (#204) は参照画像から背景を削除し、ImpactConditionalBranch (#270) がクリーンな前景が下流で使用されるかどうかを切り替えます。カタログのようなテストや、西洋編集市場の例で被写体が標準化されたルックに一致する必要がある場合に厳密なキャラクタースワップを行いたい場合に有効にします。

プレビューとエクスポート#

ワークフローはサイドバイサイドの可視化と最終レンダリングを提供します。ImageConcatMulti (#153) は、ドライビングポーズフレームと参照画像をクイックパネルにコンポーズし、整合性チェックを行います。別の ImageConcatMulti (#72) は、ショットごとの QA のためにモデル出力を入力の隣に表示できます。最終ビデオは、ソースからのオーディオを含めることもできる VHS_VideoCombine (#71) と VHS_VideoCombine (#236) によって書き込まれ、レビューがタイミングに忠実であり続けます。

ComfyUI SCAIL-2 キャラクターモーショントランスファー参照画像から長編ビデオへのワークフローの主要ノード#

`WanSCAILToVideo` (#114)#

ポーズフレーム、被写体マスク、CLIP Vision アイデンティティエンベディングを参照画像から融合することにより、最初の潜在セグメントを生成します。pose_strength を調整して、正確なモーションのコピーと微妙なスタイル適応の間のトレードオフを行います。サンプラーが各パスで予測可能なチャンクを処理するように、セグメントサイズに一致するように length を使用します。画面上の人物を厳密に置き換える場合は、replacement_mode を設定して、背景スタイリングよりもアイデンティティを優先します。Comfy-Org/SCAIL-2 にパッケージ化された SCAIL-2 on Wan 2.1 14B によってバックアップされ、zai-org/SCAIL からのメソッドコンテキストを含みます。

`WanSCAILToVideo` (#115)#

ループ中に実行され、タイムラインの残りをカバーし、時間的安定性を向上させます。前のセグメントから previous_frames を提供して、モデルが境界を超えて衣服の詳細や顔のアイデンティティを安定して保持できるようにします。video_frame_offset と previous_frame_count は、セグメントがドライビングクリップと同期するように保ちます。LoRA を介してリライトガイダンスが有効になっている場合、このパスでスタイルマッチングをやや強化し、グローバルライティングを調和させます。

`SAM3_VideoTrack` (#85, #91)#

ポーズビデオと参照画像の両方で人物を検出し追跡します。「person」テキスト条件付けにより、複数のオブジェクトが存在する場合の堅牢性が向上します。トラッカーがドリフトする場合は、検出信頼度を上げるか、max_objects を制限して、同じ被写体が一貫して選択されるようにします。トラッキングコンセプトは Segment Anything ファミリーに従い、背景については facebookresearch/segment-anything を参照してください。

`CLIPVisionEncode` (#76)#

すべてのフレームを条件付けする参照アイデンティティエンベディングを生成します。頭と肩のリファレンスでは、エンコーダーがシルエット全体と衣装を見ることができるように、crop を中立的な選択に保ちます。被写体がフレーム内で小さい場合は、ノード内で過度にクロップするのではなく、よりタイトな参照画像を準備します。このノードは、laion/CLIP-ViT-H-14-laion2B-s32B-b79K での OpenCLIP ViT-H/14 スタイルの視覚特徴に依存しています。

`VHS_LoadVideo` (#33)#

一貫したタイミングのためにドライビングビデオをインポートし、オプションで再サンプリングします。force_rate を希望の出力リズムに一致させ、ルックデベロップメント中は固定して、反復間で比較可能な結果を得ます。テスト中にオプションのフレームキャップを使用して、ターンアラウンドを高速化し、最終レンダリング用には解除します。

オプションのエクストラ#

クイックイテレーションのためにポートレートフレンドリーな解像度を選択し、最終承認時にステップアップします。ワークフローは、典型的な 9:16 設定に調整されており、GPU メモリが許可する場合に高いオjson

プションが利用可能です。

ワードローブ、年齢、設定を西洋編集市場の例の規範に合わせた平易な言葉で記述するプロンプトを書きます。例えば、「明るいキッチンで青いセーターを着た中年の人」。
被写体の衣装が正確でなければならない場合は、アートプロンプトを下げてマスクの依存度を上げ、システムが背景のムードよりも衣服や色を優先するようにします。
画面上の人物を厳密に交換したい場合は、キャラクター置換を使用します。キャラクターをシーンと優しく調和させたい場合はオフにしておいてください。
ドライビングビデオで重い遮蔽や急速なカットを避けてください。適度なカメラの動きとクリーンで正面を向いた動きが最も安定したアイデンティティ転送を生み出します。
リライトガイダンスを追加する際は、シーンの光の方向に一致しながらも肌のトーンや素材が自然に見えるように、慎重に始めてください。

謝辞#

このワークフローは、以下の作品やリソースを実装し、それに基づいて構築しています。SCAIL/SCAIL-2 の zai-org と teal024、SCAIL-2 モデルファイルと Wan 2.1 14B FP8 チェックポイントの Comfy-Org、ワークフローレファレンスとクラウドセーブワークフローの RunningHub と RunComfy チームに対して心から感謝します。権威ある詳細については、以下にリンクされている元のドキュメントとリポジトリを参照してください。

リソース#

RunningHub/Workflow Reference
- ドキュメント / リリースノート: RunningHub workflow reference
zai-org/SCAIL-2 Project
- GitHub: zai-org/SCAIL
teal024/SCAIL Project Page
- ドキュメント / リリースノート: SCAIL project page
zai-org/SCAIL-2
- Hugging Face: zai-org/SCAIL-2
Comfy-Org/SCAIL-2
- Hugging Face: Comfy-Org/SCAIL-2
Comfy-Org/SCAIL-2 Wan 2.1 14B FP8 checkpoint
- Hugging Face: wan2.1_14B_SCAIL_2_fp8_scaled.safetensors
RunComfy/Cloud Save Workflow
- ドキュメント / リリースノート: RunComfy Cloud Save workflow

注: 参照されているモデル、データセット、およびコードの使用は、それぞれの著者およびメンテナーによって提供されるライセンスおよび条件に従います。

Want More ComfyUI Workflows?

SteadyDancer | リアルな画像からビデオへの生成器

ポートレートを瞬時に滑らかでリアルなモーションビデオに変換します。

Wan 2.1 Fun | トラジェクトリーモーションコントロール

静止写真を動画にアニメートするモーションパスを設計します。

Wan 2.1 ビデオリスタイル | 一貫したビデオスタイル変換

Wan 2.1ビデオリスタイルワークフローを使用して、リスタイルされた最初のフレームを適用することでビデオスタイルを変換します。

Wan 2.1 Control LoRA | 深度とタイル

軽量な深度とタイルのLoRAを使用して、Wan 2.1ビデオ生成を進化させ、構造と詳細を改善します。

Wan 2.1 LoRA

LoRAモデルを使用してWan 2.1ビデオ生成を強化し、スタイルとカスタマイズを向上させます。

Cosmos-Predict2 | Text2Image & Video2World

速くて本物！NVIDIA Cosmosで真の物理学を体験。

FLUXアウトペインティング

SDXLとFLUXを使用して、画像をシームレスに拡張および洗練します。

ReActor | 高速な顔の入れ替え

ComfyUI ReActor を使用すると、画像やビデオ内の 1 人以上のキャラクターの顔を簡単に交換できます。

フォローする

サポート

リソース

法的情報

RunComfy

RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン環境とサービス、および ComfyUIワークフロー魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Models, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。

SCAIL-2 モーショントランスファー | 長編ビデオクリエーター