mickmumpitzによるこのワークフローは、トレーニング不要のモーションガイドアプローチを使用して、ComfyUIにAIビデオの制御可能なアニメーションをもたらします。WanVideoの画像からビデオへの拡散とTime-to-Move (TTM) 潜在ガイダンス、領域認識マスクを組み合わせることで、アイデンティティ、テクスチャ、シーンの連続性を維持しながら被写体の動きを指示できます。
ビデオプレートまたは2つのキーフレームから開始し、モーションを集中させたい場所に領域マスクを追加して、微調整なしで軌道を駆動します。結果は、指示されたショット、オブジェクトのモーションシーケンス、カスタムクリエイティブ編集に適した正確で繰り返し可能な制御可能なアニメーションです。
Wan2.2 I2V A14B (HIGH/LOW)。プロンプトと視覚的参照からモーションと時間的一貫性を合成するコアの画像からビデオへの拡散モデル。さまざまなモーション強度に対する忠実度(HIGH)と機敏性(LOW)のバランスをとる2つのバリアント。モデルファイルは、Hugging FaceのコミュニティWanVideoコレクションにホストされています。例: KijaiのWanVideoディストリビューション。 リンク: Kijai/WanVideo_comfy_fp8_scaled, Kijai/WanVideo_comfy
Lightx2v I2V LoRA。Wan2.2と組み合わせたときに構造とモーションの一貫性を強化する軽量アダプター。強いモーションキューの下で被写体の形状を保持するのに役立ちます。 リンク: Kijai/WanVideo_comfy – Lightx2v LoRA
Wan2.1 VAE。フレームを潜在にエンコードし、サンプラーの出力を詳細を犠牲にせずに画像にデコードするためのビデオオートエンコーダー。 リンク: Kijai/WanVideo_comfy – Wan2_1_VAE_bf16.safetensors
UMT5-XXLテキストエンコーダー。モーションキューと並行してプロンプト駆動制御のための豊富なテキスト埋め込みを提供します。 リンク: google/umt5-xxl, Kijai/WanVideo_comfy – encoder weights
セグメントAnythingモデルによるビデオマスク。SAM3とSAM2はフレーム全体に領域マスクを作成・伝播し、重要な領域で制御可能なアニメーションをシャープにする領域依存ガイダンスを可能にします。 リンク: facebook/sam3, facebook/sam2
Qwen-Image-Edit 2509 (オプション)。アニメーション前のクイックスタート/エンドフレームのクリーンアップやオブジェクトの削除のためのイメージ編集基盤とライトニングLoRA。 リンク: QuantStack/Qwen-Image-Edit-2509-GGUF, lightx2v/Qwen-Image-Lightning, Comfy-Org/Qwen-Image_ComfyUI
Time-to-Move (TTM) ガイダンス。ワークフローはTTM潜在を統合して、トレーニング不要の方法で制御可能なアニメーションに軌道制御を注入します。 リンク: time-to-move/TTM
ワークフローは次の4つの主なフェーズで実行されます: 入力のロード、モーションが発生する場所の定義、テキストとモーションキューのエンコード、そして結果の合成とプレビュー。以下の各グループはグラフ内のラベル付きセクションに対応しています。
入力のロード
“LOAD INPUT VIDEO”グループを使用して、プレートまたは参照クリップを取り込み、2つの状態間でモーションを構築する場合は開始および終了キーフレームをロードします。“Resize Start/Endframe”サブグラフは寸法を正規化し、開始フレームおよび終了フレームのゲーティングをオプションで有効にします。サイドバイサイドコンパレータは、入力と結果を示す出力を構築し、クイックレビュー用に提供します (VHS_VideoCombine (#613))。
モデルローダー “MODEL LOADER”グループはWan2.2 I2V (HIGH/LOW)をセットアップし、Lightx2v LoRAを適用します。ブロックスワップパスは、サンプリング前にバリアントをブレンドして、良好な忠実度-モーショントレードオフを提供します。Wan VAEは一度ロードされ、エンコード/デコード間で共有されます。テキストエンコーディングは、制御可能なアニメーションに対する強力なプロンプト条件付けのためにUMT5-XXLを使用します。
SAM3/SAM2マスクサブジェクト “SAM3 MASK SUBJECT”または“SAM2 MASK SUBJECT”で、参照フレームをクリックし、正および負のポイントを追加し、クリップ全体にマスクを伝播します。これにより、選択した被写体または領域にモーション編集を制限する時間的一貫性のあるマスクが得られ、領域依存ガイダンスが可能になります。また、独自のマスクビデオをバイパスしてロードすることもできます。Blender/After Effectsからのマスクも、アーティストが描いた制御が必要な場合に問題なく動作します。
開始フレーム/終了フレームの準備 (オプション) “STARTFRAME – QWEN REMOVE”および“ENDFRAME – QWEN REMOVE”グループは、Qwen-Image-Editを使用して特定のフレームでオプションのクリーンアップパスを提供します。リギング、スティック、またはプレートのアーティファクトを削除してモーションキューを汚染しないように使用します。インペインティングは、編集をフルフレームに縫い戻し、クリーンなベースを提供します。
テキスト+モーションエンコード
プロンプトはUMT5-XXLでWanVideoTextEncode (#605)にエンコードされます。開始フレーム/終了フレームの画像はWanVideoImageToVideoEncode (#89)でビデオ潜在に変換されます。TTMモーション潜在とオプションの時間マスクはWanVideoAddTTMLatents (#104)を介してマージされ、サンプラーが意味(テキスト)と軌道のキューを受け取ります。これは制御可能なアニメーションにとって重要です。
サンプラーとプレビュー
Wanサンプラー (WanVideoSampler (#27) および WanVideoSampler (#90)) は、デュアルクロックセットアップを使用して潜在をデノイズします。1つのパスはグローバルダイナミクスを管理し、もう1つはローカルの外観を保持します。ステップと設定可能なCFGスケジュールは、モーションの強度と忠実度を形成します。結果はフレームにデコードされ、ビデオとして保存されます。比較出力は、制御可能なアニメーションがブリーフに一致するかどうかを判断するのに役立ちます。
WanVideoImageToVideoEncode (#89)
開始フレーム/終了フレームの画像をモーション合成の種となるビデオ潜在にエンコードします。基本解像度やフレーム数を変更するときのみ調整します。入力と一致させてストレッチを避けます。マスクビデオを使用する場合は、その寸法がエンコードされた潜在サイズと一致していることを確認してください。
WanVideoAddTTMLatents (#104)
TTMモーション潜在と時間マスクを制御ストリームに融合します。マスク入力をトグルしてモーションを被写体に制限します。空白のままにすると、モーションがグローバルに適用されます。背景に影響を与えずに軌道特定の制御可能なアニメーションが必要な場合に使用します。
SAM3VideoSegmentation (#687)
いくつかの正および負のポイントを収集し、トラックフレームを選択し、クリップ全体に伝播します。サンプリング前にマスクドリフトを検証するために視覚化出力を使用します。プライバシーに敏感なワークフローやオフラインワークフローの場合、モデルゲーティングを必要としない SAM2 グループに切り替えます。
WanVideoSampler (#27)
モーションとアイデンティティのバランスを取るデノイザーです。“Steps”とCFGスケジュールリストを組み合わせて、モーションの強さを押し上げたり緩和したりします。強すぎると外観を圧倒し、弱すぎるとモーションが過小になります。マスクがアクティブな場合、サンプラーは制御可能なアニメーションの安定性を向上させるために領域内の更新に集中します。
このワークフローは、テキストプロンプト、TTM潜在、堅牢なセグメンテーションを組み合わせて、トレーニング不要で領域認識のモーション制御を提供します。いくつかのターゲット入力で、モデルを維持し、シーンを一貫性のある状態に保ちながら、微妙でプロダクション対応の制御可能なアニメーションを指示できます。
このワークフローは以下の作品とリソースを実装および構築しています。我々は、Mickmumpitz に感謝し、彼は制御可能なアニメーションのためのチュートリアル/投稿の作成者であり、time-to-moveチームのTTMに貢献とメンテナンスを感謝します。権威ある詳細については、以下のリンクされた元のドキュメントとリポジトリを参照してください。
注意: 参照されたモデル、データセット、コードの使用は、それぞれの著者およびメンテナによって提供されるライセンスおよび条件に従うものとします。
RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Models, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。