ComfyUIにおけるAIビデオワークフローの制御可能なアニメーション

AIビデオにおける制御可能なアニメーション: WanVideo + TTMモーション制御ワークフロー for ComfyUI

mickmumpitzによるこのワークフローは、トレーニング不要のモーションガイドアプローチを使用して、ComfyUIにAIビデオの制御可能なアニメーションをもたらします。WanVideoの画像からビデオへの拡散とTime-to-Move (TTM) 潜在ガイダンス、領域認識マスクを組み合わせることで、アイデンティティ、テクスチャ、シーンの連続性を維持しながら被写体の動きを指示できます。

ビデオプレートまたは2つのキーフレームから開始し、モーションを集中させたい場所に領域マスクを追加して、微調整なしで軌道を駆動します。結果は、指示されたショット、オブジェクトのモーションシーケンス、カスタムクリエイティブ編集に適した正確で繰り返し可能な制御可能なアニメーションです。

Comfyuiの制御可能なアニメーションにおける主要モデル

Wan2.2 I2V A14B (HIGH/LOW)。プロンプトと視覚的参照からモーションと時間的一貫性を合成するコアの画像からビデオへの拡散モデル。さまざまなモーション強度に対する忠実度（HIGH）と機敏性（LOW）のバランスをとる2つのバリアント。モデルファイルは、Hugging FaceのコミュニティWanVideoコレクションにホストされています。例: KijaiのWanVideoディストリビューション。リンク: Kijai/WanVideo_comfy_fp8_scaled, Kijai/WanVideo_comfy
Lightx2v I2V LoRA。Wan2.2と組み合わせたときに構造とモーションの一貫性を強化する軽量アダプター。強いモーションキューの下で被写体の形状を保持するのに役立ちます。リンク: Kijai/WanVideo_comfy – Lightx2v LoRA
Wan2.1 VAE。フレームを潜在にエンコードし、サンプラーの出力を詳細を犠牲にせずに画像にデコードするためのビデオオートエンコーダー。リンク: Kijai/WanVideo_comfy – Wan2_1_VAE_bf16.safetensors
UMT5-XXLテキストエンコーダー。モーションキューと並行してプロンプト駆動制御のための豊富なテキスト埋め込みを提供します。リンク: google/umt5-xxl, Kijai/WanVideo_comfy – encoder weights
セグメントAnythingモデルによるビデオマスク。SAM3とSAM2はフレーム全体に領域マスクを作成・伝播し、重要な領域で制御可能なアニメーションをシャープにする領域依存ガイダンスを可能にします。リンク: facebook/sam3, facebook/sam2
Qwen-Image-Edit 2509 (オプション)。アニメーション前のクイックスタート/エンドフレームのクリーンアップやオブジェクトの削除のためのイメージ編集基盤とライトニングLoRA。リンク: QuantStack/Qwen-Image-Edit-2509-GGUF, lightx2v/Qwen-Image-Lightning, Comfy-Org/Qwen-Image_ComfyUI
Time-to-Move (TTM) ガイダンス。ワークフローはTTM潜在を統合して、トレーニング不要の方法で制御可能なアニメーションに軌道制御を注入します。リンク: time-to-move/TTM

Comfyuiにおける制御可能なアニメーションワークフローの使用方法

ワークフローは次の4つの主なフェーズで実行されます: 入力のロード、モーションが発生する場所の定義、テキストとモーションキューのエンコード、そして結果の合成とプレビュー。以下の各グループはグラフ内のラベル付きセクションに対応しています。

入力のロード “LOAD INPUT VIDEO”グループを使用して、プレートまたは参照クリップを取り込み、2つの状態間でモーションを構築する場合は開始および終了キーフレームをロードします。“Resize Start/Endframe”サブグラフは寸法を正規化し、開始フレームおよび終了フレームのゲーティングをオプションで有効にします。サイドバイサイドコンパレータは、入力と結果を示す出力を構築し、クイックレビュー用に提供します (VHS_VideoCombine (#613))。
モデルローダー “MODEL LOADER”グループはWan2.2 I2V (HIGH/LOW)をセットアップし、Lightx2v LoRAを適用します。ブロックスワップパスは、サンプリング前にバリアントをブレンドして、良好な忠実度-モーショントレードオフを提供します。Wan VAEは一度ロードされ、エンコード/デコード間で共有されます。テキストエンコーディングは、制御可能なアニメーションに対する強力なプロンプト条件付けのためにUMT5-XXLを使用します。
SAM3/SAM2マスクサブジェクト “SAM3 MASK SUBJECT”または“SAM2 MASK SUBJECT”で、参照フレームをクリックし、正および負のポイントを追加し、クリップ全体にマスクを伝播します。これにより、選択した被写体または領域にモーション編集を制限する時間的一貫性のあるマスクが得られ、領域依存ガイダンスが可能になります。また、独自のマスクビデオをバイパスしてロードすることもできます。Blender/After Effectsからのマスクも、アーティストが描いた制御が必要な場合に問題なく動作します。
開始フレーム/終了フレームの準備 (オプション) “STARTFRAME – QWEN REMOVE”および“ENDFRAME – QWEN REMOVE”グループは、Qwen-Image-Editを使用して特定のフレームでオプションのクリーンアップパスを提供します。リギング、スティック、またはプレートのアーティファクトを削除してモーションキューを汚染しないように使用します。インペインティングは、編集をフルフレームに縫い戻し、クリーンなベースを提供します。
テキスト+モーションエンコードプロンプトはUMT5-XXLでWanVideoTextEncode (#605)にエンコードされます。開始フレーム/終了フレームの画像はWanVideoImageToVideoEncode (#89)でビデオ潜在に変換されます。TTMモーション潜在とオプションの時間マスクはWanVideoAddTTMLatents (#104)を介してマージされ、サンプラーが意味（テキスト）と軌道のキューを受け取ります。これは制御可能なアニメーションにとって重要です。
サンプラーとプレビュー Wanサンプラー (WanVideoSampler (#27) および WanVideoSampler (#90)) は、デュアルクロックセットアップを使用して潜在をデノイズします。1つのパスはグローバルダイナミクスを管理し、もう1つはローカルの外観を保持します。ステップと設定可能なCFGスケジュールは、モーションの強度と忠実度を形成します。結果はフレームにデコードされ、ビデオとして保存されます。比較出力は、制御可能なアニメーションがブリーフに一致するかどうかを判断するのに役立ちます。

Comfyuiにおける制御可能なアニメーションワークフローの主要ノード

WanVideoImageToVideoEncode (#89) 開始フレーム/終了フレームの画像をモーション合成の種となるビデオ潜在にエンコードします。基本解像度やフレーム数を変更するときのみ調整します。入力と一致させてストレッチを避けます。マスクビデオを使用する場合は、その寸法がエンコードされた潜在サイズと一致していることを確認してください。
WanVideoAddTTMLatents (#104) TTMモーション潜在と時間マスクを制御ストリームに融合します。マスク入力をトグルしてモーションを被写体に制限します。空白のままにすると、モーションがグローバルに適用されます。背景に影響を与えずに軌道特定の制御可能なアニメーションが必要な場合に使用します。
SAM3VideoSegmentation (#687) いくつかの正および負のポイントを収集し、トラックフレームを選択し、クリップ全体に伝播します。サンプリング前にマスクドリフトを検証するために視覚化出力を使用します。プライバシーに敏感なワークフローやオフラインワークフローの場合、モデルゲーティングを必要としない SAM2 グループに切り替えます。
WanVideoSampler (#27) モーションとアイデンティティのバランスを取るデノイザーです。“Steps”とCFGスケジュールリストを組み合わせて、モーションの強さを押し上げたり緩和したりします。強すぎると外観を圧倒し、弱すぎるとモーションが過小になります。マスクがアクティブな場合、サンプラーは制御可能なアニメーションの安定性を向上させるために領域内の更新に集中します。

オプションの追加

高速な反復のために、LOW Wan2.2モデルで開始し、TTMでモーションを調整し、最終パスでHIGHに切り替えてテクスチャを回復します。
複雑なシルエットの場合、アーティストが描いたマスクビデオを使用します。ローダーは外部マスクを受け入れ、それらを一致するようにリサイズします。
“開始フレーム/終了フレーム”スイッチを使用して、視覚的に最初または最後のフレームをロックできます。長い編集でシームレスな引き渡しに便利です。
環境で利用可能な場合、最適化されたアテンション（例: SageAttention）を有効にすると、サンプリングが大幅に高速化されます。
出力フレームレートをソースに合わせて、制御可能なアニメーションでのタイミングの違いを避けます。

このワークフローは、テキストプロンプト、TTM潜在、堅牢なセグメンテーションを組み合わせて、トレーニング不要で領域認識のモーション制御を提供します。いくつかのターゲット入力で、モデルを維持し、シーンを一貫性のある状態に保ちながら、微妙でプロダクション対応の制御可能なアニメーションを指示できます。

謝辞

このワークフローは以下の作品とリソースを実装および構築しています。我々は、Mickmumpitz に感謝し、彼は制御可能なアニメーションのためのチュートリアル/投稿の作成者であり、time-to-moveチームのTTMに貢献とメンテナンスを感謝します。権威ある詳細については、以下のリンクされた元のドキュメントとリポジトリを参照してください。

リソース

Patreon/制御可能なアニメーション
- ドキュメント / リリースノート: Mickmumpitz Patreon post
time-to-move/TTM
- GitHub: time-to-move/TTM

注意: 参照されたモデル、データセット、コードの使用は、それぞれの著者およびメンテナによって提供されるライセンスおよび条件に従うものとします。

Want More ComfyUI Workflows?

Wan 2.2 | オープンソースのビデオ生成リーダー

今すぐ利用可能！より良い精度と滑らかな動き。

Wan 2.2 + Lightx2v V2 | 超高速 I2V & T2V

デュアル Light LoRA セットアップ、4倍速。

Wan 2.2 FLF2V | 始めと終わりのフレームビデオ生成

Wan 2.2 FLF2Vを使用して、始まりと終わりのフレームからスムーズなビデオを生成します。

Wan 2.2 Low Vram | Kijai Wrapper

低VRAM。もう待つ必要はありません。Kijaiラッパーが含まれています。

Wan 2.2 イメージ生成 | 2-in-1 ワークフローパック

MoE Mix + Low-Onlyとアップスケール。どちらかを選んでください。

Wan2.1 Stand In | 一貫したキャラクタービデオメーカー

1枚の参照画像からビデオ全体でキャラクターを一貫させます。

LBM Relighting | I2I

LBMを使用して画像ベースの照明入力で被写体を再照明します。

Qwen Edit 2509 ライトレストレーション | 写真リライトツール

悪い照明を素早く修正し、常に完璧で清潔かつバランスの取れた写真を得る。

フォローする

サポート

リソース

法的情報

RunComfy

RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン環境とサービス、および ComfyUIワークフロー魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Models, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。

AIビデオにおける制御可能なアニメーション | モーション制御ツール

AIビデオにおける制御可能なアニメーション: WanVideo + TTMモーション制御ワークフロー for ComfyUI

Comfyuiの制御可能なアニメーションにおける主要モデル

Comfyuiにおける制御可能なアニメーションワークフローの使用方法

Comfyuiにおける制御可能なアニメーションワークフローの主要ノード

オプションの追加

謝辞

リソース

Want More ComfyUI Workflows?

Wan 2.2 | オープンソースのビデオ生成リーダー

Wan 2.2 + Lightx2v V2 | 超高速 I2V & T2V

Wan 2.2 FLF2V | 始めと終わりのフレームビデオ生成

Wan 2.2 Low Vram | Kijai Wrapper

Wan 2.2 イメージ生成 | 2-in-1 ワークフローパック

Wan2.1 Stand In | 一貫したキャラクタービデオメーカー

LBM Relighting | I2I

Qwen Edit 2509 ライトレストレーション | 写真リライトツール