Wan 2.1 Ditto in ComfyUI | ビデオのスタイライズとモーションの一貫性

ComfyUI用Wan 2.1 Dittoビデオ再スタイルワークフロー

このワークフローは、シーンの構造と動きを維持しながら、任意の入力ビデオを再スタイリングするためにWan 2.1 Dittoを適用します。映画的、芸術的、または実験的な外観を持つ強力な時間的一貫性を求める編集者やクリエイター向けに設計されています。クリップをロードし、ターゲットルックを説明すると、Wan 2.1 Dittoがクリーンなスタイライズされたレンダリングを生成し、迅速なレビューのためのオプションの並列比較を提供します。

グラフは、Wan 2.1のテキストからビデオへのバックボーンをDittoのスタイル転送とモデルレベルでペアリングし、フレームごとのフィルターではなく、フレーム全体で一貫して変更が行われます。一般的な使用例には、アニメ変換、ピクセルアート、クレイメーション、水彩画、スチームパンク、またはシムからリアルへの編集が含まれます。すでにWanでコンテンツを生成している場合、このWan 2.1 Dittoワークフローは、信頼性の高いフリッカーフリーのビデオスタイリングのためにパイプラインに直接組み込むことができます。

Comfyui Wan 2.1 Dittoワークフローの主要モデル

Wan2.1‑T2V‑14Bテキストからビデオへのモデル。テキストと視覚的条件を与えられたときに時間的一貫性のある動きを合成する生成的バックボーンとして機能します。
Wan 2.1 VAE。ビデオレイテンツをエンコードおよびデコードし、サンプラーがコンパクトなスペースで動作し、フル解像度のフレームを信頼性高く再構築できるようにします。
mT5‑XXLテキストエンコーダー。プロンプトをシーンの内容とスタイルを導く豊かな言語埋め込みに変換します。mT5の背景については、Xueらの論文を参照してください。mT5: A Massively Multilingual Pre‑trained Text‑to‑Text Transformer。
Wan 2.1用Dittoスタイライズモデル。強力な時間的一貫性を持つ堅牢なグローバル再スタイリングを提供します。Dittoのアプローチとモデルファイルはここで文書化されています：EzioBy/Ditto。
Wan 2.1 14B用のオプションのLoRA。基本モデルを再訓練することなく、軽量のスタイルまたは動作のシフトを追加します。LoRAメソッドはHu et al., 2021で説明されています。

Comfyui Wan 2.1 Dittoワークフローの使用方法

ワークフローは、モデルのロード、入力ビデオの準備、テキストと視覚のエンコード、サンプリングとエクスポートの4つのステージで実行されます。グループはシーケンスで動作し、スタイライズされたレンダリングとオプションの並列比較の両方を生成します。

モデル

このグループは、Wan 2.1 Dittoに必要なすべてを準備します。基本バックボーンはWanVideoModelLoader (#130)でロードされ、WanVideoVAELoader (#60)とLoadWanVideoT5TextEncoder (#80)とペアリングされます。DittoコンポーネントはWanVideoVACEModelSelect (#128)で選択され、バックボーンを専用のDittoスタイライズ重み付けにポイントします。より強力な変換が必要な場合は、WanVideoLoraSelect (#122)でLoRAを接続できます。WanVideoBlockSwap (#68)は、制限されたVRAMで大きなモデルをスムーズに実行できるようにメモリ管理のために利用可能です。

入力パラメータ

ソースクリップをVHS_LoadVideo (#101)でロードします。次に、フレームはLayerUtility: ImageScaleByAspectRatio V2 (#76)を使用して一貫したジオメトリにリサイズされ、アスペクトを維持しながら、単純な整数入力JWInteger (#89)で制御される長辺解像度をターゲットにします。GetImageSizeAndCount (#65)は準備されたフレームを読み取り、幅、高さ、およびフレーム数をダウンストリームノードに転送し、Wan 2.1 Dittoが正しい空間サイズと持続時間をサンプルします。小さなプロンプトヘルパーCR Text (#104)が含まれており、独自のフィールドでプロンプトを作成することを好む場合に役立ちます。「最大変動制限」というタイトルのグループは、一貫した結果と安定したメモリ使用のために、長辺ピクセルターゲットを実用的な範囲内に保つようにリマインドします。

サンプリング

条件付けは2つの並行レーンで行われます。WanVideoTextEncode (#111)はあなたのプロンプトをテキスト埋め込みに変換し、意図とスタイルを定義します。WanVideoVACEEncode (#126)は準備されたビデオを視覚的埋め込みにエンコードし、編集のために構造と動きを保持します。オプションのガイダンスモジュールWanVideoSLG (#129)は、モデルがノイズ除去の軌跡を通じてスタイルとコンテンツをどのようにバランスさせるかを制御します。次に、WanVideoSampler (#119)は、Wan 2.1バックボーンをDitto、テキスト埋め込み、および視覚的埋め込みと融合し、スタイライズされたレイテンツを生成します。最後に、WanVideoDecode (#87)は、レイテンツからフレームを再構築し、Wan 2.1 Dittoが知られる時間的一貫性を持つスタイライズされたシーケンスを生成します。

出力と比較

プライマリエクスポートは、選択したフレームレートでWan 2.1 Dittoレンダーを保存するためにVHS_VideoCombine (#95)を使用します。迅速なレビューのために、グラフは元のフレームとスタイライズされたフレームをImageConcatMulti (#94)を使用して結合し、ImageScaleToTotalPixels (#133)で比較サイズを設定し、VHS_VideoCombine (#100)を介して並列のムービーを書き込みます。通常、出力フォルダーには、クリーンなスタイライズされたレンダーと、利害関係者が迅速に承認またはイテレートできる比較クリップの2つのビデオが含まれます。

プロンプトのアイデア

短く明確なプロンプトから始めて、繰り返し改善できます。Wan 2.1 Dittoに適した例:

日本のアニメスタイル、セルシェーディングビデオにする。
ピクセルアートビデオにする。
鉛筆スケッチスタイルビデオにする。
クレイメーションビデオにする。
水彩画スタイルビデオにする。
歯車、パイプ、真鍮の詳細を含むスチームパンクスタイルにする。
ネオンと未来的なインプラントを備えたサイバーパンクスタイルにする。
浮世絵スタイルビデオにする。
ルネッサンスアートスタイルビデオにする。
ゴッホによる絵にする。
LEGOスタイルに変える。
ジブリスタイルに変える。
3Dチビスタイルに変える。
ペーパーカッティングスタイルに変える。

Comfyui Wan 2.1 Dittoワークフローの主要ノード

WanVideoVACEModelSelect (#128) スタイライズに使用するDittoの重みを選択します。デフォルトのグローバルDittoモデルはほとんどの映像に対してバランスの取れた選択です。アニメからリアルへの変換が目標の場合、ノードノートで参照されているシムからリアルへのDittoバリアントを選択します。Dittoバリアントを切り替えると、他の設定に触れることなく再スタイルの特性が変わります。

WanVideoVACEEncode (#126) 入力フレームから視覚的条件付けを構築します。キーコントロールはwidth、height、num_framesで、準備されたビデオと一致させると最良の結果が得られます。strengthを使用して、Dittoのスタイルが編集にどれほど強く影響を与えるかを調整し、vace_start_percentとvace_end_percentを使用して、拡散の軌跡全体でいつ条件付けが適用されるかを制限します。非常に大きな解像度では、メモリ圧力を軽減するためにtiled_vaeを有効にします。

WanVideoTextEncode (#111) mT5‑XXLエンコーダーを介して正と負のプロンプトをエンコードし、スタイルとコンテンツを導きます。正のプロンプトは簡潔で説明的に保ち、負のプロンプトを使用してフリッカーや過剰な飽和などのアーティファクトを抑制します。force_offloadとdeviceオプションを使用して、大きなモデルを実行している場合に速度をメモリにトレードできます。

WanVideoSampler (#119) Wan 2.1バックボーンをDittoスタイライズで実行し、最終的なレイテンツを生成します。最も影響力のある設定はsteps、cfg、scheduler、およびseedです。元の構造をより多く保存したい場合はdenoise_strengthを使用し、slg_argsを接続してコンテンツの忠実性とスタイルの強さをバランスします。ステップまたはガイダンスを増やすと、時間を犠牲にして詳細が向上する可能性があります。

ImageScaleByAspectRatio V2 (#76) 条件付け前にすべてのフレームの安定したターゲットサイズを設定します。スタンドアロンの整数で長辺ターゲットを駆動し、小さく高速なプレビューをテストしてから、最終レンダリングのために解像度を上げます。A/B比較を意味のあるものにするために、繰り返し間でスケールを一貫して保ちます。

VHS_LoadVideo (#101)とVHS_VideoCombine (#95, #100) これらのノードはデコードとエンコードを処理します。タイミングを気にする場合はソースにフレームレートを合わせます。比較ライターは探索中に便利であり、最終エクスポートのために無効にすることができます。

オプションの追加機能

アニメからリアルへの編集の場合、サンプリング前にWanVideoVACEModelSelectでシムからリアルへのDittoバリアントを選択します。
「水彩画スタイルにする」のような短いプロンプトから始め、1または2つの記述子で改善します。長いリストはスタイルの強さを希薄化する傾向があります。
強いルックを押すときにフリッカー、圧縮アーティファクト、過剰な明るいハイライトを減らすために負のプロンプトを使用します。
結果を安定させ、シードを再現可能にするために、繰り返し間で長辺解像度を一貫して保ちます。
VRAMが不足している場合、モデルのオフロードとタイルオプションを有効にするか、フルサイズでレンダリングする前に小さな長辺値でプレビューします。

このWan 2.1 Dittoワークフローは、高品質なビデオ再スタイリングを予測可能かつ迅速にし、クリーンなプロンプト、一貫した動き、即時レビューまたは配信の準備が整った出力を提供します。

謝辞

このワークフローは、以下の作品とリソースを実装し、構築しています。我々はEzioByに感謝し、Wan 2.1 Ditto Sourceの貢献とメンテナンスに感謝します。権威ある詳細については、以下にリンクされている元の文書とリポジトリを参照してください。

リソース

EzioBy/Wan 2.1 Ditto Source
- GitHub: EzioBy/Ditto

注意: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者およびメンテナーによって提供されたライセンスおよび条件に従うものとします。

Want More ComfyUI Workflows?

Wan 2.1 ビデオリスタイル | 一貫したビデオスタイル変換

Wan 2.1ビデオリスタイルワークフローを使用して、リスタイルされた最初のフレームを適用することでビデオスタイルを変換します。

Wan 2.1 LoRA

LoRAモデルを使用してWan 2.1ビデオ生成を強化し、スタイルとカスタマイズを向上させます。

Wan 2.1 Control LoRA | 深度とタイル

軽量な深度とタイルのLoRAを使用して、Wan 2.1ビデオ生成を進化させ、構造と詳細を改善します。

Wan 2.1 | 革新的なビデオ生成

画期的なAIを使用して、日常のCPUで動作するテキストまたは画像から信じられないほどのビデオを作成します。

Wan FusionX | T2V+I2V+VACE 完全

これまでで最も強力なビデオ生成ソリューション！シネマグレードの詳細、あなたの個人映画スタジオ。

LatentSync| Lip Sync Model

高度な音声駆動のリップシンク技術。

フェイススワッピングのためのFlux PuLID

Flux PuLIDでフェイススワッピングプロジェクトを新たな高みに引き上げましょう。

Stable Video Infinity 2.0 | 長編ビデオジェネレーター

長く、滑らかで、ストーリー主導のAIビデオを簡単に作成。

フォローする

サポート

リソース

法的情報

RunComfy

RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン環境とサービス、および ComfyUIワークフロー魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Models, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。

Wan 2.1 Ditto | 映画風ビデオ再スタイルジェネレーター

ComfyUI用Wan 2.1 Dittoビデオ再スタイルワークフロー

Comfyui Wan 2.1 Dittoワークフローの主要モデル

Comfyui Wan 2.1 Dittoワークフローの使用方法

モデル

入力パラメータ

サンプリング

出力と比較

プロンプトのアイデア

Comfyui Wan 2.1 Dittoワークフローの主要ノード

オプションの追加機能

謝辞

リソース

Want More ComfyUI Workflows?

Wan 2.1 ビデオリスタイル | 一貫したビデオスタイル変換

Wan 2.1 LoRA

Wan 2.1 Control LoRA | 深度とタイル

Wan 2.1 | 革新的なビデオ生成

Wan FusionX | T2V+I2V+VACE 完全

LatentSync| Lip Sync Model

フェイススワッピングのためのFlux PuLID

Stable Video Infinity 2.0 | 長編ビデオジェネレーター