Wan Alpha: プロフェッショナルな合成のための透明なテキストからビデオへ
Wan Alphaは、Wan 2.1ファミリーを使用してネイティブのアルファチャンネルを持つビデオを生成するために設計されたComfyUIワークフローです。それは、キーイングやロトスコーピングなしでタイムラインに直接ドロップするRGBとアルファを共同で生成します。VFX、モーショングラフィックス、インタラクティブアプリのために、Wan Alphaはクリーンなエッジ、半透明の効果、そして生産準備が整ったフレーム精度のマスクを提供します。
Wan2.1‑T2V‑14Bとアルファ対応のVAEペアを中心に構築されたWan Alphaは、忠実性と速度のバランスを取ります。オプションのLightX2V LoRAアクセラレーションは、詳細を保持しながらサンプリングを短縮し、ワークフローはRGBAフレームシーケンスとアニメーションWebPプレビューを迅速にレビューするためにエクスポートします。
Comfyui Wan Alphaワークフローの主要モデル
- Wan2.1‑T2V‑14B。シーン構造、モーション、レンダリング品質を駆動する基盤のテキストからビデオへのモデル。公式の重みとコードはGitHubのWan-Video組織で管理されています。 Wan-Video/Wan2.1
- UMT5‑XXLテキストエンコーダー。Wanモデルのプロンプトをトークン化し、埋め込むために使用される多言語エンコーダーで、複数の言語での豊かなプロンプトフレージングを可能にします。 google/umt5-xxl および UMT5 docs
- Wan‑Alpha VAEペア。RGBとアルファを共同で学習し、デコードされたアルファがRGBとピクセル単位で整合するようにするVAE設計で、細かいエッジと半透明性をサポートします。背景についてはWan‑Alpha技術報告を参照してください。 Wan‑Alpha (arXiv)
- LightX2V LoRA。長いサンプラーを少数のステップに蒸留し、知覚品質を維持しながらテキストからビデオへのレンダリングを高速化するオプションのアクセラレーションLoRA。 ModelTC/LightX2V
Comfyui Wan Alphaワークフローの使い方
このComfyUIグラフは、プロンプトからRGBAフレームへの簡単なパスに従います: モデルをロードし、テキストをエンコードし、ビデオ潜在を割り当て、サンプルを取得し、RGBとアルファを同期してデコードし、それから保存します。
モデルとLoRAの読み込み
- 基本モデルを取り込むには
Load Wan 2.1 t2v 14B(#37) から始めます。アクセラレーションやスタイルの洗練を使用する場合は、順番にLoraLoaderModelOnly(#59) とLoraLoaderModelOnly(#65) を適用します。モデルはその後、ロードされたチェックポイントと互換性のあるサンプラーを設定するModelSamplingSD3(#48) を通過します。このスタックはモーションプライオリティとレンダリングスタイルを定義し、後のステップでWan Alphaがそれを洗練します。
プロンプトエンコード
Load Text Encoder(#38) はUMT5‑XXLテキストエンコーダーをロードします。CLIP Text Encode (Positive Prompt)(#6) に説明を入力し、主題、アクション、カメラフレーミング、「透明背景」というフレーズを簡潔に保ちます。必要に応じてCLIP Text Encode (Negative Prompt) Useless s(#7) を使用して、ハローや背景の雑音を避けます。これらのエンコーディングは、RGBとアルファの生成を条件付けるので、エッジと透明性のキューがあなたの意図に従います。
ビデオキャンバスの設定
EmptyHunyuanLatentVideo(#40) を使用して潜在ビデオキャンバスを定義します。width、height、frames、およびfpsをショットに合わせて設定します。高解像度や長いクリップはより多くのメモリを必要とします。このノードは、一貫した時間的潜在ボリュームを割り当て、Wan Alphaがモーションと外観でそれを埋めます。後でリサンプリングを避けるために、編集に一致する期間とフレームレートを考慮します。
生成
KSampler(#3) は、モデルスタックとプロンプト条件を使用してビデオ潜在に拡散を実行します。バリエーションのためにseedを調整し、速度と詳細のバランスを取るsamplerとschedulerを選択します。LightX2V LoRAがアクティブな場合、より少ないステップを使用して、安定性を維持しながら高速なレンダリングが可能です。出力は、次のデコードステージで完全なRGBA整合性を保証する単一の潜在ストリームです。
RGBとアルファのデコード
RGB VAE Decode(#8) はVAELoader(#39) とペアになり、RGBフレームを再構築します。並行して、Alpha VAE Decode(#52) はVAELoader(#51) とペアになり、アルファチャンネルを再構築します。両方のデコーダーは同じ潜在を読み取るので、マットがカラーのピクセルと正確に整合します。これは、Wan‑Alphaのデザインにおいて一貫した透明性を実現するための核心的なアイデアです。このデュアルパスデコードは、Wan Alphaが直接合成に準備ができている理由です。
保存とプレビュー
SavePNGZIP_and_Preview_RGBA_AnimatedWEBP(#73) は、RGBA PNGフレームのzipアーカイブとコンパクトなアニメーションWebPプレビューの2つの成果物を書き出します。フレームシーケンスはNLEやコンポジターにとって生産に適しており、プレビューはレビューを迅速化します。出力セットに名前を付け、プレビューの長さと品質を選択し、ノードを実行して結果をパッケージ化します。
Comfyui Wan Alphaワークフローの主要ノード
EmptyHunyuanLatentVideo (#40)
- 役割: 生成されたクリップの空間的および時間的解像度を定義します。
width、height、frames、およびfpsを配信に合わせて調整します。大きなキャンバスや長い期間はVRAMの必要性を高めます。ルック開発のために短いドラフトを使用し、最終版のためにスケールアップします。
KSampler (#3)
- 役割: Wan Alphaの主要なデノイザーです。
seedを調整して探索し、stepsを調整して速度と詳細をトレードオフし、samplerとschedulerを安定性のために選択し、cfgを調整してプロンプトの遵守と自然なモーションをバランスさせます。LightX2V LoRAがアクティブな場合、ステップ蒸留のおかげで、品質を維持しながらステップを大幅に減らすことができます。高速サンプリングに関するコンテキストについては、LightX2Vを参照してください。 ModelTC/LightX2V
LoraLoaderModelOnly (#59)
- 役割: Wan2.1サンプリングを加速するLightX2V LoRAをロードします。オーバーシャープやテンポアーティファクトが見られる場合は、
strengthコントロールを使用してその効果をブレンドします。このLoRAをチェーンのベースモデルの最も近くに保ち、下流のLoRAがその速度の利点を継承するようにします。
LoraLoaderModelOnly (#65)
- 役割: スタイルやドメインの洗練のための追加のLoRAをロードします。モーションの一貫性を圧倒しないように
strengthを控えめにし、プロンプトと組み合わせて使用します。アーティファクトが現れる場合、このLoRAを下げてからサンプラーを変更します。
VAELoader (#39) RGB
- 役割:
RGB VAE Decode(#8) で使用されるRGB VAEを提供します。Wan‑AlphaアルファVAEとペアを保ち、両方のデコーダーが潜在を一貫して解釈するようにします。無関係なVAEに切り替えると、エッジがずれたり透明性が柔らかくなる可能性があります。共同RGB–アルファ設計の背景については、Wan‑Alphaレポートを参照してください。 Wan‑Alpha (arXiv)
VAELoader (#51) Alpha
- 役割:
Alpha VAE Decode(#52) で使用されるアルファVAEを提供します。それはRGBと同じ潜在空間からマットを再構築し、透明性がモーションと詳細に一致するようにします。VAEをカスタマイズする場合、髪の毛のようなサブピクセルエッジでRGBとアルファがまだ整合していることをテストしてください。
SavePNGZIP_and_Preview_RGBA_AnimatedWEBP (#73)
- 役割: アセットをエクスポートします。バージョン管理のために明確な
output_nameを設定し、生成されたクリップを反映するプレビューの品質とフレームレートを選択し、PNGエクスポートをロスレス合成のためのマスターとして保持します。デコードと保存の間でリサイズを避けて、エッジの忠実性を保持します。
オプションの追加
- Wan Alphaの強力なプロンプトは、主題、アクション、カメラ、照明、「透明背景」を明示的に記述します。アルファの詳細を活用するために「細い髪」や「ガラス」のような微妙な素材を追加します。
- クイックイテレーションのために、短い期間や低いフレームレートを使用し、ルックとモーションがロックされた後に設定をアップスケールします。
- ハローが見られる場合、「背景、アウトライン、グリーンスクリーン、ホワイトフリンジ」のような否定を追加し、プロンプト内の照明を一貫させます。
- 複数のLoRAを組み合わせる場合、加速LoRAを早期に配置し、スタイルLoRAを後期に配置し、モーションのリアリズムを保持するために強度を控えめにします。
- RGBA PNGシーケンスをコンポジターに直接インポートし、アニメーションWebPはプレビューのみに使用し、マスターとしては使用しないでください。
Wan Alphaで使用されるリソース
- Wan2.1モデルファミリーとコード: Wan-Video/Wan2.1
- UMT5テキストエンコーダー: google/umt5-xxl および UMT5 docs
- Wan‑Alpha方法の概要: Wan‑Alpha (arXiv)
- LightX2Vアクセラレーション: ModelTC/LightX2V
謝辞
このワークフローは、以下の作品とリソースを実装し、それに基づいて構築されています。WeChatCVのWan-Alphaに感謝し、その貢献とメンテナンスに感謝します。公式の詳細については、以下にリンクされた元のドキュメントとリポジトリを参照してください。
リソース
- WeChatCV/Wan-Alpha
- GitHub: WeChatCV/Wan-Alpha
注: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者およびメンテナによって提供されたライセンスおよび条件に従います。
