Wan Alpha in ComfyUI | アルファチャンネルビデオワークフロー

Wan Alpha: プロフェッショナルな合成のための透明なテキストからビデオへ

Wan Alphaは、Wan 2.1ファミリーを使用してネイティブのアルファチャンネルを持つビデオを生成するために設計されたComfyUIワークフローです。それは、キーイングやロトスコーピングなしでタイムラインに直接ドロップするRGBとアルファを共同で生成します。VFX、モーショングラフィックス、インタラクティブアプリのために、Wan Alphaはクリーンなエッジ、半透明の効果、そして生産準備が整ったフレーム精度のマスクを提供します。

Wan2.1‑T2V‑14Bとアルファ対応のVAEペアを中心に構築されたWan Alphaは、忠実性と速度のバランスを取ります。オプションのLightX2V LoRAアクセラレーションは、詳細を保持しながらサンプリングを短縮し、ワークフローはRGBAフレームシーケンスとアニメーションWebPプレビューを迅速にレビューするためにエクスポートします。

Comfyui Wan Alphaワークフローの主要モデル

Wan2.1‑T2V‑14B。シーン構造、モーション、レンダリング品質を駆動する基盤のテキストからビデオへのモデル。公式の重みとコードはGitHubのWan-Video組織で管理されています。 Wan-Video/Wan2.1
UMT5‑XXLテキストエンコーダー。Wanモデルのプロンプトをトークン化し、埋め込むために使用される多言語エンコーダーで、複数の言語での豊かなプロンプトフレージングを可能にします。 google/umt5-xxl および UMT5 docs
Wan‑Alpha VAEペア。RGBとアルファを共同で学習し、デコードされたアルファがRGBとピクセル単位で整合するようにするVAE設計で、細かいエッジと半透明性をサポートします。背景についてはWan‑Alpha技術報告を参照してください。 Wan‑Alpha (arXiv)
LightX2V LoRA。長いサンプラーを少数のステップに蒸留し、知覚品質を維持しながらテキストからビデオへのレンダリングを高速化するオプションのアクセラレーションLoRA。 ModelTC/LightX2V

Comfyui Wan Alphaワークフローの使い方

このComfyUIグラフは、プロンプトからRGBAフレームへの簡単なパスに従います: モデルをロードし、テキストをエンコードし、ビデオ潜在を割り当て、サンプルを取得し、RGBとアルファを同期してデコードし、それから保存します。

モデルとLoRAの読み込み

基本モデルを取り込むには Load Wan 2.1 t2v 14B (#37) から始めます。アクセラレーションやスタイルの洗練を使用する場合は、順番に LoraLoaderModelOnly (#59) と LoraLoaderModelOnly (#65) を適用します。モデルはその後、ロードされたチェックポイントと互換性のあるサンプラーを設定する ModelSamplingSD3 (#48) を通過します。このスタックはモーションプライオリティとレンダリングスタイルを定義し、後のステップでWan Alphaがそれを洗練します。

プロンプトエンコード

Load Text Encoder (#38) はUMT5‑XXLテキストエンコーダーをロードします。CLIP Text Encode (Positive Prompt) (#6) に説明を入力し、主題、アクション、カメラフレーミング、「透明背景」というフレーズを簡潔に保ちます。必要に応じて CLIP Text Encode (Negative Prompt) Useless s (#7) を使用して、ハローや背景の雑音を避けます。これらのエンコーディングは、RGBとアルファの生成を条件付けるので、エッジと透明性のキューがあなたの意図に従います。

ビデオキャンバスの設定

EmptyHunyuanLatentVideo (#40) を使用して潜在ビデオキャンバスを定義します。width、height、frames、および fps をショットに合わせて設定します。高解像度や長いクリップはより多くのメモリを必要とします。このノードは、一貫した時間的潜在ボリュームを割り当て、Wan Alphaがモーションと外観でそれを埋めます。後でリサンプリングを避けるために、編集に一致する期間とフレームレートを考慮します。

生成

KSampler (#3) は、モデルスタックとプロンプト条件を使用してビデオ潜在に拡散を実行します。バリエーションのために seed を調整し、速度と詳細のバランスを取る sampler と scheduler を選択します。LightX2V LoRAがアクティブな場合、より少ないステップを使用して、安定性を維持しながら高速なレンダリングが可能です。出力は、次のデコードステージで完全なRGBA整合性を保証する単一の潜在ストリームです。

RGBとアルファのデコード

RGB VAE Decode (#8) は VAELoader (#39) とペアになり、RGBフレームを再構築します。並行して、Alpha VAE Decode (#52) は VAELoader (#51) とペアになり、アルファチャンネルを再構築します。両方のデコーダーは同じ潜在を読み取るので、マットがカラーのピクセルと正確に整合します。これは、Wan‑Alphaのデザインにおいて一貫した透明性を実現するための核心的なアイデアです。このデュアルパスデコードは、Wan Alphaが直接合成に準備ができている理由です。

保存とプレビュー

SavePNGZIP_and_Preview_RGBA_AnimatedWEBP (#73) は、RGBA PNGフレームのzipアーカイブとコンパクトなアニメーションWebPプレビューの2つの成果物を書き出します。フレームシーケンスはNLEやコンポジターにとって生産に適しており、プレビューはレビューを迅速化します。出力セットに名前を付け、プレビューの長さと品質を選択し、ノードを実行して結果をパッケージ化します。

Comfyui Wan Alphaワークフローの主要ノード

EmptyHunyuanLatentVideo (#40)

役割: 生成されたクリップの空間的および時間的解像度を定義します。width、height、frames、および fps を配信に合わせて調整します。大きなキャンバスや長い期間はVRAMの必要性を高めます。ルック開発のために短いドラフトを使用し、最終版のためにスケールアップします。

KSampler (#3)

役割: Wan Alphaの主要なデノイザーです。seed を調整して探索し、steps を調整して速度と詳細をトレードオフし、sampler と scheduler を安定性のために選択し、cfg を調整してプロンプトの遵守と自然なモーションをバランスさせます。LightX2V LoRAがアクティブな場合、ステップ蒸留のおかげで、品質を維持しながらステップを大幅に減らすことができます。高速サンプリングに関するコンテキストについては、LightX2Vを参照してください。 ModelTC/LightX2V

LoraLoaderModelOnly (#59)

役割: Wan2.1サンプリングを加速するLightX2V LoRAをロードします。オーバーシャープやテンポアーティファクトが見られる場合は、strength コントロールを使用してその効果をブレンドします。このLoRAをチェーンのベースモデルの最も近くに保ち、下流のLoRAがその速度の利点を継承するようにします。

LoraLoaderModelOnly (#65)

役割: スタイルやドメインの洗練のための追加のLoRAをロードします。モーションの一貫性を圧倒しないように strength を控えめにし、プロンプトと組み合わせて使用します。アーティファクトが現れる場合、このLoRAを下げてからサンプラーを変更します。

VAELoader (#39) RGB

役割: RGB VAE Decode (#8) で使用されるRGB VAEを提供します。Wan‑AlphaアルファVAEとペアを保ち、両方のデコーダーが潜在を一貫して解釈するようにします。無関係なVAEに切り替えると、エッジがずれたり透明性が柔らかくなる可能性があります。共同RGB–アルファ設計の背景については、Wan‑Alphaレポートを参照してください。 Wan‑Alpha (arXiv)

VAELoader (#51) Alpha

役割: Alpha VAE Decode (#52) で使用されるアルファVAEを提供します。それはRGBと同じ潜在空間からマットを再構築し、透明性がモーションと詳細に一致するようにします。VAEをカスタマイズする場合、髪の毛のようなサブピクセルエッジでRGBとアルファがまだ整合していることをテストしてください。

SavePNGZIP_and_Preview_RGBA_AnimatedWEBP (#73)

役割: アセットをエクスポートします。バージョン管理のために明確な output_name を設定し、生成されたクリップを反映するプレビューの品質とフレームレートを選択し、PNGエクスポートをロスレス合成のためのマスターとして保持します。デコードと保存の間でリサイズを避けて、エッジの忠実性を保持します。

オプションの追加

Wan Alphaの強力なプロンプトは、主題、アクション、カメラ、照明、「透明背景」を明示的に記述します。アルファの詳細を活用するために「細い髪」や「ガラス」のような微妙な素材を追加します。
クイックイテレーションのために、短い期間や低いフレームレートを使用し、ルックとモーションがロックされた後に設定をアップスケールします。
ハローが見られる場合、「背景、アウトライン、グリーンスクリーン、ホワイトフリンジ」のような否定を追加し、プロンプト内の照明を一貫させます。
複数のLoRAを組み合わせる場合、加速LoRAを早期に配置し、スタイルLoRAを後期に配置し、モーションのリアリズムを保持するために強度を控えめにします。
RGBA PNGシーケンスをコンポジターに直接インポートし、アニメーションWebPはプレビューのみに使用し、マスターとしては使用しないでください。

Wan Alphaで使用されるリソース

Wan2.1モデルファミリーとコード: Wan-Video/Wan2.1
UMT5テキストエンコーダー: google/umt5-xxl および UMT5 docs
Wan‑Alpha方法の概要: Wan‑Alpha (arXiv)
LightX2Vアクセラレーション: ModelTC/LightX2V

謝辞

このワークフローは、以下の作品とリソースを実装し、それに基づいて構築されています。WeChatCVのWan-Alphaに感謝し、その貢献とメンテナンスに感謝します。公式の詳細については、以下にリンクされた元のドキュメントとリポジトリを参照してください。

リソース

WeChatCV/Wan-Alpha
- GitHub: WeChatCV/Wan-Alpha

注: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者およびメンテナによって提供されたライセンスおよび条件に従います。

Want More ComfyUI Workflows?

Wan 2.1 Control LoRA | 深度とタイル

軽量な深度とタイルのLoRAを使用して、Wan 2.1ビデオ生成を進化させ、構造と詳細を改善します。

Wan 2.1 ビデオリスタイル | 一貫したビデオスタイル変換

Wan 2.1ビデオリスタイルワークフローを使用して、リスタイルされた最初のフレームを適用することでビデオスタイルを変換します。

Wan 2.1 LoRA

LoRAモデルを使用してWan 2.1ビデオ生成を強化し、スタイルとカスタマイズを向上させます。

Wan 2.1 | 革新的なビデオ生成

画期的なAIを使用して、日常のCPUで動作するテキストまたは画像から信じられないほどのビデオを作成します。

PuLID Flux II | 一貫したキャラクター生成

芸術的なスタイルを維持しながら、正確なキャラクター制御で画像を生成します。

Flux Consistent Characters | Input Image

一貫性のあるキャラクターを作成し、画像を使用してそれらが均一に見えるようにします。

ComfyUI Img2Vid | モーフィングアニメーション

AnimateDiff LCM、IPAdapter、QRCode ControlNet、およびCustom Maskモジュールによるモーフィングアニメーション。

Qwen Image LoRA 推論 | AI Toolkit ComfyUI

単一の RCQwenImage カスタムノードを使用して、AI Toolkit でトレーニングされた Qwen Image LoRA 推論を ComfyUI プレビューに整合させます。

フォローする

サポート

リソース

法的情報

RunComfy

RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン環境とサービス、および ComfyUIワークフロー魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Models, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。

Wan Alpha | 透明ビデオジェネレーター

Wan Alpha: プロフェッショナルな合成のための透明なテキストからビデオへ

Comfyui Wan Alphaワークフローの主要モデル

Comfyui Wan Alphaワークフローの使い方

Comfyui Wan Alphaワークフローの主要ノード

オプションの追加

謝辞

リソース

Want More ComfyUI Workflows?

Wan 2.1 Control LoRA | 深度とタイル

Wan 2.1 ビデオリスタイル | 一貫したビデオスタイル変換

Wan 2.1 LoRA

Wan 2.1 | 革新的なビデオ生成

PuLID Flux II | 一貫したキャラクター生成

Flux Consistent Characters | Input Image

ComfyUI Img2Vid | モーフィングアニメーション

Qwen Image LoRA 推論 | AI Toolkit ComfyUI