Wan Alphaは、Wan 2.1ファミリーを使用してネイティブのアルファチャンネルを持つビデオを生成するために設計されたComfyUIワークフローです。それは、キーイングやロトスコーピングなしでタイムラインに直接ドロップするRGBとアルファを共同で生成します。VFX、モーショングラフィックス、インタラクティブアプリのために、Wan Alphaはクリーンなエッジ、半透明の効果、そして生産準備が整ったフレーム精度のマスクを提供します。
Wan2.1‑T2V‑14Bとアルファ対応のVAEペアを中心に構築されたWan Alphaは、忠実性と速度のバランスを取ります。オプションのLightX2V LoRAアクセラレーションは、詳細を保持しながらサンプリングを短縮し、ワークフローはRGBAフレームシーケンスとアニメーションWebPプレビューを迅速にレビューするためにエクスポートします。
このComfyUIグラフは、プロンプトからRGBAフレームへの簡単なパスに従います: モデルをロードし、テキストをエンコードし、ビデオ潜在を割り当て、サンプルを取得し、RGBとアルファを同期してデコードし、それから保存します。
モデルとLoRAの読み込み
Load Wan 2.1 t2v 14B
(#37) から始めます。アクセラレーションやスタイルの洗練を使用する場合は、順番に LoraLoaderModelOnly
(#59) と LoraLoaderModelOnly
(#65) を適用します。モデルはその後、ロードされたチェックポイントと互換性のあるサンプラーを設定する ModelSamplingSD3
(#48) を通過します。このスタックはモーションプライオリティとレンダリングスタイルを定義し、後のステップでWan Alphaがそれを洗練します。プロンプトエンコード
Load Text Encoder
(#38) はUMT5‑XXLテキストエンコーダーをロードします。CLIP Text Encode (Positive Prompt)
(#6) に説明を入力し、主題、アクション、カメラフレーミング、「透明背景」というフレーズを簡潔に保ちます。必要に応じて CLIP Text Encode (Negative Prompt) Useless s
(#7) を使用して、ハローや背景の雑音を避けます。これらのエンコーディングは、RGBとアルファの生成を条件付けるので、エッジと透明性のキューがあなたの意図に従います。ビデオキャンバスの設定
EmptyHunyuanLatentVideo
(#40) を使用して潜在ビデオキャンバスを定義します。width
、height
、frames
、および fps
をショットに合わせて設定します。高解像度や長いクリップはより多くのメモリを必要とします。このノードは、一貫した時間的潜在ボリュームを割り当て、Wan Alphaがモーションと外観でそれを埋めます。後でリサンプリングを避けるために、編集に一致する期間とフレームレートを考慮します。生成
KSampler
(#3) は、モデルスタックとプロンプト条件を使用してビデオ潜在に拡散を実行します。バリエーションのために seed
を調整し、速度と詳細のバランスを取る sampler
と scheduler
を選択します。LightX2V LoRAがアクティブな場合、より少ないステップを使用して、安定性を維持しながら高速なレンダリングが可能です。出力は、次のデコードステージで完全なRGBA整合性を保証する単一の潜在ストリームです。RGBとアルファのデコード
RGB VAE Decode
(#8) は VAELoader
(#39) とペアになり、RGBフレームを再構築します。並行して、Alpha VAE Decode
(#52) は VAELoader
(#51) とペアになり、アルファチャンネルを再構築します。両方のデコーダーは同じ潜在を読み取るので、マットがカラーのピクセルと正確に整合します。これは、Wan‑Alphaのデザインにおいて一貫した透明性を実現するための核心的なアイデアです。このデュアルパスデコードは、Wan Alphaが直接合成に準備ができている理由です。保存とプレビュー
SavePNGZIP_and_Preview_RGBA_AnimatedWEBP
(#73) は、RGBA PNGフレームのzipアーカイブとコンパクトなアニメーションWebPプレビューの2つの成果物を書き出します。フレームシーケンスはNLEやコンポジターにとって生産に適しており、プレビューはレビューを迅速化します。出力セットに名前を付け、プレビューの長さと品質を選択し、ノードを実行して結果をパッケージ化します。EmptyHunyuanLatentVideo
(#40)
width
、height
、frames
、および fps
を配信に合わせて調整します。大きなキャンバスや長い期間はVRAMの必要性を高めます。ルック開発のために短いドラフトを使用し、最終版のためにスケールアップします。KSampler
(#3)
seed
を調整して探索し、steps
を調整して速度と詳細をトレードオフし、sampler
と scheduler
を安定性のために選択し、cfg
を調整してプロンプトの遵守と自然なモーションをバランスさせます。LightX2V LoRAがアクティブな場合、ステップ蒸留のおかげで、品質を維持しながらステップを大幅に減らすことができます。高速サンプリングに関するコンテキストについては、LightX2Vを参照してください。 ModelTC/LightX2VLoraLoaderModelOnly
(#59)
strength
コントロールを使用してその効果をブレンドします。このLoRAをチェーンのベースモデルの最も近くに保ち、下流のLoRAがその速度の利点を継承するようにします。LoraLoaderModelOnly
(#65)
strength
を控えめにし、プロンプトと組み合わせて使用します。アーティファクトが現れる場合、このLoRAを下げてからサンプラーを変更します。VAELoader
(#39) RGB
RGB VAE Decode
(#8) で使用されるRGB VAEを提供します。Wan‑AlphaアルファVAEとペアを保ち、両方のデコーダーが潜在を一貫して解釈するようにします。無関係なVAEに切り替えると、エッジがずれたり透明性が柔らかくなる可能性があります。共同RGB–アルファ設計の背景については、Wan‑Alphaレポートを参照してください。 Wan‑Alpha (arXiv)VAELoader
(#51) Alpha
Alpha VAE Decode
(#52) で使用されるアルファVAEを提供します。それはRGBと同じ潜在空間からマットを再構築し、透明性がモーションと詳細に一致するようにします。VAEをカスタマイズする場合、髪の毛のようなサブピクセルエッジでRGBとアルファがまだ整合していることをテストしてください。SavePNGZIP_and_Preview_RGBA_AnimatedWEBP
(#73)
output_name
を設定し、生成されたクリップを反映するプレビューの品質とフレームレートを選択し、PNGエクスポートをロスレス合成のためのマスターとして保持します。デコードと保存の間でリサイズを避けて、エッジの忠実性を保持します。Wan Alphaで使用されるリソース
このワークフローは、以下の作品とリソースを実装し、それに基づいて構築されています。WeChatCVのWan-Alphaに感謝し、その貢献とメンテナンスに感謝します。公式の詳細については、以下にリンクされた元のドキュメントとリポジトリを参照してください。
注: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者およびメンテナによって提供されたライセンスおよび条件に従います。
RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Playground, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。