Wan Alpha:專業合成的透明文本到視頻
Wan Alpha 是一個專為 ComfyUI 設計的工作流程,使用 Wan 2.1 系列生成具有原生 alpha 通道的視頻。它同時生成 RGB 和 alpha,讓角色、道具和效果無需鍵控或旋轉即可直接進入時間軸。對於 VFX、動態圖形和互動應用,Wan Alpha 提供乾淨的邊緣、半透明效果和準確的面具,準備好用於生產。
基於 Wan2.1‑T2V‑14B 和一對支持 alpha 的 VAE,Wan Alpha 在保真度和速度之間取得平衡。可選的 LightX2V LoRA 加速縮短了取樣時間,同時保持細節,工作流程導出 RGBA 幀序列以及動畫 WebP 預覽以便快速查看。
Comfyui Wan Alpha 工作流程中的關鍵模型
- Wan2.1‑T2V‑14B。驅動場景結構、運動和渲染質量的基礎文本到視頻模型。官方權重和代碼由 GitHub 上的 Wan-Video 組織維護。Wan-Video/Wan2.1
- UMT5‑XXL 文本編碼器。多語言編碼器,用於將提示標記化和嵌入到 Wan 模型中,支持多種語言的豐富提示短語。google/umt5-xxl 和 UMT5 文檔
- Wan‑Alpha VAE 配對。VAE 設計,聯合學習 RGB 和 alpha,以便解碼的 alpha 與 RGB 像素對齊,支持細邊緣和半透明。請參閱 Wan‑Alpha 技術報告以獲取背景資訊。Wan‑Alpha (arXiv)
- LightX2V LoRA。可選的加速 LoRA,將長時間的取樣濃縮到幾個步驟,以更快的文本到視頻速度同時保持感知質量。ModelTC/LightX2V
如何使用 Comfyui Wan Alpha 工作流程
這個 ComfyUI 圖遵循從提示到 RGBA 幀的簡單路徑:加載模型、編碼文本、分配視頻潛在因素、取樣、同步解碼 RGB 和 alpha,然後保存。
模型和 LoRA 加載
- 從
Load Wan 2.1 t2v 14B(#37) 開始引入基本模型。如果您使用加速或樣式精細化,請依次使用LoraLoaderModelOnly(#59) 和LoraLoaderModelOnly(#65) 應用它們。然後模型通過ModelSamplingSD3(#48),這配置了一個與加載的檢查點兼容的取樣器。這個堆疊定義了 Wan Alpha 將在後續步驟中改進的運動優先級和渲染風格。
提示編碼
Load Text Encoder(#38) 加載 UMT5‑XXL 文本編碼器。在CLIP Text Encode (Positive Prompt)(#6) 中輸入您的描述;保持您的主題、動作、相機構圖和短語“透明背景”簡潔。如果需要,使用CLIP Text Encode (Negative Prompt) Useless s(#7) 遠離光暈或背景雜亂。這些編碼條件化 RGB 和 alpha 的生成,以便邊緣和透明度提示遵循您的意圖。
視頻畫布設置
- 使用
EmptyHunyuanLatentVideo(#40) 定義潛在視頻畫布。設置width、height、frames和fps以適應您的拍攝;更高的分辨率或更長的剪輯需要更多的內存。此節點分配了一個時間一致的潛在體積,Wan Alpha 將其填充運動和外觀。考慮匹配持續時間和幀率以避免後期重取樣。
生成
KSampler(#3) 使用您的模型堆疊和提示條件對視頻潛在因素進行擴散。調整seed以獲得變化,選擇一個sampler和scheduler以平衡速度和細節。當 LightX2V LoRA 啟用時,您可以使用更少的步驟來進行更快的渲染,同時保持穩定性。輸出是一個單一的潛在流,由下一個解碼階段共享,以保證完美的 RGBA 對齊。
解碼 RGB 和 alpha
RGB VAE Decode(#8) 與VAELoader(#39) 配對以重建 RGB 幀。與此同時,Alpha VAE Decode(#52) 與VAELoader(#51) 配對以重建 alpha 通道。兩個解碼器都讀取相同的潛在因素,因此啞光與彩色像素完全對齊,這是 Wan‑Alpha 設計中一致透明度的核心理念。這種雙路徑解碼使 Wan Alpha 準備好直接合成。
保存和預覽
SavePNGZIP_and_Preview_RGBA_AnimatedWEBP(#73) 生成兩個交付物:一個 RGBA PNG 幀的壓縮包和一個緊湊的動畫 WebP 預覽。幀序列適合 NLE 和合成器的生產,而預覽加速了審查。命名您的輸出集,選擇預覽長度和質量,運行節點以打包結果。
Comfyui Wan Alpha 工作流程中的關鍵節點
EmptyHunyuanLatentVideo (#40)
- 角色:定義生成剪輯的空間和時間分辨率。調整
width、height、frames和fps以匹配交付。較大的畫布和較長的持續時間增加 VRAM 需求;考慮用於外觀開發的較短草案,然後放大以獲得最終結果。
KSampler (#3)
- 角色:Wan Alpha 的主要去噪器。調整
seed進行探索,steps以速度換取細節,sampler和scheduler以穩定性為目標,cfg以平衡提示遵循和自然運動。啟用 LightX2V LoRA 時,您可以顯著減少steps,同時由於步驟蒸餾保持質量。請參閱 LightX2V 以了解快速取樣的背景。ModelTC/LightX2V
LoraLoaderModelOnly (#59)
- 角色:加載加速 Wan2.1 取樣的 LightX2V LoRA。如果您看到過度銳化或速度伪影,使用
strength控制來混合其效果。保持此 LoRA 最接近鏈中的基本模型,以便下游 LoRAs 繼承其速度優勢。
LoraLoaderModelOnly (#65)
- 角色:加載額外的 LoRA 以進行樣式或領域精細化。適度的
strength以免過度影響運動一致性;與您的提示結合使用而不是替換它。如果出現伪影,請在更改取樣器之前降低此 LoRA。
VAELoader (#39) RGB
- 角色:提供
RGB VAE Decode(#8) 使用的 RGB VAE。保持這與 Wan‑Alpha alpha VAE 配對,以確保兩個解碼器協調解釋潛在因素。更換不相關的 VAE 可能會導致邊緣錯位或透明度減弱。聯合 RGB 和 alpha 設計的背景在 Wan‑Alpha 報告中。Wan‑Alpha (arXiv)
VAELoader (#51) Alpha
- 角色:提供
Alpha VAE Decode(#52) 使用的 alpha VAE。它從與 RGB 相同的潛在空間重建啞光,因此透明度與運動和細節匹配。如果您自定義 VAE,請測試 RGB 和 alpha 是否仍在子像素邊緣(如頭髮)上對齊。
SavePNGZIP_and_Preview_RGBA_AnimatedWEBP (#73)
- 角色:導出資產。設置一個明確的
output_name用於版本控制,選擇反映生成剪輯的預覽質量和幀率,並將 PNG 導出作為您的無損合成母版。在解碼和保存之間避免調整大小,以保持邊緣保真度。
可選附加功能
- 對 Wan Alpha 的強大提示明確描述主題、動作、相機、照明和“透明背景”。添加“飄逸的頭髮”或“玻璃”等微妙的材料,以發揮 alpha 細節。
- 為了快速迭代,使用較短的持續時間或較低的幀率,然後在外觀和運動鎖定後升級設置。
- 如果看到光暈,添加負面如“背景、輪廓、綠幕、白色邊緣”,並在提示中保持照明一致。
- 當組合多個 LoRA 時,將加速 LoRA 放在前面,將樣式 LoRA 放在後面,並保持強度適中以保留運動現實感。
- 將 RGBA PNG 序列直接導入到您的合成器中;僅將動畫 WebP 用於預覽,而不是作為母版。
Wan Alpha 使用的資源
- Wan2.1 模型系列和代碼:Wan-Video/Wan2.1
- UMT5 文本編碼器:google/umt5-xxl 和 UMT5 文檔
- Wan‑Alpha 方法概述:Wan‑Alpha (arXiv)
- LightX2V 加速:ModelTC/LightX2V
致謝
此工作流程實現並基於以下作品和資源。我們感謝 WeChatCV 對 Wan-Alpha 的貢獻和維護。欲了解權威細節,請參閱下方鏈接的原始文檔和存儲庫。
資源
- WeChatCV/Wan-Alpha
- GitHub: WeChatCV/Wan-Alpha
注意:引用的模型、數據集和代碼的使用受其作者和維護者提供的相應許可和條款的約束。
