Wan Alpha: 专业合成的透明文本转视频
Wan Alpha 是一个专为 ComfyUI 设计的工作流程,使用 Wan 2.1 系列生成具有原生 alpha 通道的视频。它同时生成 RGB 和 alpha,使角色、道具和效果无需抠像或转描即可直接进入时间线。对于 VFX、动态图形和交互式应用程序,Wan Alpha 提供干净的边缘、半透明效果和生产就绪的帧精确遮罩。
基于 Wan2.1‑T2V‑14B 和一个对 alpha 有感知的 VAE 配对,Wan Alpha 在保真度和速度之间取得平衡。可选的 LightX2V LoRA 加速缩短了采样时间,同时保留了细节,该工作流程导出 RGBA 帧序列以及用于快速审阅的动画 WebP 预览。
Comfyui Wan Alpha 工作流程中的关键模型
- Wan2.1‑T2V‑14B。基础文本转视频模型,驱动场景结构、运动和渲染质量。官方权重和代码由 GitHub 上的 Wan-Video 组织维护。Wan-Video/Wan2.1
- UMT5‑XXL 文本编码器。用于标记和嵌入 Wan 模型提示的多语言编码器,支持多语言的丰富提示措辞。google/umt5-xxl 和 UMT5 docs
- Wan‑Alpha VAE 配对。设计用于同时学习 RGB 和 alpha,使解码后的 alpha 与 RGB 精确对齐,支持精细边缘和半透明效果。有关背景信息,请参阅 Wan‑Alpha 技术报告。Wan‑Alpha (arXiv)
- LightX2V LoRA。可选的加速 LoRA,将长采样器浓缩为几个步骤,以更快的文本转视频速度,同时保持感知质量。ModelTC/LightX2V
如何使用 Comfyui Wan Alpha 工作流程
这个 ComfyUI 图从提示到 RGBA 帧遵循一个简单的路径:加载模型,编码文本,分配视频潜在,采样,锁步解码 RGB 和 alpha,然后保存。
模型和 LoRA 加载
- 从
Load Wan 2.1 t2v 14B(#37) 开始引入基础模型。如果您使用加速或风格改进,请按顺序应用LoraLoaderModelOnly(#59) 和LoraLoaderModelOnly(#65)。然后,模型通过ModelSamplingSD3(#48),配置与加载的检查点兼容的采样器。此堆栈定义了 Wan Alpha 在后续步骤中改进的运动先验和渲染风格。
提示编码
Load Text Encoder(#38) 加载 UMT5‑XXL 文本编码器。在CLIP Text Encode (Positive Prompt)(#6) 中输入您的描述;保持主题、动作、相机框架和短语“transparent background”简洁明了。使用CLIP Text Encode (Negative Prompt) Useless s(#7) 避免光晕或背景杂乱(如有需要)。这些编码条件 RGB 和 alpha 生成,使边缘和透明度提示符合您的意图。
视频画布设置
- 使用
EmptyHunyuanLatentVideo(#40) 定义潜在视频画布。设置width、height、frames和fps以适应您的镜头;更高的分辨率或更长的剪辑需要更多内存。此节点分配一个时间一致的潜在体积,Wan Alpha 将填充运动和外观。考虑匹配的持续时间和帧速率以避免后期重采样。
生成
KSampler(#3) 使用您的模型堆栈和提示条件对视频潜在进行扩散。调整seed以进行变体,并选择平衡速度和细节的sampler和scheduler。当 LightX2V LoRA 激活时,您可以使用更少的步骤来更快地渲染,同时保持稳定性。输出是下一个解码阶段共享的单一潜在流,以保证完美的 RGBA 对齐。
解码 RGB 和 alpha
RGB VAE Decode(#8) 与VAELoader(#39) 配对重建 RGB 帧。与此同时,Alpha VAE Decode(#52) 与VAELoader(#51) 配对重建 alpha 通道。两个解码器读取相同的潜在,因此遮罩与颜色像素完全对齐,这是 Wan‑Alpha 设计中保持一致透明度的核心理念。此双路径解码使 Wan Alpha 准备好直接合成。
保存和预览
SavePNGZIP_and_Preview_RGBA_AnimatedWEBP(#73) 写入两个交付文件:一个 RGBA PNG 帧的 zip 存档和一个紧凑的动画 WebP 预览。帧序列对 NLE 和合成器友好,而预览加速了审阅。命名您的输出集,选择预览长度和质量,然后运行节点以打包您的结果。
Comfyui Wan Alpha 工作流程中的关键节点
EmptyHunyuanLatentVideo (#40)
- 角色:定义生成剪辑的空间和时间分辨率。调整
width、height、frames和fps以匹配交付。更大的画布和更长的持续时间会增加 VRAM 需求;考虑用于外观开发的较短草稿,然后为最终版本放大。
KSampler (#3)
- 角色:Wan Alpha 的主要去噪器。调整
seed以进行探索,steps以在速度和细节之间进行权衡,sampler和scheduler以保持稳定性,以及cfg以平衡提示符合性和自然运动。活跃的 LightX2V LoRA 使您可以显著减少steps,同时由于步骤蒸馏而保留质量。有关快速采样的上下文,请参见 LightX2V。ModelTC/LightX2V
LoraLoaderModelOnly (#59)
- 角色:加载加速 Wan2.1 采样的 LightX2V LoRA。如果您看到过度锐化或节奏伪影,请使用
strength控制其效果混合。将此 LoRA 放在链中最接近基础模型的位置,以便下游 LoRA 继承其速度优势。
LoraLoaderModelOnly (#65)
- 角色:加载用于风格或领域改进的附加 LoRA。适度
strength以避免过度影响运动连贯性;结合您的提示而不是替换它。如果出现伪影,请先降低此 LoRA,然后再更改采样器。
VAELoader (#39) RGB
- 角色:提供
RGB VAE Decode(#8) 使用的 RGB VAE。保持与 Wan‑Alpha alpha VAE 配对,以确保两个解码器一致地解释潜在。如果更换为不相关的 VAE,可能会导致边缘对齐不良或透明度变软。关于联合 RGB-alpha 设计的背景,请参见 Wan‑Alpha 报告。Wan‑Alpha (arXiv)
VAELoader (#51) Alpha
- 角色:提供
Alpha VAE Decode(#52) 使用的 alpha VAE。它从与 RGB 相同的潜在空间重建遮罩,因此透明度与运动和细节匹配。如果您自定义 VAE,请测试 RGB 和 alpha 在头发等亚像素边缘上是否仍然对齐。
SavePNGZIP_and_Preview_RGBA_AnimatedWEBP (#73)
- 角色:导出资产。设置清晰的
output_name以进行版本控制,选择反映生成剪辑的预览质量和帧速率,并保持 PNG 导出作为无损合成的主文件。避免在解码和保存之间调整大小以保持边缘保真度。
可选附加功能
- 针对 Wan Alpha 的强提示明确描述主题、动作、相机、灯光和“transparent background”。添加像“稀薄的头发”或“玻璃”这样的细微材质,以锻炼 alpha 细节。
- 为了快速迭代,使用较短的持续时间或较低的帧速率,然后一旦外观和运动锁定,放大设置。
- 如果看到光晕,请添加负面因素,如“背景、轮廓、绿幕、白色边缘”,并在提示中保持灯光一致。
- 在组合多个 LoRA 时,将加速 LoRA 放在前面,风格 LoRA 放在后面,并保持适度的强度以保留运动逼真度。
- 直接将 RGBA PNG 序列导入您的合成器;仅将动画 WebP 用于预览,而不是作为主文件。
Wan Alpha 中使用的资源
- Wan2.1 模型系列和代码:Wan-Video/Wan2.1
- UMT5 文本编码器:google/umt5-xxl 和 UMT5 docs
- Wan‑Alpha 方法概述:Wan‑Alpha (arXiv)
- LightX2V 加速:ModelTC/LightX2V
致谢
此工作流程实现并建立在以下作品和资源之上。我们感谢 WeChatCV 对 Wan-Alpha 的贡献和维护。有关权威详细信息,请参阅下方链接的原始文档和存储库。
资源
- WeChatCV/Wan-Alpha
- GitHub: WeChatCV/Wan-Alpha
注意:引用的模型、数据集和代码的使用受其作者和维护者提供的各自许可证和条款约束。

