Wan Alpha en ComfyUI | Flujo de trabajo de video con canal alfa

Wan Alpha: texto a video transparente para composición profesional

Wan Alpha es un flujo de trabajo de ComfyUI diseñado específicamente para generar videos con un canal alfa nativo usando la familia Wan 2.1. Produce conjuntamente RGB y alfa para que personajes, accesorios y efectos se integren directamente en las líneas de tiempo sin necesidad de keying o rotoscopía. Para VFX, gráficos en movimiento y aplicaciones interactivas, Wan Alpha ofrece bordes limpios, efectos semitransparentes y máscaras precisas listas para producción.

Construido alrededor de Wan2.1‑T2V‑14B y un par de VAE consciente del alfa, Wan Alpha equilibra fidelidad y velocidad. La aceleración opcional LightX2V LoRA acorta el muestreo mientras preserva el detalle, y el flujo de trabajo exporta secuencias de cuadros RGBA más una vista previa animada en WebP para una revisión rápida.

Modelos clave en el flujo de trabajo Comfyui Wan Alpha

Wan2.1‑T2V‑14B. Modelo de texto a video fundamental que impulsa la estructura de la escena, el movimiento y la calidad de renderizado. Los pesos oficiales y el código se mantienen en la organización Wan-Video en GitHub. Wan-Video/Wan2.1
Codificador de texto UMT5‑XXL. Codificador multilingüe utilizado para tokenizar e incrustar indicaciones para los modelos Wan, permitiendo una rica redacción de indicaciones en múltiples idiomas. google/umt5-xxl y UMT5 docs
Par VAE Wan‑Alpha. Un diseño VAE que aprende RGB y alfa conjuntamente para que el alfa decodificado se alinee píxel por píxel con RGB, apoyando bordes finos y semitransparencia. Consulta el informe técnico Wan‑Alpha para más información. Wan‑Alpha (arXiv)
LightX2V LoRA. LoRA de aceleración opcional que destila muestreadores largos a unos pocos pasos para un texto a video más rápido manteniendo la calidad perceptual. ModelTC/LightX2V

Cómo usar el flujo de trabajo Comfyui Wan Alpha

Este gráfico de ComfyUI sigue un camino directo desde la indicación hasta los cuadros RGBA: carga modelos, codifica texto, asigna un video latente, muestrea, decodifica RGB y alfa en sincronía, luego guarda.

Carga de modelo y LoRA

Comienza en Load Wan 2.1 t2v 14B (#37) para incorporar el modelo base. Si usas aceleración o refinamientos de estilo, aplícalos con LoraLoaderModelOnly (#59) y LoraLoaderModelOnly (#65) en secuencia. El modelo luego pasa por ModelSamplingSD3 (#48), que configura un muestreador compatible con el punto de control cargado. Esta pila define el movimiento previo y el estilo de renderizado que Wan Alpha refinará en pasos posteriores.

Codificación de indicaciones

Load Text Encoder (#38) carga el codificador de texto UMT5‑XXL. Ingresa tu descripción en CLIP Text Encode (Positive Prompt) (#6); mantén conciso tu sujeto, acción, encuadre de cámara y la frase "fondo transparente". Usa CLIP Text Encode (Negative Prompt) Useless s (#7) para evitar halos o desorden de fondo si es necesario. Estas codificaciones condicionan tanto la generación de RGB como de alfa para que los bordes y las señales de transparencia sigan tu intención.

Configuración de lienzo de video

Usa EmptyHunyuanLatentVideo (#40) para definir el lienzo de video latente. Establece width, height, frames y fps para ajustar tu toma; resoluciones más altas o clips más largos requieren más memoria. Este nodo asigna un volumen latente temporalmente consistente que Wan Alpha llenará con movimiento y apariencia. Considera igualar la duración y la tasa de cuadros a tu edición para evitar re-muestreo más tarde.

Generación

El KSampler (#3) realiza la difusión en el video latente usando tu pila de modelos y condicionamiento de indicaciones. Ajusta seed para variaciones, y selecciona un sampler y scheduler que equilibren velocidad y detalle. Cuando LightX2V LoRA está activo, puedes usar menos pasos para renderizados más rápidos mientras mantienes la estabilidad. La salida es una sola secuencia latente compartida por la siguiente etapa de decodificación para garantizar una alineación perfecta de RGBA.

Decodificación de RGB y alfa

RGB VAE Decode (#8) se empareja con VAELoader (#39) para reconstruir cuadros RGB. En paralelo, Alpha VAE Decode (#52) se empareja con VAELoader (#51) para reconstruir el canal alfa. Ambos decodificadores leen el mismo latente para que el mate se alinee exactamente con los píxeles de color, una idea central en el diseño de Wan‑Alpha para una transparencia consistente. Esta decodificación de doble camino es lo que hace que Wan Alpha esté listo para la composición directa.

Guardado y vista previa

SavePNGZIP_and_Preview_RGBA_AnimatedWEBP (#73) escribe dos entregables: un archivo zip de cuadros PNG RGBA y una vista previa animada compacta en WebP. La secuencia de cuadros es amigable para producción en NLEs y compositores, mientras que la vista previa acelera las revisiones. Nombra tu conjunto de salida, elige una longitud y calidad de vista previa, y ejecuta el nodo para empaquetar tu resultado.

Nodos clave en el flujo de trabajo Comfyui Wan Alpha

EmptyHunyuanLatentVideo (#40)

Rol: define la resolución espacial y temporal del clip generado. Ajusta width, height, frames, y fps para coincidir con la entrega. Los lienzos más grandes y las duraciones más largas aumentan las necesidades de VRAM; considera borradores más cortos para el desarrollo de la apariencia, luego escala para los finales.

KSampler (#3)

Rol: el principal desruidor de Wan Alpha. Ajusta seed para exploraciones, steps para intercambiar velocidad por detalle, sampler y scheduler para estabilidad, y cfg para equilibrar la adherencia a las indicaciones con el movimiento natural. Con LightX2V LoRA activo, puedes reducir significativamente los steps mientras preservas la calidad gracias a la destilación de pasos. Consulta LightX2V para contexto sobre el muestreo rápido. ModelTC/LightX2V

LoraLoaderModelOnly (#59)

Rol: carga el LightX2V LoRA que acelera el muestreo Wan2.1. Usa el control de strength para mezclar su efecto si notas sobreafilado o artefactos de tempo. Mantén este LoRA más cercano al modelo base en la cadena para que los LoRAs posteriores hereden sus beneficios de velocidad.

LoraLoaderModelOnly (#65)

Rol: carga un LoRA adicional para refinamiento de estilo o dominio. Modera strength para evitar dominar la coherencia del movimiento; combina con tu indicación en lugar de reemplazarla. Si aparecen artefactos, reduce este LoRA antes de cambiar el muestreador.

VAELoader (#39) RGB

Rol: proporciona el VAE RGB utilizado por RGB VAE Decode (#8). Mantén esto emparejado con el VAE alfa Wan‑Alpha para asegurar que ambos decodificadores interpreten coherentemente los latentes. Cambiar a VAEs no relacionados puede desalinear bordes o suavizar la transparencia. Antecedentes sobre el diseño conjunto RGB–alfa están en el informe Wan‑Alpha. Wan‑Alpha (arXiv)

VAELoader (#51) Alfa

Rol: proporciona el VAE alfa utilizado por Alpha VAE Decode (#52). Reconstruye el mate desde el mismo espacio latente que RGB para que la transparencia coincida con el movimiento y el detalle. Si personalizas VAEs, prueba que RGB y alfa aún se alineen en bordes subpíxel como el cabello.

SavePNGZIP_and_Preview_RGBA_AnimatedWEBP (#73)

Rol: exporta activos. Establece un output_name claro para la versionación, elige calidad de vista previa y tasa de cuadros que reflejen el clip generado, y mantén la exportación PNG como tu maestro para composición sin pérdidas. Evita cambiar de tamaño entre decodificar y guardar para preservar la fidelidad de los bordes.

Extras opcionales

Las indicaciones fuertes para Wan Alpha describen explícitamente sujeto, acción, cámara, iluminación y "fondo transparente". Agrega materiales sutiles como "cabello vaporoso" o "vidrio" para ejercitar el detalle del alfa.
Para iteraciones rápidas, usa duraciones más cortas o tasas de cuadros más bajas, luego aumenta la configuración una vez que la apariencia y el movimiento estén bloqueados.
Si ves halos, agrega negativos como "fondo, contorno, pantalla verde, borde blanco" y mantén la iluminación consistente en la indicación.
Al combinar múltiples LoRAs, coloca LoRAs de aceleración primero y LoRAs estilísticos después, y mantén las fuerzas modestas para retener el realismo del movimiento.
Importa la secuencia PNG RGBA directamente en tu compositor; usa el WebP animado solo para vistas previas, no como maestro.

Recursos utilizados en Wan Alpha

Familia de modelos Wan2.1 y código: Wan-Video/Wan2.1
Codificador de texto UMT5: google/umt5-xxl y UMT5 docs
Descripción del método Wan‑Alpha: Wan‑Alpha (arXiv)
Aceleración LightX2V: ModelTC/LightX2V

Agradecimientos

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a WeChatCV por Wan-Alpha por sus contribuciones y mantenimiento. Para detalles autorizados, consulte la documentación original y los repositorios enlazados a continuación.

Recursos

WeChatCV/Wan-Alpha
- GitHub: WeChatCV/Wan-Alpha

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Wan 2.1 Control LoRA | Profundidad y Mosaico

Avanza la generación de video Wan 2.1 con LoRAs de profundidad y mosaico ligeros para mejorar la estructura y el detalle.

Wan 2.1 Video Restyle | Transformación Consistente del Estilo de Video

Transforma el estilo de tu video aplicando el primer fotograma reestilizado usando el flujo de trabajo de reestilización de video Wan 2.1.

Wan 2.1 LoRA

Mejora la generación de video Wan 2.1 con modelos LoRA para un estilo y personalización mejorados.

Wan 2.1 | Generación de Video Revolucionaria

Crea videos increíbles a partir de texto o imágenes con IA revolucionaria ejecutándose en CPUs cotidianas.

PuLID Flux II | Generación de Personajes Consistentes

Genera imágenes con control preciso de personajes mientras preservas el estilo artístico.

Reemplazo de Personajes en Video (MoCha) | Herramienta de Intercambio Realista

Intercambia personajes de video rápidamente con control realista de movimiento e iluminación.

Hunyuan Image to Video | Creador de Movimiento Impresionante

Crea películas magníficas a partir de imágenes fijas mediante movimiento cinematográfico y efectos personalizables.

SAM 3D ComfyUI | Animación de Objetos y Cuerpo

Crea movimiento 3D realista y animación a partir de imágenes estáticas al instante.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

Wan Alpha | Generador de Video Transparente

Wan Alpha: texto a video transparente para composición profesional

Modelos clave en el flujo de trabajo Comfyui Wan Alpha

Cómo usar el flujo de trabajo Comfyui Wan Alpha

Nodos clave en el flujo de trabajo Comfyui Wan Alpha

Extras opcionales

Agradecimientos

Recursos

Want More ComfyUI Workflows?

Wan 2.1 Control LoRA | Profundidad y Mosaico

Wan 2.1 Video Restyle | Transformación Consistente del Estilo de Video

Wan 2.1 LoRA

Wan 2.1 | Generación de Video Revolucionaria

PuLID Flux II | Generación de Personajes Consistentes

Reemplazo de Personajes en Video (MoCha) | Herramienta de Intercambio Realista

Hunyuan Image to Video | Creador de Movimiento Impresionante

SAM 3D ComfyUI | Animación de Objetos y Cuerpo