Wan2.1 Stand In en ComfyUI | Flujo de trabajo de video con personajes consistentes

Wan2.1 Stand In: generación de video consistente con personajes a partir de una sola imagen para ComfyUI

Este flujo de trabajo convierte una imagen de referencia en un video corto donde el mismo rostro y estilo persisten en todos los cuadros. Impulsado por la familia Wan 2.1 y un Stand In LoRA diseñado específicamente, está diseñado para narradores, animadores y creadores de avatares que necesitan estabilidad de identidad con una configuración mínima. La canalización Wan2.1 Stand In maneja la limpieza de fondo, recorte, enmascaramiento e incrustación para que puedas centrarte en tu prompt y movimiento.

Usa el flujo de trabajo Wan2.1 Stand In cuando desees continuidad de identidad confiable a partir de una sola foto, iteraciones rápidas y MP4s listos para exportar, además de una salida opcional de comparación lado a lado.

Modelos clave en el flujo de trabajo ComfyUI Wan2.1 Stand In

Wan 2.1 Text‑to‑Video 14B. El generador principal responsable de la coherencia temporal y el movimiento. Soporta generación en 480p y 720p e integra con LoRAs para comportamientos y estilos dirigidos. Model card
Wan‑VAE para Wan 2.1. Un VAE espaciotemporal de alta eficiencia que codifica y decodifica latentes de video mientras preserva las señales de movimiento. Sustenta las etapas de codificación/decodificación de imagen en este flujo de trabajo. Consulta los recursos del modelo Wan 2.1 y las notas de integración de Diffusers para el uso de VAE. Model hub • Diffusers docs
Stand In LoRA para Wan 2.1. Un adaptador de consistencia de personajes entrenado para bloquear la identidad a partir de una sola imagen; en este gráfico se aplica al cargar el modelo para asegurar que la señal de identidad se fusione en la base. Files
LightX2V Step‑Distill LoRA (opcional). Un adaptador liviano que puede mejorar el comportamiento de orientación y eficiencia con Wan 2.1 14B. Model card
Módulo VACE para Wan 2.1 (opcional). Permite control de movimiento y edición a través de condicionamiento consciente de video. El flujo de trabajo incluye una ruta de incrustación que puedes habilitar para el control VACE. Model hub
Codificador de texto UMT5‑XXL. Proporciona una sólida codificación de prompts multilingües para Wan 2.1 de texto a video. Model card

Cómo usar el flujo de trabajo ComfyUI Wan2.1 Stand In

A simple vista: carga una imagen de referencia limpia y frontal, el flujo de trabajo prepara una máscara enfocada en el rostro y un compuesto, lo codifica a un latente, fusiona esa identidad en las incrustaciones de imagen de Wan 2.1, luego muestrea cuadros de video y exporta MP4. Se guardan dos salidas: la representación principal y una comparación lado a lado.

Proceso de entrada (grupo)

Comienza con una imagen bien iluminada y orientada hacia adelante en un fondo simple. La canalización carga tu imagen en LoadImage (#58), estandariza el tamaño con ImageResizeKJv2 (#142), y crea una máscara centrada en el rostro usando MediaPipe-FaceMeshPreprocessor (#144) y BinaryPreprocessor (#151). El fondo se elimina en TransparentBGSession+ (#127) y ImageRemoveBackground+ (#128), luego el sujeto se compone sobre un lienzo limpio con ImageCompositeMasked (#108) para minimizar el sangrado de color. Finalmente, ImagePadKJ (#129) y ImageResizeKJv2 (#68) alinean el aspecto para la generación; el cuadro preparado se codifica a un latente vía WanVideoEncode (#104).

Incrustaciones VACE (grupo opcional)

Si deseas control de movimiento a partir de un clip existente, cárgalo con VHS_LoadVideo (#161) y opcionalmente un video guía secundario o alfa con VHS_LoadVideo (#168). Los cuadros pasan por DWPreprocessor (#163) para señales de pose y ImageResizeKJv2 (#169) para igualar formas; ImageToMask (#171) y ImageCompositeMasked (#174) te permiten mezclar imágenes de control con precisión. WanVideoVACEEncode (#160) convierte estos en incrustaciones VACE. Esta ruta es opcional; déjala intacta cuando desees movimiento impulsado solo por texto de Wan 2.1.

Modelo, LoRAs y texto

WanVideoModelLoader (#22) carga la base Wan 2.1 14B más el Stand In LoRA para que la identidad se incruste desde el principio. Las características de velocidad amigables con VRAM están disponibles a través de WanVideoBlockSwap (#39) y se aplican con WanVideoSetBlockSwap (#70). Puedes adjuntar un adaptador extra como LightX2V vía WanVideoSetLoRAs (#79). Los prompts se codifican con WanVideoTextEncodeCached (#159), usando UMT5‑XXL bajo el capó para control multilingüe. Mantén los prompts concisos y descriptivos; enfatiza la ropa, el ángulo y la iluminación del sujeto para complementar la identidad Stand In.

Incrustación de identidad y muestreo

WanVideoEmptyEmbeds (#177) establece la forma objetivo para las incrustaciones de imagen, y WanVideoAddStandInLatent (#102) inyecta tu latente de referencia codificado para llevar la identidad a través del tiempo. Las incrustaciones de imagen y texto combinadas alimentan a WanVideoSampler (#27), que genera una secuencia de video latente usando el programador y pasos configurados. Después del muestreo, los cuadros se decodifican con WanVideoDecode (#28) y se escriben en un MP4 en VHS_VideoCombine (#180).

Vista de comparación y exportación

Para una QA instantánea, ImageConcatMulti (#122) apila los cuadros generados junto a la referencia redimensionada para que puedas juzgar la semejanza cuadro por cuadro. VHS_VideoCombine (#74) guarda eso como un MP4 "Compare" separado. Por lo tanto, el flujo de trabajo Wan2.1 Stand In produce un video final limpio más una verificación lado a lado sin esfuerzo adicional.

Nodulos clave en el flujo de trabajo ComfyUI Wan2.1 Stand In

WanVideoModelLoader (#22). Carga Wan 2.1 14B y aplica el Stand In LoRA en la inicialización del modelo. Mantén el adaptador Stand In conectado aquí en lugar de más tarde en el gráfico para que la identidad se aplique a lo largo de la ruta de desruido. Empareja con WanVideoVAELoader (#38) para el Wan‑VAE correspondiente.
WanVideoAddStandInLatent (#102). Fusiona tu imagen de referencia codificada latente en las incrustaciones de imagen. Si la identidad se desvía, aumenta su influencia; si el movimiento parece excesivamente restringido, redúcelo ligeramente.
WanVideoSampler (#27). El generador principal. Los pasos de ajuste, la elección del programador y la estrategia de orientación aquí tienen el mayor impacto en el detalle, la riqueza del movimiento y la estabilidad temporal. Al aumentar la resolución o la longitud, considera ajustar la configuración del muestreador antes de cambiar cualquier cosa aguas arriba.
WanVideoSetBlockSwap (#70) con WanVideoBlockSwap (#39). Intercambia memoria GPU por velocidad al cambiar bloques de atención entre dispositivos. Si ves errores de falta de memoria, aumenta el intercambio; si tienes espacio, reduce el intercambio para iteraciones más rápidas.
ImageRemoveBackground+ (#128) y ImageCompositeMasked (#108). Estos aseguran que el sujeto esté limpiamente aislado y colocado en un lienzo neutral, lo que reduce la contaminación de color y mejora el bloqueo de identidad Stand In a través de los cuadros.
VHS_VideoCombine (#180). Controla la codificación, la tasa de cuadros y el nombrado de archivos para la salida MP4 principal. Úsalo para establecer tu FPS y objetivo de calidad preferidos para la entrega.

Extras opcionales

Usa una referencia frontal y uniformemente iluminada en un fondo simple para obtener los mejores resultados. Las rotaciones pequeñas o las oclusiones pesadas pueden debilitar la transferencia de identidad.
Mantén los prompts concisos; describe la ropa, el estado de ánimo y la iluminación que coincidan con tu referencia. Evita descriptores de rostro conflictivos que luchen contra la señal Stand In de Wan2.1.
Si el VRAM es limitado, aumenta el intercambio de bloques o reduce primero la resolución. Si tienes espacio, intenta habilitar optimizaciones de compilación en la pila del cargador antes de aumentar los pasos.
El Stand In LoRA no es estándar y debe conectarse al cargar el modelo; sigue el patrón en este gráfico para mantener estable la identidad. Archivos LoRA: Stand‑In
Para control avanzado, habilita la ruta VACE para dirigir el movimiento con un clip guía. Comienza sin él si deseas movimiento impulsado puramente por texto de Wan 2.1.

Recursos

Wan 2.1 14B T2V: Hugging Face
Wan 2.1 VACE: Hugging Face
Stand In LoRA: Hugging Face
LightX2V Step‑Distill LoRA: Hugging Face
Codificador UMT5‑XXL: Hugging Face
Nodos wrapper WanVideo: GitHub
Utilidades KJNodes utilizadas para redimensionar, pad y enmascarar: GitHub
Preprocesadores Aux de ControlNet (MediaPipe Face Mesh, DWPose): GitHub

Agradecimientos

Este flujo de trabajo implementa y se basa en los trabajos y recursos de ArtOfficial Labs. Agradecemos sinceramente a ArtOfficial Labs y a los autores de Wan 2.1 por Wan2.1 Demo por sus contribuciones y mantenimiento. Para detalles autorizados, consulta la documentación original y los repositorios enlazados a continuación.

Recursos

Wan 2.1/Wan2.1 Demo
- Documentación / Notas de lanzamiento: Wan2.1 Demo

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Creador de Personajes Consistentes

Crea diseños de personajes consistentes y de alta resolución desde múltiples ángulos con control total sobre emociones, iluminación y entornos.

Flux Consistent Characters | Input Image

Crea personajes consistentes y asegúrate de que se vean uniformes usando tus imágenes.

IPAdapter V1 FaceID Plus | Personajes consistentes

Aproveche el modelo IPAdapter FaceID Plus V2 para crear personajes consistentes.

Segment Anything V2 (SAM2) | Segmentación de Video

Segmentación de objetos en videos con precisión sin igual.

Qwen Image 2512 | Generador de Imágenes AI de Precisión

Creación de arte ultra detallado con precisión visual de siguiente nivel y control.

Mochi 1 | Genmo Texto a Video

Demostración de Texto a Video Usando el Modelo Genmo Mochi 1

Transferencia de Estilo Consistente con Unsampling

Controlar el ruido latente con Unsampling ayuda a aumentar dramáticamente la consistencia en la transferencia de estilo de video.

Wan 2.2 | Líder en Generación de Video de Código Abierto

¡Disponible ahora! Mejor precisión + movimiento más suave.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

Wan2.1 Stand In | Creador de videos con personajes consistentes

Wan2.1 Stand In: generación de video consistente con personajes a partir de una sola imagen para ComfyUI

Modelos clave en el flujo de trabajo ComfyUI Wan2.1 Stand In

Cómo usar el flujo de trabajo ComfyUI Wan2.1 Stand In

Proceso de entrada (grupo)

Incrustaciones VACE (grupo opcional)

Modelo, LoRAs y texto

Incrustación de identidad y muestreo

Vista de comparación y exportación

Nodulos clave en el flujo de trabajo ComfyUI Wan2.1 Stand In

Extras opcionales

Agradecimientos

Recursos

Want More ComfyUI Workflows?

Creador de Personajes Consistentes

Flux Consistent Characters | Input Image

IPAdapter V1 FaceID Plus | Personajes consistentes

Segment Anything V2 (SAM2) | Segmentación de Video

Qwen Image 2512 | Generador de Imágenes AI de Precisión

Mochi 1 | Genmo Texto a Video

Transferencia de Estilo Consistente con Unsampling

Wan 2.2 | Líder en Generación de Video de Código Abierto