Wan2.1 Stand In: generación de video consistente con personajes a partir de una sola imagen para ComfyUI
Este flujo de trabajo convierte una imagen de referencia en un video corto donde el mismo rostro y estilo persisten en todos los cuadros. Impulsado por la familia Wan 2.1 y un Stand In LoRA diseñado específicamente, está diseñado para narradores, animadores y creadores de avatares que necesitan estabilidad de identidad con una configuración mínima. La canalización Wan2.1 Stand In maneja la limpieza de fondo, recorte, enmascaramiento e incrustación para que puedas centrarte en tu prompt y movimiento.
Usa el flujo de trabajo Wan2.1 Stand In cuando desees continuidad de identidad confiable a partir de una sola foto, iteraciones rápidas y MP4s listos para exportar, además de una salida opcional de comparación lado a lado.
Modelos clave en el flujo de trabajo ComfyUI Wan2.1 Stand In
- Wan 2.1 Text‑to‑Video 14B. El generador principal responsable de la coherencia temporal y el movimiento. Soporta generación en 480p y 720p e integra con LoRAs para comportamientos y estilos dirigidos. Model card
- Wan‑VAE para Wan 2.1. Un VAE espaciotemporal de alta eficiencia que codifica y decodifica latentes de video mientras preserva las señales de movimiento. Sustenta las etapas de codificación/decodificación de imagen en este flujo de trabajo. Consulta los recursos del modelo Wan 2.1 y las notas de integración de Diffusers para el uso de VAE. Model hub • Diffusers docs
- Stand In LoRA para Wan 2.1. Un adaptador de consistencia de personajes entrenado para bloquear la identidad a partir de una sola imagen; en este gráfico se aplica al cargar el modelo para asegurar que la señal de identidad se fusione en la base. Files
- LightX2V Step‑Distill LoRA (opcional). Un adaptador liviano que puede mejorar el comportamiento de orientación y eficiencia con Wan 2.1 14B. Model card
- Módulo VACE para Wan 2.1 (opcional). Permite control de movimiento y edición a través de condicionamiento consciente de video. El flujo de trabajo incluye una ruta de incrustación que puedes habilitar para el control VACE. Model hub
- Codificador de texto UMT5‑XXL. Proporciona una sólida codificación de prompts multilingües para Wan 2.1 de texto a video. Model card
Cómo usar el flujo de trabajo ComfyUI Wan2.1 Stand In
A simple vista: carga una imagen de referencia limpia y frontal, el flujo de trabajo prepara una máscara enfocada en el rostro y un compuesto, lo codifica a un latente, fusiona esa identidad en las incrustaciones de imagen de Wan 2.1, luego muestrea cuadros de video y exporta MP4. Se guardan dos salidas: la representación principal y una comparación lado a lado.
Proceso de entrada (grupo)
Comienza con una imagen bien iluminada y orientada hacia adelante en un fondo simple. La canalización carga tu imagen en LoadImage (#58), estandariza el tamaño con ImageResizeKJv2 (#142), y crea una máscara centrada en el rostro usando MediaPipe-FaceMeshPreprocessor (#144) y BinaryPreprocessor (#151). El fondo se elimina en TransparentBGSession+ (#127) y ImageRemoveBackground+ (#128), luego el sujeto se compone sobre un lienzo limpio con ImageCompositeMasked (#108) para minimizar el sangrado de color. Finalmente, ImagePadKJ (#129) y ImageResizeKJv2 (#68) alinean el aspecto para la generación; el cuadro preparado se codifica a un latente vía WanVideoEncode (#104).
Incrustaciones VACE (grupo opcional)
Si deseas control de movimiento a partir de un clip existente, cárgalo con VHS_LoadVideo (#161) y opcionalmente un video guía secundario o alfa con VHS_LoadVideo (#168). Los cuadros pasan por DWPreprocessor (#163) para señales de pose y ImageResizeKJv2 (#169) para igualar formas; ImageToMask (#171) y ImageCompositeMasked (#174) te permiten mezclar imágenes de control con precisión. WanVideoVACEEncode (#160) convierte estos en incrustaciones VACE. Esta ruta es opcional; déjala intacta cuando desees movimiento impulsado solo por texto de Wan 2.1.
Modelo, LoRAs y texto
WanVideoModelLoader (#22) carga la base Wan 2.1 14B más el Stand In LoRA para que la identidad se incruste desde el principio. Las características de velocidad amigables con VRAM están disponibles a través de WanVideoBlockSwap (#39) y se aplican con WanVideoSetBlockSwap (#70). Puedes adjuntar un adaptador extra como LightX2V vía WanVideoSetLoRAs (#79). Los prompts se codifican con WanVideoTextEncodeCached (#159), usando UMT5‑XXL bajo el capó para control multilingüe. Mantén los prompts concisos y descriptivos; enfatiza la ropa, el ángulo y la iluminación del sujeto para complementar la identidad Stand In.
Incrustación de identidad y muestreo
WanVideoEmptyEmbeds (#177) establece la forma objetivo para las incrustaciones de imagen, y WanVideoAddStandInLatent (#102) inyecta tu latente de referencia codificado para llevar la identidad a través del tiempo. Las incrustaciones de imagen y texto combinadas alimentan a WanVideoSampler (#27), que genera una secuencia de video latente usando el programador y pasos configurados. Después del muestreo, los cuadros se decodifican con WanVideoDecode (#28) y se escriben en un MP4 en VHS_VideoCombine (#180).
Vista de comparación y exportación
Para una QA instantánea, ImageConcatMulti (#122) apila los cuadros generados junto a la referencia redimensionada para que puedas juzgar la semejanza cuadro por cuadro. VHS_VideoCombine (#74) guarda eso como un MP4 "Compare" separado. Por lo tanto, el flujo de trabajo Wan2.1 Stand In produce un video final limpio más una verificación lado a lado sin esfuerzo adicional.
Nodulos clave en el flujo de trabajo ComfyUI Wan2.1 Stand In
WanVideoModelLoader(#22). Carga Wan 2.1 14B y aplica el Stand In LoRA en la inicialización del modelo. Mantén el adaptador Stand In conectado aquí en lugar de más tarde en el gráfico para que la identidad se aplique a lo largo de la ruta de desruido. Empareja conWanVideoVAELoader(#38) para el Wan‑VAE correspondiente.WanVideoAddStandInLatent(#102). Fusiona tu imagen de referencia codificada latente en las incrustaciones de imagen. Si la identidad se desvía, aumenta su influencia; si el movimiento parece excesivamente restringido, redúcelo ligeramente.WanVideoSampler(#27). El generador principal. Los pasos de ajuste, la elección del programador y la estrategia de orientación aquí tienen el mayor impacto en el detalle, la riqueza del movimiento y la estabilidad temporal. Al aumentar la resolución o la longitud, considera ajustar la configuración del muestreador antes de cambiar cualquier cosa aguas arriba.WanVideoSetBlockSwap(#70) conWanVideoBlockSwap(#39). Intercambia memoria GPU por velocidad al cambiar bloques de atención entre dispositivos. Si ves errores de falta de memoria, aumenta el intercambio; si tienes espacio, reduce el intercambio para iteraciones más rápidas.ImageRemoveBackground+(#128) yImageCompositeMasked(#108). Estos aseguran que el sujeto esté limpiamente aislado y colocado en un lienzo neutral, lo que reduce la contaminación de color y mejora el bloqueo de identidad Stand In a través de los cuadros.VHS_VideoCombine(#180). Controla la codificación, la tasa de cuadros y el nombrado de archivos para la salida MP4 principal. Úsalo para establecer tu FPS y objetivo de calidad preferidos para la entrega.
Extras opcionales
- Usa una referencia frontal y uniformemente iluminada en un fondo simple para obtener los mejores resultados. Las rotaciones pequeñas o las oclusiones pesadas pueden debilitar la transferencia de identidad.
- Mantén los prompts concisos; describe la ropa, el estado de ánimo y la iluminación que coincidan con tu referencia. Evita descriptores de rostro conflictivos que luchen contra la señal Stand In de Wan2.1.
- Si el VRAM es limitado, aumenta el intercambio de bloques o reduce primero la resolución. Si tienes espacio, intenta habilitar optimizaciones de compilación en la pila del cargador antes de aumentar los pasos.
- El Stand In LoRA no es estándar y debe conectarse al cargar el modelo; sigue el patrón en este gráfico para mantener estable la identidad. Archivos LoRA: Stand‑In
- Para control avanzado, habilita la ruta VACE para dirigir el movimiento con un clip guía. Comienza sin él si deseas movimiento impulsado puramente por texto de Wan 2.1.
Recursos
- Wan 2.1 14B T2V: Hugging Face
- Wan 2.1 VACE: Hugging Face
- Stand In LoRA: Hugging Face
- LightX2V Step‑Distill LoRA: Hugging Face
- Codificador UMT5‑XXL: Hugging Face
- Nodos wrapper WanVideo: GitHub
- Utilidades KJNodes utilizadas para redimensionar, pad y enmascarar: GitHub
- Preprocesadores Aux de ControlNet (MediaPipe Face Mesh, DWPose): GitHub
Agradecimientos
Este flujo de trabajo implementa y se basa en los trabajos y recursos de ArtOfficial Labs. Agradecemos sinceramente a ArtOfficial Labs y a los autores de Wan 2.1 por Wan2.1 Demo por sus contribuciones y mantenimiento. Para detalles autorizados, consulta la documentación original y los repositorios enlazados a continuación.
Recursos
- Wan 2.1/Wan2.1 Demo
- Documentación / Notas de lanzamiento: Wan2.1 Demo
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.


