Wan 2.1 Ditto en ComfyUI | Estilización de Video y Consistencia de Movimiento

Flujo de trabajo de reestilización de video Wan 2.1 Ditto para ComfyUI

Este flujo de trabajo aplica Wan 2.1 Ditto para reestilizar cualquier video de entrada mientras preserva la estructura de la escena y el movimiento. Está diseñado para editores y creadores que desean apariencias cinematográficas, artísticas o experimentales con fuerte consistencia temporal. Cargas un clip, describes la apariencia objetivo, y Wan 2.1 Ditto produce un render estilizado limpio más una comparación opcional lado a lado para revisión rápida.

El gráfico empareja la base de texto a video Wan 2.1 con la transferencia de estilo de Ditto a nivel de modelo, de modo que los cambios ocurren coherentemente a través de los cuadros en lugar de como filtros cuadro por cuadro. Los casos de uso comunes incluyen conversiones de anime, arte de píxeles, claymation, acuarela, steampunk o ediciones sim-to-real. Si ya generas contenido con Wan, este flujo de trabajo Wan 2.1 Ditto se integra directamente en tu canal para un estilo de video confiable y sin parpadeos.

Modelos clave en el flujo de trabajo Comfyui Wan 2.1 Ditto

Modelo de texto a video Wan2.1-T2V-14B. Sirve como la base generativa que sintetiza movimiento temporalmente consistente dado el texto y la condicionamiento visual.
Wan 2.1 VAE. Codifica y decodifica latentes de video para que el muestreador pueda trabajar en un espacio compacto y luego reconstruir cuadros de resolución completa de manera confiable.
Codificador de texto mT5-XXL. Convierte indicaciones en incrustaciones de lenguaje ricas que guían el contenido y estilo de la escena. Para antecedentes sobre mT5, consulta el artículo de Xue et al. mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer.
Modelo de estilización Ditto para Wan 2.1. Proporciona una reestilización robusta y global con fuerte coherencia temporal. El enfoque y archivos del modelo Ditto están documentados aquí: EzioBy/Ditto.
LoRA opcional para Wan 2.1 14B. Agrega cambios ligeros de estilo o comportamiento sin reentrenar el modelo base, siguiendo el método LoRA descrito en Hu et al., 2021.

Cómo usar el flujo de trabajo Comfyui Wan 2.1 Ditto

El flujo de trabajo se ejecuta en cuatro etapas: carga de modelos, preparación del video de entrada, codificación de texto y visuales, luego muestreo y exportación. Los grupos operan en secuencia para producir tanto un render estilizado como una comparación opcional lado a lado.

Modelos

Este grupo prepara todo lo necesario para Wan 2.1 Ditto. La base se carga con WanVideoModelLoader (#130) y se empareja con el WanVideoVAELoader (#60) y LoadWanVideoT5TextEncoder (#80). El componente Ditto se selecciona con WanVideoVACEModelSelect (#128), que apunta la base a los pesos de estilización dedicados de Ditto. Si necesitas una transformación más fuerte, puedes adjuntar un LoRA con WanVideoLoraSelect (#122). WanVideoBlockSwap (#68) está disponible para la gestión de memoria para que los modelos más grandes puedan funcionar sin problemas en VRAM limitada.

Parámetros de entrada

Carga tu clip fuente con VHS_LoadVideo (#101). Los cuadros luego se redimensionan para una geometría consistente usando LayerUtility: ImageScaleByAspectRatio V2 (#76), que preserva el aspecto mientras se dirige a una resolución del lado largo controlada por una entrada de número entero simple JWInteger (#89). GetImageSizeAndCount (#65) lee los cuadros preparados y reenvía el ancho, la altura y el conteo de cuadros a los nodos posteriores para que Wan 2.1 Ditto muestree el tamaño espacial y la duración correctos. Se incluye un pequeño asistente de indicaciones CR Text (#104) si prefieres redactar la indicación en su propio campo. El grupo titulado “Límite Máximo de Variación” te recuerda mantener el objetivo de píxeles del lado largo en un rango práctico para resultados consistentes y uso estable de memoria.

Muestreo

El acondicionamiento ocurre en dos carriles paralelos. WanVideoTextEncode (#111) convierte tu indicación en incrustaciones de texto que definen la intención y el estilo. WanVideoVACEEncode (#126) codifica el video preparado en incrustaciones visuales que preservan la estructura y el movimiento para la edición. Un módulo de guía opcional WanVideoSLG (#129) controla cómo el modelo equilibra estilo y contenido a través de la trayectoria de eliminación de ruido. WanVideoSampler (#119) luego fusiona la base Wan 2.1 con Ditto, las incrustaciones de texto y las incrustaciones visuales para generar latentes estilizados. Finalmente, WanVideoDecode (#87) reconstruye los cuadros a partir de los latentes para producir la secuencia estilizada con la consistencia temporal por la que Wan 2.1 Ditto es conocido.

Salidas y comparaciones

La exportación principal utiliza VHS_VideoCombine (#95) para guardar el render de Wan 2.1 Ditto a la velocidad de fotogramas seleccionada. Para una revisión rápida, el gráfico une los cuadros originales y estilizados usando ImageConcatMulti (#94), dimensiona la comparación con ImageScaleToTotalPixels (#133) y escribe una película lado a lado a través de VHS_VideoCombine (#100). Normalmente obtendrás dos videos en la carpeta de salida: un render estilizado limpio y un clip de comparación que ayuda a los interesados a aprobar o iterar más rápido.

Ideas de indicaciones

Puedes comenzar con indicaciones cortas y claras e iterar. Ejemplos que funcionan bien con Wan 2.1 Ditto:

Hazlo en estilo de anime japonés, video de sombreado de celdas.
Hazlo en un video de Arte de Píxeles.
Hazlo en estilo de boceto a lápiz.
Hazlo en un video de Claymation.
Hazlo en estilo de dibujo de acuarela.
Hazlo en estilo Steampunk con engranajes, tubos y detalles de latón.
Hazlo en estilo Cyberpunk con neón e implantes futuristas.
Hazlo en un video estilo Ukiyo-e.
Hazlo en un video estilo arte del Renacimiento.
Hazlo en un dibujo de Van Gogh.
Transfórmalo en el estilo LEGO.
Transfórmalo en el estilo Ghibli.
Transfórmalo en el estilo 3D Chibi.
Transfórmalo en el estilo de Corte de Papel.

Nodos clave en el flujo de trabajo Comfyui Wan 2.1 Ditto

WanVideoVACEModelSelect (#128) Elige qué pesos de Ditto usar para la estilización. El modelo global Ditto predeterminado es una elección equilibrada para la mayoría de las grabaciones. Si tu objetivo es la conversión de anime a real, selecciona la variante Ditto sim-to-real referenciada en la nota del nodo. Cambiar las variantes de Ditto cambia el carácter de la reestilización sin tocar otras configuraciones.

WanVideoVACEEncode (#126) Construye el acondicionamiento visual a partir de tus cuadros de entrada. Los controles clave son width, height, y num_frames, que deben coincidir con el video preparado para obtener los mejores resultados. Usa strength para ajustar cuán asertivamente el estilo de Ditto influye en la edición, y vace_start_percent y vace_end_percent para limitar cuándo se aplica el acondicionamiento a lo largo de la trayectoria de difusión. Habilita tiled_vae en resoluciones muy grandes para reducir la presión de memoria.

WanVideoTextEncode (#111) Codifica indicaciones positivas y negativas a través del codificador mT5-XXL para guiar el estilo y el contenido. Mantén las indicaciones positivas concisas y descriptivas, y usa las negativas para suprimir artefactos como parpadeo o sobresaturación. Las opciones force_offload y device te permiten intercambiar velocidad por memoria si estás ejecutando modelos grandes.

WanVideoSampler (#119) Ejecuta la base Wan 2.1 con la estilización Ditto para generar los latentes finales. Los ajustes más impactantes son steps, cfg, scheduler, y seed. Usa denoise_strength cuando quieras preservar más de la estructura original, y mantén slg_args conectado para equilibrar la fidelidad del contenido contra la fuerza del estilo. Aumentar los pasos o la guía puede mejorar el detalle a costa del tiempo.

ImageScaleByAspectRatio V2 (#76) Establece un tamaño objetivo estable para todos los cuadros antes del acondicionamiento. Impulsa el objetivo del lado largo con el número entero independiente para que puedas probar vistas previas pequeñas y rápidas y luego aumentar la resolución para renders finales. Mantén la escala consistente entre iteraciones para que las comparaciones A/B sean significativas.

VHS_LoadVideo (#101) y VHS_VideoCombine (#95, #100) Estos nodos manejan la decodificación y codificación. Empareja las tasas de fotogramas con la fuente cuando te importe el tiempo. El escritor de comparación es útil durante la exploración y puede deshabilitarse para exportaciones finales si solo deseas el resultado estilizado.

Extras opcionales

Para ediciones de anime a real, elige la variante Ditto sim-to-real en WanVideoVACEModelSelect antes de muestrear.
Comienza con indicaciones cortas como “Hazlo en estilo de dibujo de acuarela” y refina con 1 o 2 descriptores. Las listas largas tienden a diluir la fuerza del estilo.
Usa indicaciones negativas para reducir el parpadeo, artefactos de compresión y reflejos demasiado brillantes al empujar apariencias fuertes.
Mantén tu resolución del lado largo consistente a través de las iteraciones para estabilizar los resultados y hacer que las semillas sean reproducibles.
Cuando la VRAM es ajustada, habilita las opciones de descarga de modelo y mosaico, o visualiza en un valor de lado largo más pequeño antes de renderizar a tamaño completo.

Este flujo de trabajo Wan 2.1 Ditto hace que la reestilización de video de alta calidad sea predecible y rápida, con indicaciones limpias, movimiento coherente y salidas listas para revisión o entrega inmediata.

Agradecimientos

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos profundamente a EzioBy por Wan 2.1 Ditto Source por sus contribuciones y mantenimiento. Para obtener detalles autorizados, consulte la documentación original y los repositorios enlazados a continuación.

Recursos

EzioBy/Wan 2.1 Ditto Source
- GitHub: EzioBy/Ditto

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Wan 2.1 Video Restyle | Transformación Consistente del Estilo de Video

Transforma el estilo de tu video aplicando el primer fotograma reestilizado usando el flujo de trabajo de reestilización de video Wan 2.1.

Wan 2.1 LoRA

Mejora la generación de video Wan 2.1 con modelos LoRA para un estilo y personalización mejorados.

Wan 2.1 Control LoRA | Profundidad y Mosaico

Avanza la generación de video Wan 2.1 con LoRAs de profundidad y mosaico ligeros para mejorar la estructura y el detalle.

Wan 2.1 | Generación de Video Revolucionaria

Crea videos increíbles a partir de texto o imágenes con IA revolucionaria ejecutándose en CPUs cotidianas.

Wan FusionX | T2V+I2V+VACE Completo

¡La solución de generación de video más poderosa hasta ahora! Detalles de calidad cinematográfica, tu estudio de cine personal.

SkyReels V1 | Creación de Video Centrado en Humanos

Genera videos humanos cinematográficos con expresiones faciales genuinas y movimientos naturales a partir de texto o imágenes.

Modelo CHORD | Generador de Texturas PBR AI

Convierte imágenes en mapas de textura PBR verdaderos rápidamente.

Wan 2.2 Video Restyle | Restilización del Primer Fotograma para Generación de Video Consistente y Cinematográfica

Cambia el primer fotograma, amigos, tu estilo hace que todo el video se vea increíble. Pura magia.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

Wan 2.1 Ditto | Generador de Reestilización de Video Cinematográfico

Flujo de trabajo de reestilización de video Wan 2.1 Ditto para ComfyUI

Modelos clave en el flujo de trabajo Comfyui Wan 2.1 Ditto

Cómo usar el flujo de trabajo Comfyui Wan 2.1 Ditto

Modelos

Parámetros de entrada

Muestreo

Salidas y comparaciones

Ideas de indicaciones

Nodos clave en el flujo de trabajo Comfyui Wan 2.1 Ditto

Extras opcionales

Agradecimientos

Recursos

Want More ComfyUI Workflows?

Wan 2.1 Video Restyle | Transformación Consistente del Estilo de Video

Wan 2.1 LoRA

Wan 2.1 Control LoRA | Profundidad y Mosaico

Wan 2.1 | Generación de Video Revolucionaria

Wan FusionX | T2V+I2V+VACE Completo

SkyReels V1 | Creación de Video Centrado en Humanos

Modelo CHORD | Generador de Texturas PBR AI

Wan 2.2 Video Restyle | Restilización del Primer Fotograma para Generación de Video Consistente y Cinematográfica