Este flujo de trabajo aplica Wan 2.1 Ditto para reestilizar cualquier video de entrada mientras preserva la estructura de la escena y el movimiento. Está diseñado para editores y creadores que desean apariencias cinematográficas, artísticas o experimentales con fuerte consistencia temporal. Cargas un clip, describes la apariencia objetivo, y Wan 2.1 Ditto produce un render estilizado limpio más una comparación opcional lado a lado para revisión rápida.
El gráfico empareja la base de texto a video Wan 2.1 con la transferencia de estilo de Ditto a nivel de modelo, de modo que los cambios ocurren coherentemente a través de los cuadros en lugar de como filtros cuadro por cuadro. Los casos de uso comunes incluyen conversiones de anime, arte de píxeles, claymation, acuarela, steampunk o ediciones sim-to-real. Si ya generas contenido con Wan, este flujo de trabajo Wan 2.1 Ditto se integra directamente en tu canal para un estilo de video confiable y sin parpadeos.
El flujo de trabajo se ejecuta en cuatro etapas: carga de modelos, preparación del video de entrada, codificación de texto y visuales, luego muestreo y exportación. Los grupos operan en secuencia para producir tanto un render estilizado como una comparación opcional lado a lado.
Este grupo prepara todo lo necesario para Wan 2.1 Ditto. La base se carga con WanVideoModelLoader (#130) y se empareja con el WanVideoVAELoader (#60) y LoadWanVideoT5TextEncoder (#80). El componente Ditto se selecciona con WanVideoVACEModelSelect (#128), que apunta la base a los pesos de estilización dedicados de Ditto. Si necesitas una transformación más fuerte, puedes adjuntar un LoRA con WanVideoLoraSelect (#122). WanVideoBlockSwap (#68) está disponible para la gestión de memoria para que los modelos más grandes puedan funcionar sin problemas en VRAM limitada.
Carga tu clip fuente con VHS_LoadVideo (#101). Los cuadros luego se redimensionan para una geometría consistente usando LayerUtility: ImageScaleByAspectRatio V2 (#76), que preserva el aspecto mientras se dirige a una resolución del lado largo controlada por una entrada de número entero simple JWInteger (#89). GetImageSizeAndCount (#65) lee los cuadros preparados y reenvía el ancho, la altura y el conteo de cuadros a los nodos posteriores para que Wan 2.1 Ditto muestree el tamaño espacial y la duración correctos. Se incluye un pequeño asistente de indicaciones CR Text (#104) si prefieres redactar la indicación en su propio campo. El grupo titulado “Límite Máximo de Variación” te recuerda mantener el objetivo de píxeles del lado largo en un rango práctico para resultados consistentes y uso estable de memoria.
El acondicionamiento ocurre en dos carriles paralelos. WanVideoTextEncode (#111) convierte tu indicación en incrustaciones de texto que definen la intención y el estilo. WanVideoVACEEncode (#126) codifica el video preparado en incrustaciones visuales que preservan la estructura y el movimiento para la edición. Un módulo de guía opcional WanVideoSLG (#129) controla cómo el modelo equilibra estilo y contenido a través de la trayectoria de eliminación de ruido. WanVideoSampler (#119) luego fusiona la base Wan 2.1 con Ditto, las incrustaciones de texto y las incrustaciones visuales para generar latentes estilizados. Finalmente, WanVideoDecode (#87) reconstruye los cuadros a partir de los latentes para producir la secuencia estilizada con la consistencia temporal por la que Wan 2.1 Ditto es conocido.
La exportación principal utiliza VHS_VideoCombine (#95) para guardar el render de Wan 2.1 Ditto a la velocidad de fotogramas seleccionada. Para una revisión rápida, el gráfico une los cuadros originales y estilizados usando ImageConcatMulti (#94), dimensiona la comparación con ImageScaleToTotalPixels (#133) y escribe una película lado a lado a través de VHS_VideoCombine (#100). Normalmente obtendrás dos videos en la carpeta de salida: un render estilizado limpio y un clip de comparación que ayuda a los interesados a aprobar o iterar más rápido.
Puedes comenzar con indicaciones cortas y claras e iterar. Ejemplos que funcionan bien con Wan 2.1 Ditto:
WanVideoVACEModelSelect (#128)
Elige qué pesos de Ditto usar para la estilización. El modelo global Ditto predeterminado es una elección equilibrada para la mayoría de las grabaciones. Si tu objetivo es la conversión de anime a real, selecciona la variante Ditto sim-to-real referenciada en la nota del nodo. Cambiar las variantes de Ditto cambia el carácter de la reestilización sin tocar otras configuraciones.
WanVideoVACEEncode (#126)
Construye el acondicionamiento visual a partir de tus cuadros de entrada. Los controles clave son width, height, y num_frames, que deben coincidir con el video preparado para obtener los mejores resultados. Usa strength para ajustar cuán asertivamente el estilo de Ditto influye en la edición, y vace_start_percent y vace_end_percent para limitar cuándo se aplica el acondicionamiento a lo largo de la trayectoria de difusión. Habilita tiled_vae en resoluciones muy grandes para reducir la presión de memoria.
WanVideoTextEncode (#111)
Codifica indicaciones positivas y negativas a través del codificador mT5-XXL para guiar el estilo y el contenido. Mantén las indicaciones positivas concisas y descriptivas, y usa las negativas para suprimir artefactos como parpadeo o sobresaturación. Las opciones force_offload y device te permiten intercambiar velocidad por memoria si estás ejecutando modelos grandes.
WanVideoSampler (#119)
Ejecuta la base Wan 2.1 con la estilización Ditto para generar los latentes finales. Los ajustes más impactantes son steps, cfg, scheduler, y seed. Usa denoise_strength cuando quieras preservar más de la estructura original, y mantén slg_args conectado para equilibrar la fidelidad del contenido contra la fuerza del estilo. Aumentar los pasos o la guía puede mejorar el detalle a costa del tiempo.
ImageScaleByAspectRatio V2 (#76)
Establece un tamaño objetivo estable para todos los cuadros antes del acondicionamiento. Impulsa el objetivo del lado largo con el número entero independiente para que puedas probar vistas previas pequeñas y rápidas y luego aumentar la resolución para renders finales. Mantén la escala consistente entre iteraciones para que las comparaciones A/B sean significativas.
VHS_LoadVideo (#101) y VHS_VideoCombine (#95, #100)
Estos nodos manejan la decodificación y codificación. Empareja las tasas de fotogramas con la fuente cuando te importe el tiempo. El escritor de comparación es útil durante la exploración y puede deshabilitarse para exportaciones finales si solo deseas el resultado estilizado.
WanVideoVACEModelSelect antes de muestrear.Este flujo de trabajo Wan 2.1 Ditto hace que la reestilización de video de alta calidad sea predecible y rápida, con indicaciones limpias, movimiento coherente y salidas listas para revisión o entrega inmediata.
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos profundamente a EzioBy por Wan 2.1 Ditto Source por sus contribuciones y mantenimiento. Para obtener detalles autorizados, consulte la documentación original y los repositorios enlazados a continuación.
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.
RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.