Wan 2.2 VBVR en ComfyUI: generación de imagen a video consciente del razonamiento
Wan 2.2 VBVR en ComfyUI es un flujo de trabajo listo para producción que lleva el Razonamiento Visual Basado en Video a Wan 2.2 de imagen a video. Aumenta la canalización estándar de Wan 2.2 Mixture‑of‑Experts con un camino de modelo ajustado al razonamiento y un camino opcional VBVR LoRA, para que tus videos sigan objetos, acciones y eventos causales con lógica temporal más fuerte y consistencia de escena.
Construido para dirección creativa, simulación y ritmos de historia que necesitan más que cuadros bonitos, este flujo de trabajo de ComfyUI alinea indicaciones complejas con movimiento estructurado e interacciones de múltiples objetos. Puedes elegir entre la ruta pura del modelo VBVR o superponer VBVR y LoRAs de movimiento en Wan 2.2 para mayor velocidad, luego exportar MP4s listos para editar.
Modelos clave en el flujo de trabajo Comfyui Wan 2.2 VBVR
- Wan2.2‑I2V‑A14B (espina dorsal MoE). Dos expertos se especializan en fases de alto ruido y bajo ruido y cambian por SNR durante la desruido, dando mayor capacidad sin costo adicional por paso. Este es el generador principal que el flujo de trabajo extiende y mezcla. Model card • Technical details
- VBVR‑Wan2.2. Un ajuste fino de Wan2.2‑I2V‑A14B en un gran conjunto de razonamiento de video para mejorar el razonamiento temporal, causal y de múltiples objetos mientras se mantiene la arquitectura sin cambios. Usa esto cuando quieras la alineación de razonamiento más fuerte. Model card • Paper
- Wan 2.x VAE. Codificador‑decodificador de video de alta compresión que reconstruye cuadros eficientemente para flujos de trabajo de 480p–720p; Wan 2.2 describe un diseño de compresión que permite una generación rápida de 720p. Overview
- uMT5‑XXL codificador de texto. Codificador robusto multilingüe de la familia T5 utilizado para derivar incrustaciones de indicaciones para las canalizaciones de texto e imagen a video de Wan 2.2. Model card
- LoRAs de movimiento y razonamiento para Wan 2.2. El flujo de trabajo puede cargar VBVR LoRA para sesgo de razonamiento y LoRAs LightX2V destiladas por pasos para mayor amplitud de movimiento y movimientos de cámara. VBVR LoRA example • LightX2V collection
Cómo usar el flujo de trabajo Comfyui Wan 2.2 VBVR
Este flujo de trabajo ofrece tres rutas complementarias. Cada ruta es autónoma desde las indicaciones y la imagen de inicio opcional hasta la salida de video, por lo que puedes probar las tres y quedarte con la mejor toma.
- Ruta del modelo VBVR
- Propósito. Usa esto cuando quieras el razonamiento de video más fuerte. Ejecuta un par de modelos Wan 2.2 calibrados por VBVR de alto SNR y bajo SNR, dividiendo el calendario de desruido entre una etapa de "diseño" y una etapa de "detalle".
- Cómo funciona. La etapa de alto ruido se ejecuta primero en
WanVideoSampler(#173), luego sus latentes fluyen hacia la etapa de bajo ruidoWanVideoSampler(#172) que refina la lógica de movimiento y detalles. El cambio se controla mediante losstart_stepyend_stepde los muestreadores, reflejando la transferencia de experto controlada por SNR de Wan 2.2. - Lo que configuras. Proporciona una imagen de inicio si lo deseas a través de
LoadImage(#67), y escribe tu indicación en el nodoTextcerca del codificador que alimentaWanVideoTextEncode(#170). Ajusta el conteo de cuadros con el pequeño nodo entero junto a los muestreadores (Int(#168)). - Salida. Los cuadros se decodifican mediante
WanVideoDecode(#164) y se ensamblan como MP4 conVHS_VideoCombine(#176).
- Ruta Wan 2.2 + PainterI2V
- Propósito. Un camino rápido y general para movimiento cinematográfico. Mantiene modelos Wan 2.2 I2V estándar pero mejora la condición de imagen con
PainterI2VforKJpara corregir artefactos de cámara lenta comunes en LoRAs de 4 pasos. - Cómo funciona. Tu imagen de inicio se redimensiona para el modelo, se incrusta con
PainterI2VforKJ(#181), luego se muestrea medianteWanVideoSampler(#129, #130). La ruta utiliza una transferencia de alto ruido y luego bajo ruido similar a VBVR pero se adhiere a los pesos estándar de Wan 2.2. - Lo que configuras. Proporciona tu indicación en el nodo
Textque alimentaWanVideoTextEncode(#152). Si encadenas un LoRA LightX2V, la condición de esta ruta ayuda a que el movimiento se sienta más intencionado. Consulta el readme del nodo para su objetivo de diseño. PainterI2VforKJ - Salida. Los cuadros se decodifican mediante
WanVideoDecode(#142) y se guardan conVHS_VideoCombine(#154).
- Propósito. Un camino rápido y general para movimiento cinematográfico. Mantiene modelos Wan 2.2 I2V estándar pero mejora la condición de imagen con
- Ruta Wan 2.2 + VBVR LoRA
- Propósito. Un híbrido para iteraciones rápidas. Superpone un VBVR LoRA en el modelo Wan 2.2 de alto ruido y un LoRA de movimiento en el modelo de bajo ruido, dándote un empuje de razonamiento temprano y un pulido de movimiento limpio tarde.
- Cómo funciona. El flujo de alto ruido se ejecuta a través de
WanVideoSampler(#27) y el flujo de bajo ruido a través deWanVideoSampler(#90); ambos reciben incrustaciones de texto deWanVideoTextEncode(#16) y condicionamiento de imagen opcional dePainterI2VforKJ(#179). Los LoRAs se aplican por etapa para coincidir con el rol del experto. - Lo que configuras. Coloca tu indicación en el nodo
Textcerca deWanVideoTextEncode(#16) y, si es necesario, ajusta la división de etapas con los widgets enteros cercanos etiquetados como "Split_step." Los LoRAs VBVR y LightX2V son seleccionables desde los nodos LoRA en este grupo. VBVR LoRA - Salida. Los cuadros se decodifican a través de
WanVideoDecode(#28) y se exportan medianteVHS_VideoCombine(#60).
Nodos clave en el flujo de trabajo Comfyui Wan 2.2 VBVR
WanVideoModelLoader(#165, #162)- Carga los modelos Wan 2.2 de alto SNR y bajo SNR calibrados por VBVR que se asignan a los expertos de desruido temprano y tardío. Mantén el par consistente para que la transferencia controlada por SNR sea estable. Consulta el diseño de cambio de MoE y SNR de Wan 2.2 para contexto. Details
WanVideoSampler(#173, #172, #129, #130, #27, #90)- Impulsa la generación y controla la división de expertos. Ajusta los
stepspara equilibrar detalle frente a velocidad, y ajustastart_stepoend_steppara cambiar el trabajo entre el experto de diseño temprano y el experto de detalle tardío. Usacfgpara intercambiar adherencia por libertad de movimiento. La implementación de referencia está en los nodos de muestreo del contenedor. Wrapper repo
- Impulsa la generación y controla la división de expertos. Ajusta los
PainterI2VforKJ(#178, #181, #179)- Reemplaza el condicionamiento de imagen a video estándar con una variante amplificada por movimiento diseñada para corregir la cámara lenta al usar LoRAs LightX2V de 4 pasos. Fortalece las indicaciones de cámara y ritmos de acción mientras mantiene la identidad del sujeto. Node readme
WanVideoTextEncode(#170, #152, #16)- Codifica indicaciones positivas y negativas a través de un codificador uMT5‑XXL para que los muestreadores reciban semántica rica y multilingüe. Mantén la estructura de la indicación clara; separar escena, sujeto, acción e intención de cámara típicamente mejora la alineación. uMT5
VHS_VideoCombine(#176, #154, #60)- Ensambla cuadros decodificados en un MP4 con metadatos para reproducibilidad. Si pasas audio, el nodo lo mezcla con el video. Esto proviene de los nodos utilitarios de VideoHelperSuite. VideoHelperSuite
Extras opcionales
- Cuándo elegir cada ruta
- Modelo VBVR: interacciones complejas, escenas de causa y efecto o coreografía de múltiples objetos.
- Wan 2.2 + PainterI2V: movimiento dinámico o narración centrada en la cámara con LoRAs LightX2V.
- Wan 2.2 + VBVR LoRA: vistas previas rápidas que aún se benefician del sesgo de razonamiento temprano en la desruido.
- Consejos de indicaciones para Wan 2.2 VBVR en ComfyUI
- Usa secciones cortas como [SCENE], [SUBJECT], [ACTION], [CAMERA], [LIGHTING]. Esto ayuda al codificador de texto a separar la intención.
- Para interacciones de objetos, especifica quién hace qué a quién y en qué orden.
- Apilamiento de LoRA
- Tamaño de cuadro y aspecto
- Los nodos
ImageResizeKJv2cerca de las entradas aseguran divisibilidad limpia para el VAE y reducen artefactos. Empareja el aspecto de tu imagen de inicio con el video de destino para una propagación de movimiento más suave.
- Los nodos
Agradecimientos
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a @Ai Verse, el autor de Wan 2.2 VBVR en ComfyUI Source por sus contribuciones y mantenimiento. Para detalles autorizados, consulta la documentación original y los repositorios vinculados a continuación.
Recursos
- YouTube/Wan 2.2 VBVR en ComfyUI Source
- Docs / Notas de Lanzamiento: Wan 2.2 VBVR en ComfyUI Source @Ai Verse
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.
