Flujo de trabajo Stable Video Infinity 2.0 ComfyUI para imagen a video largo y coherente en Wan 2.2
Este flujo de trabajo convierte una sola imagen en un video largo y con narrativa, preservando la identidad, el flujo de movimiento y la consistencia de la escena. Combina el modelo Wan 2.2 I2V A14B con el Stable Video Infinity 2.0 LoRA para extender la continuidad temporal mucho más allá de los límites de clips cortos. La canalización está organizada en cinco pases que transfieren latentes de movimiento de una sección a la siguiente, con una mezcla de solapamiento para suavizar transiciones y una renderización final que une todo.
Los creadores que necesiten animaciones extendidas, ritmos narrativos o videos de IA cinematográficos encontrarán que Stable Video Infinity mantiene estables a los personajes y el estilo a medida que la escena evoluciona. Obtendrás videos de pases intermedios para revisión rápida y una renderización maestra final, todo producido directamente desde el gráfico de ComfyUI.
Modelos clave en el flujo de trabajo Comfyui Stable Video Infinity
- Par Wan 2.2 I2V A14B UNet (HighNoise y LowNoise), variantes cuantizadas GGUF. Estos generan movimiento a partir de latentes de imagen y se alternan para equilibrar la exploración y el refinamiento de detalles. Fuente: Comfy-Org/Wan_2.2_ComfyUI_Repackaged.
- Stable Video Infinity 2.0 LoRA para Wan 2.2 I2V A14B, proporcionado en variantes HIGH y LOW para coincidir con los dos UNets. Extiende la coherencia temporal para secuencias largas. Fuente: Kijai/WanVideo_comfy – Stable-Video-Infinity v2.0.
- Codificador de texto Wan UMT5 XXL. Codifica indicaciones por pase en condicionamientos para el generador de video. Fuente: Comfy-Org/Wan_2.1_ComfyUI_repackaged.
- Wan 2.1 VAE. Codifica la imagen inicial al espacio latente y decodifica fotogramas de vuelta a imágenes para cada pase. Fuente: Comfy-Org/Wan_2.2_ComfyUI_Repackaged – VAE.
- Conjunto opcional Wan 2.2 LightX2V LoRA (HighNoise y LowNoise). Estos LoRAs auxiliares complementan Stable Video Infinity durante el muestreo. Fuente: Comfy-Org/Wan_2.2_ComfyUI_Repackaged – loras.
Cómo usar el flujo de trabajo Comfyui Stable Video Infinity
El flujo de trabajo toma una sola imagen de referencia, la prepara a la resolución elegida y luego ejecuta cinco pases secuenciales. Cada pase utiliza Stable Video Infinity para generar un segmento, mezcla unos pocos fotogramas de solapamiento con el segmento anterior y envía su latente de movimiento al siguiente pase. Puedes previsualizar cada pase como un MP4 y también producir una renderización final unida.
Grupo: Modelos
Este grupo carga el par Wan 2.2 I2V A14B UNet, el Wan VAE y el codificador de texto UMT5 XXL. Luego aplica el conjunto LightX2V LoRA y el Stable Video Infinity 2.0 LoRA a ambas ramas HighNoise y LowNoise para que todos los pases compartan las mismas capacidades. Si ajustas la fuerza de LoRA, mantén equilibradas ambas ramas HighNoise y LowNoise para evitar que el estilo o el comportamiento del movimiento se desvíen.
Grupo: Indicaciones
Las indicaciones se escriben por pase para crear ritmos narrativos. Las indicaciones positivas residen en los cinco nodos CLIPTextEncode como CLIPTextEncode (#93, #152, #284, #297, #310). Las indicaciones negativas están prellenadas con filtros de calidad comunes y se pueden editar en CLIPTextEncode (#89, #157, #279, #293, #306). Mantén descriptores de sujeto consistentes a través de los pases y varía solo los verbos de acción o las indicaciones de cámara para mantener la identidad mientras la escena evoluciona.
Imagen de entrada y resolución
Carga una sola imagen de referencia con LoadImage (#97), luego escálala con Resolution (LayerUtility: ImageScaleByAspectRatio V2 (#398)) para que coincida con tu objetivo de aspecto. La imagen se codifica a latentes con VAEEncode (#135), que también establece el latente de anclaje utilizado para mantener la identidad estable durante toda la ejecución. Si cambias la entrada o el aspecto, vuelve a codificar antes de ejecutar los pases.
Pase 1 - Establecer la escena
WanImageToVideoSVIPro (#134) utiliza tu indicación de primer pase y el latente de anclaje para generar movimiento. Dos muestreadores, KSamplerAdvanced (#277 para HighNoise, #278 para LowNoise), colaboran para explorar el movimiento y luego refinar el detalle. El resultado se decodifica con VAEDecode (#87) y se previsualiza a través de VHS_VideoCombine (#126) como un MP4. Usa este pase para establecer el sujeto, la iluminación y el estilo general que Stable Video Infinity llevará adelante.
Pase 2 - Continuar la acción
WanImageToVideoSVIPro (#160) recibe prev_samples del Pase 1 para poder extender el movimiento sin un salto visual. El mismo patrón de muestreo en dos etapas se ejecuta a través de KSamplerAdvanced (#276 HighNoise, #275 LowNoise), y los fotogramas se decodifican con VAEDecode (#162). ImageBatchExtendWithOverlap (#168) mezcla un corto solapamiento con el final del Pase 1 para ocultar costuras, y VHS_VideoCombine (#167) escribe la previsualización del segmento.
Pase 3 - Expansión de la secuencia media
WanImageToVideoSVIPro (#290) continúa desde los latentes del Pase 2 y sigue el mismo refinamiento de doble muestreo con KSamplerAdvanced (#291, #287). Después de la decodificación en VAEDecode (#282), ImageBatchExtendWithOverlap (#292) agrega los nuevos fotogramas a la línea de tiempo. Actualiza la indicación para evolucionar la microacción mientras mantienes idénticos los términos del sujeto.
Pase 4 - Construir hacia el clímax
WanImageToVideoSVIPro (#305) toma el relevo del Pase 3 y nuevamente utiliza muestreadores HighNoise y LowNoise KSamplerAdvanced (#303, #300). VAEDecode (#295) y ImageBatchExtendWithOverlap (#304) producen una secuencia continua que puedes previsualizar a través de VHS_VideoCombine (#296). Usa este pase para añadir movimiento de cámara o acciones secundarias, manteniendo constantes los descriptores para preservar la identidad.
Pase 5 - Resolver y renderizar
WanImageToVideoSVIPro (#318) finaliza la historia y entrega los fotogramas a KSamplerAdvanced (#316, #313) para el refinamiento. Después de decodificar con VAEDecode (#308), los fotogramas se agregan con ImageBatchExtendWithOverlap (#317). VHS_VideoCombine (#319) produce el MP4 final ensamblado; ajusta su frame_rate y filename_prefix para adaptarse a la entrega.
Nodos clave en el flujo de trabajo Comfyui Stable Video Infinity
WanImageToVideoSVIPro (#134)
Este nodo convierte el latente de anclaje y tu indicación en latentes de movimiento y puede aceptar prev_samples para continuar desde un pase anterior. Usa length para definir cuántos fotogramas genera un pase y motion_latent_count para controlar cuánta nueva energía de movimiento se introduce. Encadenar pases alimentando prev_samples es lo que permite a Stable Video Infinity construir secuencias largas sin interrupciones.
KSamplerAdvanced (#276)
Cada pase empareja un muestreador HighNoise con un muestreador LowNoise para primero explorar y luego consolidar el detalle. El flujo de trabajo expone steps y un control secundario de división para que puedas decidir cómo se divide el presupuesto del pase entre los dos. Mantén la división consistente a través de los pases para evitar parpadeos en las transiciones.
ImageBatchExtendWithOverlap (#168)
Esta utilidad mezcla un pequeño número de fotogramas finales del pase anterior con el comienzo del nuevo. Ajusta overlap y mantén el modo en una mezcla suave para ocultar costuras mientras se preserva la dirección del movimiento. Es clave para hacer que los segmentos de Stable Video Infinity se sientan como una toma continua.
VHS_VideoCombine (#319)
Ensamblaje de fotogramas decodificados en MP4 para previsualizaciones y la renderización final. Ajusta frame_rate, format y crf para tu objetivo de entrega y tamaño de archivo. Usa valores distintos de filename_prefix para mantener separadas las previsualizaciones del resultado final.
LoraLoaderModelOnly (#141, #142)
Aplica las variantes de Stable Video Infinity 2.0 LoRA al par Wan 2.2 UNet. El control strength_model te permite ajustar finamente cuán fuertemente el LoRA dirige el movimiento y la coherencia. Mantén alineadas las ramas HIGH y LOW para que ambos muestreadores interpreten las indicaciones de manera similar.
Extras opcionales
- Mantén constantes los descriptores de los sujetos en las cinco indicaciones y varía solo los verbos o las indicaciones de cámara para preservar la identidad.
- Si el movimiento parece demasiado tímido, aumenta ligeramente
motion_latent_counten el siguiente pase en lugar de reescribir drásticamente las indicaciones. - Si el detalle fluctúa entre los pases, reduce la parte HighNoise de los
stepso disminuye la fuerza de LoRA de manera uniforme en ambas ramas. - Usa un solapamiento corto para acción rápida y un solapamiento más largo para escenas lentas y sutiles para equilibrar la ocultación de costuras y el tiempo de ejecución.
- Para una reducción rápida, renderiza solo las previsualizaciones del Pase 1 y el Pase 3 para validar identidad y movimiento antes de comprometerte con la ejecución completa.
Agradecimientos
Este flujo de trabajo implementa y se construye sobre los siguientes trabajos y recursos. Agradecemos profundamente a Kijai por Stable-Video-Infinity v2.0 (SVI 2.0) por sus contribuciones y mantenimiento. Para detalles autorizados, consulta la documentación y los repositorios originales enlazados a continuación.
Recursos
- Kijai/Stable-Video-Infinity v2.0 (SVI 2.0)
- Hugging Face: SVI 2.0 Source
Nota: El uso de los modelos, conjuntos de datos y códigos referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

