Stable Video Infinity 2.0 en ComfyUI | Flujo de trabajo para continuidad de videos largos

Flujo de trabajo Stable Video Infinity 2.0 ComfyUI para imagen a video largo y coherente en Wan 2.2

Este flujo de trabajo convierte una sola imagen en un video largo y con narrativa, preservando la identidad, el flujo de movimiento y la consistencia de la escena. Combina el modelo Wan 2.2 I2V A14B con el Stable Video Infinity 2.0 LoRA para extender la continuidad temporal mucho más allá de los límites de clips cortos. La canalización está organizada en cinco pases que transfieren latentes de movimiento de una sección a la siguiente, con una mezcla de solapamiento para suavizar transiciones y una renderización final que une todo.

Los creadores que necesiten animaciones extendidas, ritmos narrativos o videos de IA cinematográficos encontrarán que Stable Video Infinity mantiene estables a los personajes y el estilo a medida que la escena evoluciona. Obtendrás videos de pases intermedios para revisión rápida y una renderización maestra final, todo producido directamente desde el gráfico de ComfyUI.

Modelos clave en el flujo de trabajo Comfyui Stable Video Infinity

Par Wan 2.2 I2V A14B UNet (HighNoise y LowNoise), variantes cuantizadas GGUF. Estos generan movimiento a partir de latentes de imagen y se alternan para equilibrar la exploración y el refinamiento de detalles. Fuente: Comfy-Org/Wan_2.2_ComfyUI_Repackaged.
Stable Video Infinity 2.0 LoRA para Wan 2.2 I2V A14B, proporcionado en variantes HIGH y LOW para coincidir con los dos UNets. Extiende la coherencia temporal para secuencias largas. Fuente: Kijai/WanVideo_comfy – Stable-Video-Infinity v2.0.
Codificador de texto Wan UMT5 XXL. Codifica indicaciones por pase en condicionamientos para el generador de video. Fuente: Comfy-Org/Wan_2.1_ComfyUI_repackaged.
Wan 2.1 VAE. Codifica la imagen inicial al espacio latente y decodifica fotogramas de vuelta a imágenes para cada pase. Fuente: Comfy-Org/Wan_2.2_ComfyUI_Repackaged – VAE.
Conjunto opcional Wan 2.2 LightX2V LoRA (HighNoise y LowNoise). Estos LoRAs auxiliares complementan Stable Video Infinity durante el muestreo. Fuente: Comfy-Org/Wan_2.2_ComfyUI_Repackaged – loras.

Cómo usar el flujo de trabajo Comfyui Stable Video Infinity

El flujo de trabajo toma una sola imagen de referencia, la prepara a la resolución elegida y luego ejecuta cinco pases secuenciales. Cada pase utiliza Stable Video Infinity para generar un segmento, mezcla unos pocos fotogramas de solapamiento con el segmento anterior y envía su latente de movimiento al siguiente pase. Puedes previsualizar cada pase como un MP4 y también producir una renderización final unida.

Grupo: Modelos

Este grupo carga el par Wan 2.2 I2V A14B UNet, el Wan VAE y el codificador de texto UMT5 XXL. Luego aplica el conjunto LightX2V LoRA y el Stable Video Infinity 2.0 LoRA a ambas ramas HighNoise y LowNoise para que todos los pases compartan las mismas capacidades. Si ajustas la fuerza de LoRA, mantén equilibradas ambas ramas HighNoise y LowNoise para evitar que el estilo o el comportamiento del movimiento se desvíen.

Grupo: Indicaciones

Las indicaciones se escriben por pase para crear ritmos narrativos. Las indicaciones positivas residen en los cinco nodos CLIPTextEncode como CLIPTextEncode (#93, #152, #284, #297, #310). Las indicaciones negativas están prellenadas con filtros de calidad comunes y se pueden editar en CLIPTextEncode (#89, #157, #279, #293, #306). Mantén descriptores de sujeto consistentes a través de los pases y varía solo los verbos de acción o las indicaciones de cámara para mantener la identidad mientras la escena evoluciona.

Imagen de entrada y resolución

Carga una sola imagen de referencia con LoadImage (#97), luego escálala con Resolution (LayerUtility: ImageScaleByAspectRatio V2 (#398)) para que coincida con tu objetivo de aspecto. La imagen se codifica a latentes con VAEEncode (#135), que también establece el latente de anclaje utilizado para mantener la identidad estable durante toda la ejecución. Si cambias la entrada o el aspecto, vuelve a codificar antes de ejecutar los pases.

Pase 1 - Establecer la escena

WanImageToVideoSVIPro (#134) utiliza tu indicación de primer pase y el latente de anclaje para generar movimiento. Dos muestreadores, KSamplerAdvanced (#277 para HighNoise, #278 para LowNoise), colaboran para explorar el movimiento y luego refinar el detalle. El resultado se decodifica con VAEDecode (#87) y se previsualiza a través de VHS_VideoCombine (#126) como un MP4. Usa este pase para establecer el sujeto, la iluminación y el estilo general que Stable Video Infinity llevará adelante.

Pase 2 - Continuar la acción

WanImageToVideoSVIPro (#160) recibe prev_samples del Pase 1 para poder extender el movimiento sin un salto visual. El mismo patrón de muestreo en dos etapas se ejecuta a través de KSamplerAdvanced (#276 HighNoise, #275 LowNoise), y los fotogramas se decodifican con VAEDecode (#162). ImageBatchExtendWithOverlap (#168) mezcla un corto solapamiento con el final del Pase 1 para ocultar costuras, y VHS_VideoCombine (#167) escribe la previsualización del segmento.

Pase 3 - Expansión de la secuencia media

WanImageToVideoSVIPro (#290) continúa desde los latentes del Pase 2 y sigue el mismo refinamiento de doble muestreo con KSamplerAdvanced (#291, #287). Después de la decodificación en VAEDecode (#282), ImageBatchExtendWithOverlap (#292) agrega los nuevos fotogramas a la línea de tiempo. Actualiza la indicación para evolucionar la microacción mientras mantienes idénticos los términos del sujeto.

Pase 4 - Construir hacia el clímax

WanImageToVideoSVIPro (#305) toma el relevo del Pase 3 y nuevamente utiliza muestreadores HighNoise y LowNoise KSamplerAdvanced (#303, #300). VAEDecode (#295) y ImageBatchExtendWithOverlap (#304) producen una secuencia continua que puedes previsualizar a través de VHS_VideoCombine (#296). Usa este pase para añadir movimiento de cámara o acciones secundarias, manteniendo constantes los descriptores para preservar la identidad.

Pase 5 - Resolver y renderizar

WanImageToVideoSVIPro (#318) finaliza la historia y entrega los fotogramas a KSamplerAdvanced (#316, #313) para el refinamiento. Después de decodificar con VAEDecode (#308), los fotogramas se agregan con ImageBatchExtendWithOverlap (#317). VHS_VideoCombine (#319) produce el MP4 final ensamblado; ajusta su frame_rate y filename_prefix para adaptarse a la entrega.

Nodos clave en el flujo de trabajo Comfyui Stable Video Infinity

`WanImageToVideoSVIPro` (#134)

Este nodo convierte el latente de anclaje y tu indicación en latentes de movimiento y puede aceptar prev_samples para continuar desde un pase anterior. Usa length para definir cuántos fotogramas genera un pase y motion_latent_count para controlar cuánta nueva energía de movimiento se introduce. Encadenar pases alimentando prev_samples es lo que permite a Stable Video Infinity construir secuencias largas sin interrupciones.

`KSamplerAdvanced` (#276)

Cada pase empareja un muestreador HighNoise con un muestreador LowNoise para primero explorar y luego consolidar el detalle. El flujo de trabajo expone steps y un control secundario de división para que puedas decidir cómo se divide el presupuesto del pase entre los dos. Mantén la división consistente a través de los pases para evitar parpadeos en las transiciones.

`ImageBatchExtendWithOverlap` (#168)

Esta utilidad mezcla un pequeño número de fotogramas finales del pase anterior con el comienzo del nuevo. Ajusta overlap y mantén el modo en una mezcla suave para ocultar costuras mientras se preserva la dirección del movimiento. Es clave para hacer que los segmentos de Stable Video Infinity se sientan como una toma continua.

`VHS_VideoCombine` (#319)

Ensamblaje de fotogramas decodificados en MP4 para previsualizaciones y la renderización final. Ajusta frame_rate, format y crf para tu objetivo de entrega y tamaño de archivo. Usa valores distintos de filename_prefix para mantener separadas las previsualizaciones del resultado final.

`LoraLoaderModelOnly` (#141, #142)

Aplica las variantes de Stable Video Infinity 2.0 LoRA al par Wan 2.2 UNet. El control strength_model te permite ajustar finamente cuán fuertemente el LoRA dirige el movimiento y la coherencia. Mantén alineadas las ramas HIGH y LOW para que ambos muestreadores interpreten las indicaciones de manera similar.

Extras opcionales

Mantén constantes los descriptores de los sujetos en las cinco indicaciones y varía solo los verbos o las indicaciones de cámara para preservar la identidad.
Si el movimiento parece demasiado tímido, aumenta ligeramente motion_latent_count en el siguiente pase en lugar de reescribir drásticamente las indicaciones.
Si el detalle fluctúa entre los pases, reduce la parte HighNoise de los steps o disminuye la fuerza de LoRA de manera uniforme en ambas ramas.
Usa un solapamiento corto para acción rápida y un solapamiento más largo para escenas lentas y sutiles para equilibrar la ocultación de costuras y el tiempo de ejecución.
Para una reducción rápida, renderiza solo las previsualizaciones del Pase 1 y el Pase 3 para validar identidad y movimiento antes de comprometerte con la ejecución completa.

Agradecimientos

Este flujo de trabajo implementa y se construye sobre los siguientes trabajos y recursos. Agradecemos profundamente a Kijai por Stable-Video-Infinity v2.0 (SVI 2.0) por sus contribuciones y mantenimiento. Para detalles autorizados, consulta la documentación y los repositorios originales enlazados a continuación.

Recursos

Kijai/Stable-Video-Infinity v2.0 (SVI 2.0)
- Hugging Face: SVI 2.0 Source

Nota: El uso de los modelos, conjuntos de datos y códigos referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Wan 2.2 FLF2V | Generación de Video de Primer-Último Fotograma

Genera videos fluidos a partir de un fotograma de inicio y fin usando Wan 2.2 FLF2V.

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Rápido

Configuración Dual Light LoRA, 4X más rápido.

Wan 2.2 Lightning T2V I2V | 4 Pasos Ultra Rápidos

¡Wan 2.2 ahora 20 veces más rápido! T2V + I2V en 4 pasos.

Wan 2.2 | Líder en Generación de Video de Código Abierto

¡Disponible ahora! Mejor precisión + movimiento más suave.

Wan 2.2 Generación de Imágenes | Paquete de Flujo de Trabajo 2-en-1

MoE Mix + Solo-Bajo con escalado. Elige uno.

Hunyuan Video | Texto a Video

Genera videos a partir de indicaciones de texto.

IC-Light | Reiluminación de Videos | AnimateDiff

Reilumina tus videos con mapas de luz y prompts

Inferencia Z-Image De-Turbo LoRA | AI Toolkit ComfyUI

Ejecute su Z-Image De-Turbo LoRA entrenado con AI Toolkit en ComfyUI con un comportamiento coincidente al entrenamiento utilizando un solo nodo personalizado RCZimageDeturbo.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

Stable Video Infinity 2.0 | Generador de Video de Formato Largo

Flujo de trabajo Stable Video Infinity 2.0 ComfyUI para imagen a video largo y coherente en Wan 2.2

Modelos clave en el flujo de trabajo Comfyui Stable Video Infinity

Cómo usar el flujo de trabajo Comfyui Stable Video Infinity

Grupo: Modelos

Grupo: Indicaciones

Imagen de entrada y resolución

Pase 1 - Establecer la escena

Pase 2 - Continuar la acción

Pase 3 - Expansión de la secuencia media

Pase 4 - Construir hacia el clímax

Pase 5 - Resolver y renderizar

Nodos clave en el flujo de trabajo Comfyui Stable Video Infinity

WanImageToVideoSVIPro (#134)

KSamplerAdvanced (#276)

ImageBatchExtendWithOverlap (#168)

VHS_VideoCombine (#319)

LoraLoaderModelOnly (#141, #142)

Extras opcionales

Agradecimientos

Recursos

Want More ComfyUI Workflows?

Wan 2.2 FLF2V | Generación de Video de Primer-Último Fotograma

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Rápido

Wan 2.2 Lightning T2V I2V | 4 Pasos Ultra Rápidos

Wan 2.2 | Líder en Generación de Video de Código Abierto

Wan 2.2 Generación de Imágenes | Paquete de Flujo de Trabajo 2-en-1

Hunyuan Video | Texto a Video

IC-Light | Reiluminación de Videos | AnimateDiff

Inferencia Z-Image De-Turbo LoRA | AI Toolkit ComfyUI

`WanImageToVideoSVIPro` (#134)

`KSamplerAdvanced` (#276)

`ImageBatchExtendWithOverlap` (#168)

`VHS_VideoCombine` (#319)

`LoraLoaderModelOnly` (#141, #142)