Crear Escenas Coherentes (Qwen Image Edit & Wan 2.2) en ComfyUI | Flujo de Trabajo de Coherencia Cinemática

ComfyUI Create Coherent Scenes (Qwen Image Edit & Wan 2.2) Workflow

Create Coherent Scenes (Qwen Image Edit & Wan 2.2) in ComfyUI | Cinematic Coherence Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Create Coherent Scenes (Qwen Image Edit & Wan 2.2) Examples

Crear Escenas Coherentes (Qwen Image Edit & Wan 2.2)#

Crear Escenas Coherentes (Qwen Image Edit & Wan 2.2) es un flujo de trabajo listo para producción en ComfyUI para construir videos impulsados por historias y múltiples tomas donde los personajes, la iluminación y la composición permanecen consistentes de toma en toma. Combina Qwen Image Edit para imágenes fijas precisas guiadas por referencia con Wan 2.2 imagen-a-video para movimiento cinematográfico, luego te permite ensamblar escenas, suavizar el movimiento con interpolación de cuadros y agregar audio foley generado para finalizar. Ideal para arte narrativo, animación, previz y carretes de conceptos, el flujo de trabajo te ayuda a pasar de un único cuadro clave inicial a una secuencia cohesiva con mínimo retoque manual.

El pipeline está organizado en tres partes: la Parte 1 crea y edita cuadros clave coherentes, la Parte 2 anima cada toma con Wan 2.2 y las une en un solo corte, y la Parte 3 genera audio foley consciente de la escena. Dondequiera que veas Crear Escenas Coherentes (Qwen Image Edit & Wan 2.2) en este README, se refiere al proceso completo de principio a fin.

Modelos clave en el flujo de trabajo de Comfyui Crear Escenas Coherentes (Qwen Image Edit & Wan 2.2)#

Wan 2.2 Image‑to‑Video 14B (variantes de alto ruido y bajo ruido). Generador de video central utilizado para animar tus imágenes de escena mientras preserva el diseño espacial y el estilo. Empaquetado para ComfyUI con codificador de texto y activos VAE. Referencia: Comfy‑Org/Wan_2.2_ComfyUI_Repackaged.
Qwen‑Image‑Edit 2509 + Qwen 2.5 VL codificador de texto + Qwen Image VAE. Edición de imágenes semántica y consciente de referencias utilizada para crear cuadros clave de la siguiente escena que coincidan con tu narrativa mientras mantienen la continuidad de personajes y escenas. Referencias: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI y Comfy‑Org/Qwen‑Image_ComfyUI.
FLUX.1 dev (texto-a-imagen). Modelo de base opcional para el primer cuadro clave establecedor antes de la edición. Referencia: Comfy‑Org/FLUX.1‑Krea‑dev_ComfyUI.
RIFE Interpolación de Cuadros de Video. Utilizado para aumentar la tasa de cuadros y suavizar el movimiento en el corte combinado. Referencia: hzwer/Practical‑RIFE.
HunyuanVideo‑Foley. Un modelo de audio generativo que crea foley sincronizado a partir de imágenes o video más una breve señal de texto; utilizado para añadir sonido diegético por escena o para el corte final. Referencia: phazei/HunyuanVideo‑Foley.
Ayudantes opcionales. MiniCPM‑V 4.5 puede redactar automáticamente indicaciones de audio a partir de tu corte para acelerar la ideación de foley: OpenBMB/MiniCPM‑V.

Cómo usar el flujo de trabajo de Comfyui Crear Escenas Coherentes (Qwen Image Edit & Wan 2.2)#

Lógica general

La Parte 1 crea un cuadro clave establecedor y luego utiliza Qwen Image Edit para generar imágenes fijas de "siguiente escena" que permanecen estilísticamente alineadas.
La Parte 2 anima cada imagen de escena en un clip corto con Wan 2.2, luego concatena todos los clips en un solo corte y opcionalmente interpola cuadros para un movimiento más suave.
La Parte 3 opcionalmente genera audio foley por escena o para el corte combinado y lo mezcla en el video final.

Cargador de modelos

El área de modelos carga las variantes de alto y bajo ruido de Wan 2.2 y su VAE/CLIP una vez, con una opción para acelerar mediante torch compile. También verás una ruta de baja VRAM usando UNETs GGUF cuantizados y cambio de bloque para que puedas ejecutar el mismo proceso Crear Escenas Coherentes (Qwen Image Edit & Wan 2.2) en GPUs más pequeñas.
LoRAs para Wan 2.2 y el Qwen Image Edit Lightning LoRA están preconfigurados para influir en el estilo de movimiento y la velocidad de edición sin complicar el gráfico.
Si cambias modelos, mantén las familias de codificador de texto/UNET/VAE consistentes para evitar desajustes en el espacio latente.

Configuraciones

Los controles globales establecen el ancho, la altura, la semilla y la longitud de la escena de trabajo para que cada escena herede una geometría de lienzo y cadencia temporal idénticas. Esta es una clave para la consistencia de Crear Escenas Coherentes (Qwen Image Edit & Wan 2.2).
Se proporciona un aviso negativo integral y se enruta globalmente; puedes anularlo en cualquier momento para adaptar tu dirección artística.

Parte 1 — Cuadro clave establecedor de texto a imagen

Comienza describiendo tu toma de apertura. El aviso alimenta un muestreador de texto a imagen base que produce un cuadro "Start_" para el proyecto.
Esa imagen se almacena en caché y se convierte en la referencia para la siguiente escena en la pista de Qwen. El flujo de trabajo escala la imagen a una resolución amigable para la edición y la codifica en latentes.

Parte 1 — Cuadros clave de la siguiente escena de Qwen Image Edit

Para cada toma subsiguiente, escribe una breve instrucción de "Siguiente Escena". El editor se condiciona en la imagen de la escena anterior para que la identidad del personaje, el vestuario, la iluminación y la paleta permanezcan alineados.
El resultado editado se decodifica, se previsualiza y se guarda como "Scene_1_…", "Scene_2_…", etc. Estas son tus imágenes fijas coherentes. También se almacenan en ranuras de imágenes compartidas para que avisos posteriores puedan referenciarlas.

Entradas de escena (1–6)

Si ya tienes cuadros conceptuales, colócalos en los seis nodos "LoadImage". De lo contrario, utiliza las imágenes fijas generadas por Qwen de la Parte 1 como tus imágenes de inicio.
Para cada escena, añade un breve aviso de texto a través del nodo de aviso etiquetado. Piénsalos como notas de cinematografía que guían el estilo de movimiento en lugar de volver a describir todo el entorno.

Muestreo de escena (1–6)

Cada escena realiza un pase de imagen a video con Wan 2.2 para convertir la imagen de inicio en un clip latente. Un camino de muestreo de tres etapas luego refina la secuencia latente usando un camino de alto ruido, un camino de bajo ruido y un camino sin LoRA dispuesto para estabilidad.
Los cuadros decodificados alimentan a un escritor de video por escena que guarda un MP4 para revisión rápida. Los nodos de purga de memoria después de cada renderizado liberan VRAM antes de que comience la siguiente escena.
Debido a que todas las escenas comparten la misma semilla, tamaño y longitud, la cadencia de movimiento y la composición permanecen alineadas, ayudando a que Crear Escenas Coherentes (Qwen Image Edit & Wan 2.2) se sienta como una sola pieza continua.

Combinar escenas

Las seis secuencias de imágenes renderizadas se concatenan en orden, produciendo un corte "Combined". Puedes reordenar u omitir escenas volviendo a cablear el nodo de lote que las recoge.

Interpolación de cuadros opcional

Un pase de interpolación aumenta la tasa de cuadros aparente usando RIFE. Esto crea una exportación "Interpolated" para un movimiento más suave de la cámara y el sujeto mientras se mantiene el mismo aspecto.

Parte 3 — Video-a-Audio foley

Carga el corte combinado o cualquier escena individual en la sección de audio. Un ayudante de lenguaje visual integrado puede redactar automáticamente una descripción textual de la escena; edítala a tu gusto para reflejar ritmo, estado de ánimo y acciones clave.
El modelo de foley sintetiza audio sincronizado y un nodo de mezcla lo combina con tus cuadros en un MP4 habilitado para audio. Para obtener mejores resultados, genera audio por escena y luego ensambla.

Nodos clave en el flujo de trabajo de Comfyui Crear Escenas Coherentes (Qwen Image Edit & Wan 2.2)#

WanImageToVideo (#111) Convierte un solo cuadro de referencia en un video latente coherente respetando texto positivo y negativo. Úsalo para establecer la duración de cada toma y el tamaño del lienzo y para suministrar la imagen de inicio que deseas animar. Respaldado por modelos Wan 2.2 I2V 14B empaquetados aquí: Comfy‑Org/Wan_2.2_ComfyUI_Repackaged.
TextEncodeQwenImageEditPlus (#360) Codifica instrucciones de "Siguiente Escena" junto con una imagen de referencia para que las ediciones sigan la historia pero coincidan con la identidad y la iluminación. Mantén sustantivos y etiquetas estilísticas consistentes a lo largo de las escenas para reforzar la continuidad. Referencias de modelos: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI y Comfy‑Org/Qwen‑Image_ComfyUI.
KSamplerAdvanced (#159) El desruidor central para cada escena animada. Este flujo de trabajo encadena tres muestreadores que apuntan a diferentes regímenes de ruido y mezclas LoRA para mejorar la estabilidad temporal. Si cambias pasos o semillas, hazlo uniformemente a través de los muestreadores encadenados para mantener el comportamiento de movimiento predecible.
ImageBatchMulti (#308) Recoge lotes de cuadros de escena en una línea de tiempo larga. Úsalo para reordenar, eliminar o intercambiar escenas antes de la exportación sin tocar las rutas de muestreo.
RIFE VFI (#94) Realiza interpolación de cuadros para aumentar la tasa de cuadros percibida. Es especialmente efectivo para movimientos de cámara lentos y movimientos fluidos del sujeto. Referencia: hzwer/Practical‑RIFE.
HunyuanFoleySampler (#331) Genera foley sincronizado a partir de cuadros más un breve aviso de texto, luego pasa el audio al mezclador de video. Para detalles del modelo y archivos, ver phazei/HunyuanVideo‑Foley.

Extras opcionales#

Para la iteración más rápida, utiliza la ruta cuantizada GGUF Wan 2.2 con intercambio de bloque cuando la VRAM es limitada; vuelve a la precisión completa para los renders finales.
Mantén el ancho, la altura y la longitud de la escena idénticos en todo el proyecto para reforzar el ritmo y la continuidad del encuadre.
En los avisos de Qwen, preserva identificadores principales (nombres, vestuario, accesorios) y términos de iluminación; varía solo la acción y el lenguaje de la cámara entre escenas.
Usa la semilla global para bloquear el "sentir" general del proyecto. Cámbiala solo cuando desees un carácter de movimiento diferente en todas las escenas.
Interpola solo después de estar satisfecho con el tiempo, luego renderiza la versión de audio por escena y combina; el foley por escena tiende a sonar más natural.
FLUX.1 dev es una gran base para el primer cuadro clave; una vez establecido, confía en las ediciones de Qwen para avanzar la historia manteniendo el aspecto: Comfy‑Org/FLUX.1‑Krea‑dev_ComfyUI.

Agradecimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos profundamente a los creadores de Qwen Image Edit por el modelo, a los desarrolladores de Wan 2.2 por el modelo, y al autor(@Benji’s AI Playground) del "Create Coherent Scenes (Qwen Image Edit & Wan 2.2) Youtube Tutorial" por sus contribuciones y mantenimiento. Para detalles autorizados, consulta la documentación original y los repositorios vinculados a continuación.

Recursos#

YouTube/Create Coherent Scenes (Qwen Image Edit & Wan 2.2)
- Docs / Notas de Lanzamiento @Benji’s AI Playground: Create Coherent Scenes (Qwen Image Edit & Wan 2.2) Youtube Tutorial

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Wan 2.2 | Líder en Generación de Video de Código Abierto

¡Disponible ahora! Mejor precisión + movimiento más suave.

Wan 2.2 FLF2V | Generación de Video de Primer-Último Fotograma

Genera videos fluidos a partir de un fotograma de inicio y fin usando Wan 2.2 FLF2V.

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Rápido

Configuración Dual Light LoRA, 4X más rápido.

Wan 2.2 VACE | Generador de Video Controlado por Pose

Convierte imágenes fijas en impresionantes movimientos con control basado en pose.

Wan 2.1 Ditto | Generador de Reestilización de Video Cinematográfico

Transforma videos en impresionantes estilos artísticos con un flujo de movimiento perfecto.

CatVTON | Increíble Virtual Try-On

CatVTON para una prueba virtual fácil y precisa.

ComfyUI Phantom | Sujeto a Video

Generación de video basada en referencias usando Wan2.1 14B

Wan 2.1 LoRA

Mejora la generación de video Wan 2.1 con modelos LoRA para un estilo y personalización mejorados.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

Crear Escenas Coherentes | Generador de Arte Narrativo Consistente