SkyReels V3 ComfyUI Workflow | Image2Video + Animación de Sincronización Labial

SkyReels V3 ComfyUI: creación de video fiel a la identidad a partir de imagen, video y audio#

SkyReels V3 ComfyUI es un flujo de trabajo listo para producción que lleva el modelo de video multimodal SkyReels V3 a ComfyUI para que puedas animar imágenes fijas, extender tomas existentes y construir avatares parlantes impulsados por audio con sincronización labial precisa. Está diseñado para creadores que desean movimiento cinematográfico, una identidad de sujeto fuerte y coherencia temporal mientras permanecen dentro de un gráfico de nodos flexible.

El flujo de trabajo viene con cuatro líneas de producción enfocadas que pueden ejecutarse de manera independiente o encadenadas: animación de personajes de imagen a video, continuación de video a video, avatares parlantes de audio a video y generación de la siguiente toma para el flujo de la historia. Cada camino incluye puntos de entrada claros y valores predeterminados sensatos para que puedas insertar tus activos y renderizar rápidamente salidas de alta calidad de SkyReels V3.

Nota para máquinas 2X Large y más grandes (flujo de trabajo R2V): Establecer Patch Sage Attention KJ (#240) sage_attention en disabled antes de ejecutar. Dejarlo habilitado puede desencadenar errores SM90 kernel is not available.

Modelos clave en el flujo de trabajo Comfyui SkyReels V3 ComfyUI#

Núcleos de video SkyReels V3 (R2V, V2V Shot, A2V) del paquete WanVideo FP8. Estos son los generadores principales que manejan el movimiento consciente de la identidad, la continuación de video y la sincronización labial condicionada por audio. Ver los pesos de SkyReels V3 en el paquete WanVideo en Hugging Face aquí.
Modelos OpenCLIP Vision ViT para guía de imagen y embebido de referencia. Proporcionan características visuales robustas que ayudan a preservar el aspecto y estilo a través de los fotogramas. Página del proyecto: open_clip.
Codificador de texto UMT5 para comprensión de indicaciones. Proporciona un condicionamiento de lenguaje rico para dirigir estilo, escena y acciones. Repositorio: umt5.
Características de voz Wav2Vec2 para sincronización labial y análisis de audio. La variante base en chino está soportada de forma predeterminada y variantes similares en inglés también funcionan. Tarjeta del modelo: TencentGameMate/chinese-wav2vec2-base.
Qwen3‑ASR‑1.7B para conversión de voz a texto. Se utiliza para transcribir audio de referencia y generar indicaciones TTS clonadas de voz. Tarjeta del modelo: Qwen/Qwen3-ASR-1.7B.
MelBandRoFormer para separación vocal. Útil cuando necesitas pistas de voz limpias antes de embebido de sincronización labial. Tarjeta del modelo: Kijai/MelBandRoFormer_comfy.
MiniCPM‑V para generación de indicaciones conscientes de la toma. Analiza metraje previo y propone la siguiente toma para la continuidad de la historia. Centro de modelos: OpenBMB/MiniCPM-V.

Cómo usar el flujo de trabajo Comfyui SkyReels V3 ComfyUI#

El gráfico está organizado en cuatro líneas de producción. Puedes ejecutar cualquiera por su cuenta o en secuencia para construir ediciones más largas.

Animación de personaje de imagen a video#

Modelos. Carga el UNet, CLIP y VAE en el grupo de Modelos usando UNETLoader (#241), CLIPLoader (#242) y VAELoader (#194). Los nodos de parche del modelo PathchSageAttentionKJ (#240) y ModelPatchTorchSettings (#239) optimizan la atención y configuraciones matemáticas, mientras que LoraLoaderModelOnly (#250) te permite mezclar opcionalmente un LoRA de estilo o movimiento en el modelo SkyReels.
Cargar imágenes de referencia. Usa los tres grupos “Cargar imágenes de referencia” para importar 1–3 retratos o poses. Los ayudantes de redimensionamiento ImageResizeKJv2 (#291, #298, #299, #304) alinean la relación de aspecto y los agrupan; fotos de identidad más limpias producen resultados más estables.
Indicaciones. Ingresa texto de escena y acción en el grupo de Indicaciones con CLIPTextEncode (#6) y un codificador de texto negativo opcional CLIPTextEncode (#7) para alejar características no deseadas. Mantén el lenguaje conciso y específico para el movimiento y el encuadre.
Muestreo y decodificación. WanPhantomSubjectToVideo (#249) fusiona tus referencias e indicaciones en un latente consciente de la identidad que alimenta KSampler (#149) a través de ModelSamplingSD3 (#48). Los fotogramas decodificados de VAEDecode (#264) se empaquetan en una película con VHS_VideoCombine (#280); establece tu tasa de fotogramas y formato de archivo allí.

Extensión de bucle de video a video#

Video de entrada y configuraciones. Introduce tu clip de origen con VHS_LoadVideo (#329). Establece cuántos segmentos adicionales generar y cuánta superposición entre segmentos usando los ayudantes de enteros “Número de Extensiones” (#342) y “Fotogramas Superpuestos” (#341). ImageResizeKJv2 (#327) estandariza la resolución para el muestreador.
Extensión de muestreo de bucle de video. El par de bucles easy forLoopStart (#331) y easy forLoopEnd (#332) recorre el clip en ventanas para estabilizar transiciones. Cada ventana se codifica con WanVideoEncode (#326), recibe embebidos neutrales o de control a través de WanVideoEmptyEmbeds (#328), y se desruida por WanVideoSampler (#320) de WanVideoModelLoader (#319). Los fotogramas se decodifican con WanVideoDecode (#321) y se previsualizan o guardan con VHS_VideoCombine (#322, #335).
Ayudantes de rendimiento. WanVideoTorchCompileSettings (#323) y WanVideoBlockSwap (#325) habilitan trucos de compilación y memoria para ejecuciones más largas o de mayor resolución.

Avatar parlante de audio a video#

1 – Crear audio. Puedes generar una pista de voz clonada con FB_Qwen3TTSVoiceClonePrompt (#416) y FB_Qwen3TTSVoiceClone (#412), o cargar cualquier voz pregrabada con LoadAudio (#417). Qwen3ASRLoader (#414) más Qwen3ASRTranscribe (#413) te ayudan a extraer texto de un clip de referencia para sembrar la indicación TTS si lo deseas.
2 – Características de audio. DownloadAndLoadWav2VecModel (#348) alimenta MultiTalkWav2VecEmbeds (#350) para crear embebidos de movimiento labial a partir de tu discurso; la longitud está alineada con el audio y previsualizable con PreviewAudio (#422). Usa Any Switch (rgthree) (#435) para elegir la salida TTS o tu archivo importado como la pista de conducción.
3 – Imagen de entrada. Carga la cara parlante en el grupo “3 - Imagen de entrada” y ajústala con ImageResizeKJv2 (#370). Retratos limpios y frontales con iluminación consistente funcionan mejor.
Generación de video de referencia. Primero, crea un ancla visual corta a partir de la imagen fija usando WanVideoImageToVideoEncode (#392). Las características de CLIP-Vision de CLIPVisionLoader (#352) y WanVideoClipVisionEncode (#351) estabilizan la identidad en la siguiente etapa; un programador WanVideoSchedulerv2 (#385) está preparado en el grupo de Configuración de Muestreo.
Generar sincronización labial de audio. WanVideoImageToVideoSkyreelsv3_audio (#383) combina la imagen inicial, fotogramas de referencia opcionales y embebidos de CLIP-Vision en una condicionamiento de imagen. WanVideoSamplerv2 (#384) luego desruida con el modelo SkyReels A2V mientras WanVideoSamplerExtraArgs (#386) inyecta los embebidos de sincronización labial MultiTalk para formas de boca precisas. WanVideoPassImagesFromSamples (#381) transmite fotogramas decodificados a VHS_VideoCombine (#346) donde el video final se multiplica con tu audio.

Generación de la siguiente toma de video a video#

Preprocesamiento de fotogramas de video. Importa la toma anterior con VHS_LoadVideo (#443) y redimensiónala a través de ImageResizeKJv2 (#441). GetImageRangeFromBatch (#445) selecciona un fragmento de contexto que WanVideoEncode (#440) convierte en latentes; WanVideoEmptyEmbeds (#442) prepara la ventana de condicionamiento.
Indicaciones automáticas de video. CreateVideo (#450) ensambla un clip proxy compacto a partir de los fotogramas de contexto que AILab_MiniCPM_V_Advanced (#449) analiza para redactar una indicación de la siguiente toma. Inspecciona o refina el borrador en ShowText|pysssss (#447) y embébelo con WanVideoTextEncodeCached (#444) antes de muestrear.
Modelos y muestreo. Carga el modelo V2V Shot con WanVideoModelLoader (#436) y WanVideoVAELoader (#438); WanVideoBlockSwap opcional (#439) maneja VRAM. El WanVideoSampler (#451) genera la continuación, WanVideoDecode (#437) renderiza los fotogramas, y VHS_VideoCombine (#446) produce la toma final. Esta ruta de SkyReels V3 ComfyUI es ideal para storyboards y previz donde cada nuevo corte debe respetar al anterior.

Nodos clave en el flujo de trabajo Comfyui SkyReels V3 ComfyUI#

WanPhantomSubjectToVideo (#249). Construye un latente consciente de la identidad a partir de tus imágenes de referencia agrupadas más indicaciones de texto, que luego impulsa el muestreador. Ajusta el número y la diversidad de referencias para equilibrar el bloqueo de semejanza frente al movimiento creativo; mantén los nodos de redimensionamiento que lo alimentan consistentes para evitar desviaciones. Referencia: WanVideo Wrapper en GitHub contiene notas de implementación y entradas esperadas ComfyUI‑WanVideoWrapper.
WanVideoImageToVideoEncode (#392). Codifica una imagen fija en una semilla de toma estable y opcionalmente mezcla la guía de CLIP-Vision para pose y encuadre. Úsalo para crear fotogramas de anclaje antes de la etapa impulsada por audio para que la identidad y la configuración de la cámara permanezcan consistentes en todas las líneas de producción. Documentos del wrapper: ComfyUI‑WanVideoWrapper.
WanVideoImageToVideoSkyreelsv3_audio (#383). Prepara embebidos de imagen adaptados para el muestreador A2V y fusiona fotogramas de video de referencia opcionales. Asegúrate de que su ancho y alto coincidan con la ruta del muestreador; emparejalo con WanVideoSamplerv2 y MultiTalkWav2VecEmbeds para una sincronización labial precisa.
WanVideoSamplerv2 (#384, #387). El desruidor principal para SkyReels V3 que acepta embebidos de imagen y texto más configuraciones de programador. Los nodos WanVideoSamplerExtraArgs (#386, #409) son donde se inyectan características de sincronización labial, bucle o contexto; mantén estos conectados al cambiar entre modelos A2V e I2V. Detalles de implementación: ComfyUI‑WanVideoWrapper.
MultiTalkWav2VecEmbeds (#350). Convierte el habla en embebidos alineados temporalmente que impulsan el movimiento de la boca. Hacer coincidir el presupuesto de fotogramas previsto y garantizar voces limpias mejora significativamente la precisión de los fonemas. Modelo de referencia Wav2Vec: TencentGameMate/chinese-wav2vec2-base.
AILab_MiniCPM_V_Advanced (#449). Analiza la toma anterior y redacta una indicación estructurada para personaje, fondo, acción, estado de ánimo e iluminación. Úsalo para mantener la continuidad narrativa al usar la ruta V2V de la siguiente toma; el texto resultante fluye hacia WanVideoTextEncodeCached. Familia del modelo: OpenBMB/MiniCPM-V.

Extras opcionales#

Mantén las resoluciones de imagen, video y muestreador consistentes en los nodos conectados para evitar deformaciones de aspecto y parpadeo de identidad.
Para extensiones más largas, aumenta la superposición de ventanas en el bucle de extensión V2V para suavizar las transiciones entre segmentos.
Si la memoria GPU es ajustada, deja habilitados los nodos de VRAM reservada (ReservedVRAMSetter (#312, #448)) y usa los bloques de configuraciones de compilación antes de muestrear.
Cuando los avatares parlantes se desincronizan, prioriza el habla limpia o separa las voces con MelBandRoFormer antes de crear embebidos MultiTalk.
Las configuraciones finales de entrega, como la tasa de fotogramas, el formato de píxel y el CRF, se controlan en los nodos de salida VHS_VideoCombine; iguala la tasa de fotogramas con tu fuente para ediciones sin costuras.

Este README cubre el gráfico completo de SkyReels V3 ComfyUI para que puedas elegir la ruta que se ajuste a tu proyecto, combinarlas cuando sea necesario y renderizar video listo para historias con consistencia y mínimo ensayo y error.

Agradecimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a @Benji’s AI Playground y SkyReels por el flujo de trabajo SkyReels V3 ComfyUI por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación y repositorios originales vinculados a continuación.

Recursos#

SkyReels/V3 ComfyUI Source
- Documentos / Notas de lanzamiento: SkyReels V3 ComfyUI Source from @Benji’s AI Playground

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

SkyReels V3 ComfyUI | Generador de Video AI

SkyReels V3 ComfyUI: creación de video fiel a la identidad a partir de imagen, video y audio#

Modelos clave en el flujo de trabajo Comfyui SkyReels V3 ComfyUI#

Cómo usar el flujo de trabajo Comfyui SkyReels V3 ComfyUI#

Animación de personaje de imagen a video#

Extensión de bucle de video a video#

Avatar parlante de audio a video#

Generación de la siguiente toma de video a video#

Nodos clave en el flujo de trabajo Comfyui SkyReels V3 ComfyUI#

Extras opcionales#

Agradecimientos#

Recursos#

Want More ComfyUI Workflows?

SkyReels V1 | Creación de Video Centrado en Humanos

SkyReels-A2 | Generación de Video Multi-Elemento

LatentSync| Modelo de Sincronización de Labios

Sonic | Animación de Retratos con Sincronización Labial

Inferencia SDXL LoRA | AI Toolkit ComfyUI

Wan 2.1 Fun | Generación de Video ControlNet

Stable Diffusion 3.5 vs FLUX.1

LongCat Image | Texto a Imagen