logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>Flujos de trabajo>SkyReels V3 ComfyUI | Generador de Video AI

SkyReels V3 ComfyUI | Generador de Video AI

Workflow Name: RunComfy/SkyReels-V3-ComfyUI
Workflow ID: 0000...1369
Con el poder del modelo SkyReels V3, este flujo de trabajo te ayuda a convertir imágenes, audio o clips existentes en videos cinematográficos impulsados por historias con movimiento suave y sincronización labial precisa. Puedes animar retratos, extender escenas o sincronizar voces con caras. Está diseñado para creadores que buscan una fuerte consistencia de sujeto y narración visual fluida. Perfecto para animadores, diseñadores y cineastas que desean resultados rápidos, fiables y de alta calidad. Todo funciona sin problemas dentro del entorno ComfyUI para máximo control y flexibilidad.

SkyReels V3 ComfyUI: creación de video fiel a la identidad a partir de imagen, video y audio

SkyReels V3 ComfyUI es un flujo de trabajo listo para producción que lleva el modelo de video multimodal SkyReels V3 a ComfyUI para que puedas animar imágenes fijas, extender tomas existentes y construir avatares parlantes impulsados por audio con sincronización labial precisa. Está diseñado para creadores que desean movimiento cinematográfico, una identidad de sujeto fuerte y coherencia temporal mientras permanecen dentro de un gráfico de nodos flexible.

El flujo de trabajo viene con cuatro líneas de producción enfocadas que pueden ejecutarse de manera independiente o encadenadas: animación de personajes de imagen a video, continuación de video a video, avatares parlantes de audio a video y generación de la siguiente toma para el flujo de la historia. Cada camino incluye puntos de entrada claros y valores predeterminados sensatos para que puedas insertar tus activos y renderizar rápidamente salidas de alta calidad de SkyReels V3.

Nota para máquinas 2X Large y más grandes (flujo de trabajo R2V): Establecer Patch Sage Attention KJ (#240) sage_attention en disabled antes de ejecutar. Dejarlo habilitado puede desencadenar errores SM90 kernel is not available.

Modelos clave en el flujo de trabajo Comfyui SkyReels V3 ComfyUI

  • Núcleos de video SkyReels V3 (R2V, V2V Shot, A2V) del paquete WanVideo FP8. Estos son los generadores principales que manejan el movimiento consciente de la identidad, la continuación de video y la sincronización labial condicionada por audio. Ver los pesos de SkyReels V3 en el paquete WanVideo en Hugging Face aquí.
  • Modelos OpenCLIP Vision ViT para guía de imagen y embebido de referencia. Proporcionan características visuales robustas que ayudan a preservar el aspecto y estilo a través de los fotogramas. Página del proyecto: open_clip.
  • Codificador de texto UMT5 para comprensión de indicaciones. Proporciona un condicionamiento de lenguaje rico para dirigir estilo, escena y acciones. Repositorio: umt5.
  • Características de voz Wav2Vec2 para sincronización labial y análisis de audio. La variante base en chino está soportada de forma predeterminada y variantes similares en inglés también funcionan. Tarjeta del modelo: TencentGameMate/chinese-wav2vec2-base.
  • Qwen3‑ASR‑1.7B para conversión de voz a texto. Se utiliza para transcribir audio de referencia y generar indicaciones TTS clonadas de voz. Tarjeta del modelo: Qwen/Qwen3-ASR-1.7B.
  • MelBandRoFormer para separación vocal. Útil cuando necesitas pistas de voz limpias antes de embebido de sincronización labial. Tarjeta del modelo: Kijai/MelBandRoFormer_comfy.
  • MiniCPM‑V para generación de indicaciones conscientes de la toma. Analiza metraje previo y propone la siguiente toma para la continuidad de la historia. Centro de modelos: OpenBMB/MiniCPM-V.

Cómo usar el flujo de trabajo Comfyui SkyReels V3 ComfyUI

El gráfico está organizado en cuatro líneas de producción. Puedes ejecutar cualquiera por su cuenta o en secuencia para construir ediciones más largas.

Animación de personaje de imagen a video

  • Modelos. Carga el UNet, CLIP y VAE en el grupo de Modelos usando UNETLoader (#241), CLIPLoader (#242) y VAELoader (#194). Los nodos de parche del modelo PathchSageAttentionKJ (#240) y ModelPatchTorchSettings (#239) optimizan la atención y configuraciones matemáticas, mientras que LoraLoaderModelOnly (#250) te permite mezclar opcionalmente un LoRA de estilo o movimiento en el modelo SkyReels.
  • Cargar imágenes de referencia. Usa los tres grupos “Cargar imágenes de referencia” para importar 1–3 retratos o poses. Los ayudantes de redimensionamiento ImageResizeKJv2 (#291, #298, #299, #304) alinean la relación de aspecto y los agrupan; fotos de identidad más limpias producen resultados más estables.
  • Indicaciones. Ingresa texto de escena y acción en el grupo de Indicaciones con CLIPTextEncode (#6) y un codificador de texto negativo opcional CLIPTextEncode (#7) para alejar características no deseadas. Mantén el lenguaje conciso y específico para el movimiento y el encuadre.
  • Muestreo y decodificación. WanPhantomSubjectToVideo (#249) fusiona tus referencias e indicaciones en un latente consciente de la identidad que alimenta KSampler (#149) a través de ModelSamplingSD3 (#48). Los fotogramas decodificados de VAEDecode (#264) se empaquetan en una película con VHS_VideoCombine (#280); establece tu tasa de fotogramas y formato de archivo allí.

Extensión de bucle de video a video

  • Video de entrada y configuraciones. Introduce tu clip de origen con VHS_LoadVideo (#329). Establece cuántos segmentos adicionales generar y cuánta superposición entre segmentos usando los ayudantes de enteros “Número de Extensiones” (#342) y “Fotogramas Superpuestos” (#341). ImageResizeKJv2 (#327) estandariza la resolución para el muestreador.
  • Extensión de muestreo de bucle de video. El par de bucles easy forLoopStart (#331) y easy forLoopEnd (#332) recorre el clip en ventanas para estabilizar transiciones. Cada ventana se codifica con WanVideoEncode (#326), recibe embebidos neutrales o de control a través de WanVideoEmptyEmbeds (#328), y se desruida por WanVideoSampler (#320) de WanVideoModelLoader (#319). Los fotogramas se decodifican con WanVideoDecode (#321) y se previsualizan o guardan con VHS_VideoCombine (#322, #335).
  • Ayudantes de rendimiento. WanVideoTorchCompileSettings (#323) y WanVideoBlockSwap (#325) habilitan trucos de compilación y memoria para ejecuciones más largas o de mayor resolución.

Avatar parlante de audio a video

  • 1 – Crear audio. Puedes generar una pista de voz clonada con FB_Qwen3TTSVoiceClonePrompt (#416) y FB_Qwen3TTSVoiceClone (#412), o cargar cualquier voz pregrabada con LoadAudio (#417). Qwen3ASRLoader (#414) más Qwen3ASRTranscribe (#413) te ayudan a extraer texto de un clip de referencia para sembrar la indicación TTS si lo deseas.
  • 2 – Características de audio. DownloadAndLoadWav2VecModel (#348) alimenta MultiTalkWav2VecEmbeds (#350) para crear embebidos de movimiento labial a partir de tu discurso; la longitud está alineada con el audio y previsualizable con PreviewAudio (#422). Usa Any Switch (rgthree) (#435) para elegir la salida TTS o tu archivo importado como la pista de conducción.
  • 3 – Imagen de entrada. Carga la cara parlante en el grupo “3 - Imagen de entrada” y ajústala con ImageResizeKJv2 (#370). Retratos limpios y frontales con iluminación consistente funcionan mejor.
  • Generación de video de referencia. Primero, crea un ancla visual corta a partir de la imagen fija usando WanVideoImageToVideoEncode (#392). Las características de CLIP-Vision de CLIPVisionLoader (#352) y WanVideoClipVisionEncode (#351) estabilizan la identidad en la siguiente etapa; un programador WanVideoSchedulerv2 (#385) está preparado en el grupo de Configuración de Muestreo.
  • Generar sincronización labial de audio. WanVideoImageToVideoSkyreelsv3_audio (#383) combina la imagen inicial, fotogramas de referencia opcionales y embebidos de CLIP-Vision en una condicionamiento de imagen. WanVideoSamplerv2 (#384) luego desruida con el modelo SkyReels A2V mientras WanVideoSamplerExtraArgs (#386) inyecta los embebidos de sincronización labial MultiTalk para formas de boca precisas. WanVideoPassImagesFromSamples (#381) transmite fotogramas decodificados a VHS_VideoCombine (#346) donde el video final se multiplica con tu audio.

Generación de la siguiente toma de video a video

  • Preprocesamiento de fotogramas de video. Importa la toma anterior con VHS_LoadVideo (#443) y redimensiónala a través de ImageResizeKJv2 (#441). GetImageRangeFromBatch (#445) selecciona un fragmento de contexto que WanVideoEncode (#440) convierte en latentes; WanVideoEmptyEmbeds (#442) prepara la ventana de condicionamiento.
  • Indicaciones automáticas de video. CreateVideo (#450) ensambla un clip proxy compacto a partir de los fotogramas de contexto que AILab_MiniCPM_V_Advanced (#449) analiza para redactar una indicación de la siguiente toma. Inspecciona o refina el borrador en ShowText|pysssss (#447) y embébelo con WanVideoTextEncodeCached (#444) antes de muestrear.
  • Modelos y muestreo. Carga el modelo V2V Shot con WanVideoModelLoader (#436) y WanVideoVAELoader (#438); WanVideoBlockSwap opcional (#439) maneja VRAM. El WanVideoSampler (#451) genera la continuación, WanVideoDecode (#437) renderiza los fotogramas, y VHS_VideoCombine (#446) produce la toma final. Esta ruta de SkyReels V3 ComfyUI es ideal para storyboards y previz donde cada nuevo corte debe respetar al anterior.

Nodos clave en el flujo de trabajo Comfyui SkyReels V3 ComfyUI

  • WanPhantomSubjectToVideo (#249). Construye un latente consciente de la identidad a partir de tus imágenes de referencia agrupadas más indicaciones de texto, que luego impulsa el muestreador. Ajusta el número y la diversidad de referencias para equilibrar el bloqueo de semejanza frente al movimiento creativo; mantén los nodos de redimensionamiento que lo alimentan consistentes para evitar desviaciones. Referencia: WanVideo Wrapper en GitHub contiene notas de implementación y entradas esperadas ComfyUI‑WanVideoWrapper.
  • WanVideoImageToVideoEncode (#392). Codifica una imagen fija en una semilla de toma estable y opcionalmente mezcla la guía de CLIP-Vision para pose y encuadre. Úsalo para crear fotogramas de anclaje antes de la etapa impulsada por audio para que la identidad y la configuración de la cámara permanezcan consistentes en todas las líneas de producción. Documentos del wrapper: ComfyUI‑WanVideoWrapper.
  • WanVideoImageToVideoSkyreelsv3_audio (#383). Prepara embebidos de imagen adaptados para el muestreador A2V y fusiona fotogramas de video de referencia opcionales. Asegúrate de que su ancho y alto coincidan con la ruta del muestreador; emparejalo con WanVideoSamplerv2 y MultiTalkWav2VecEmbeds para una sincronización labial precisa.
  • WanVideoSamplerv2 (#384, #387). El desruidor principal para SkyReels V3 que acepta embebidos de imagen y texto más configuraciones de programador. Los nodos WanVideoSamplerExtraArgs (#386, #409) son donde se inyectan características de sincronización labial, bucle o contexto; mantén estos conectados al cambiar entre modelos A2V e I2V. Detalles de implementación: ComfyUI‑WanVideoWrapper.
  • MultiTalkWav2VecEmbeds (#350). Convierte el habla en embebidos alineados temporalmente que impulsan el movimiento de la boca. Hacer coincidir el presupuesto de fotogramas previsto y garantizar voces limpias mejora significativamente la precisión de los fonemas. Modelo de referencia Wav2Vec: TencentGameMate/chinese-wav2vec2-base.
  • AILab_MiniCPM_V_Advanced (#449). Analiza la toma anterior y redacta una indicación estructurada para personaje, fondo, acción, estado de ánimo e iluminación. Úsalo para mantener la continuidad narrativa al usar la ruta V2V de la siguiente toma; el texto resultante fluye hacia WanVideoTextEncodeCached. Familia del modelo: OpenBMB/MiniCPM-V.

Extras opcionales

  • Mantén las resoluciones de imagen, video y muestreador consistentes en los nodos conectados para evitar deformaciones de aspecto y parpadeo de identidad.
  • Para extensiones más largas, aumenta la superposición de ventanas en el bucle de extensión V2V para suavizar las transiciones entre segmentos.
  • Si la memoria GPU es ajustada, deja habilitados los nodos de VRAM reservada (ReservedVRAMSetter (#312, #448)) y usa los bloques de configuraciones de compilación antes de muestrear.
  • Cuando los avatares parlantes se desincronizan, prioriza el habla limpia o separa las voces con MelBandRoFormer antes de crear embebidos MultiTalk.
  • Las configuraciones finales de entrega, como la tasa de fotogramas, el formato de píxel y el CRF, se controlan en los nodos de salida VHS_VideoCombine; iguala la tasa de fotogramas con tu fuente para ediciones sin costuras.

Este README cubre el gráfico completo de SkyReels V3 ComfyUI para que puedas elegir la ruta que se ajuste a tu proyecto, combinarlas cuando sea necesario y renderizar video listo para historias con consistencia y mínimo ensayo y error.

Agradecimientos

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a @Benji’s AI Playground y SkyReels por el flujo de trabajo SkyReels V3 ComfyUI por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación y repositorios originales vinculados a continuación.

Recursos

  • SkyReels/V3 ComfyUI Source
    • Documentos / Notas de lanzamiento: SkyReels V3 ComfyUI Source from @Benji’s AI Playground

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

SkyReels V1 | Creación de Video Centrado en Humanos

Genera videos humanos cinematográficos con expresiones faciales genuinas y movimientos naturales a partir de texto o imágenes.

SkyReels-A2 | Generación de Video Multi-Elemento

Combina múltiples elementos en videos dinámicos con precisión.

LatentSync| Modelo de Sincronización de Labios

Tecnología avanzada de sincronización de labios impulsada por audio.

Sonic | Animación de Retratos con Sincronización Labial

Sonic ofrece sincronización labial avanzada impulsada por audio para retratos con animación de alta calidad.

Flux Krea Dev | Texto Natural a Imagen

¡El mejor modelo FLUX de código abierto! Resultados naturales absolutamente increíbles.

Qwen Image Edit Plus 2509 LoRA Inferencia | AI Toolkit ComfyUI

Aplica los Qwen Image Edit Plus 2509 LoRAs entrenados con AI Toolkit en ComfyUI con ediciones alineadas con la vista previa usando un único nodo personalizado RCQwenImageEditPlus.

CatVTON | Increíble Virtual Try-On

CatVTON | Increíble Virtual Try-On

CatVTON para una prueba virtual fácil y precisa.

Wan 2.2 Lightning T2V I2V | 4 Pasos Ultra Rápidos

¡Wan 2.2 ahora 20 veces más rápido! T2V + I2V en 4 pasos.

Síguenos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Soporte
  • Discord
  • Correo electrónico
  • Estado del sistema
  • afiliado
Recursos
  • ComfyUI en línea gratis
  • Guías de ComfyUI
  • RunComfy API
  • Tutoriales de ComfyUI
  • Nodos de ComfyUI
  • Aprende más
Legal
  • Términos de servicio
  • Política de privacidad
  • Política de cookies
RunComfy
Derechos de autor 2026 RunComfy. Todos los derechos reservados.

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.