Este flujo de trabajo convierte una imagen fija en una animación de Retrato de Fantasía de alta fidelidad. Integra el modelo FantasyPortrait de Fantasy-AMAP con transformadores de difusión aumentados por expresión y lo envuelve en una canalización de imagen a video Wan Video 2.1, para que puedas generar tomas habladas densas en emociones y que preserven la identidad con una configuración mínima. Está diseñado para creadores que desean movimiento cinematográfico de Retrato de Fantasía a partir de una sola foto, con controles claros para encuadre, duración y estilo.
La canalización está completamente automatizada: coloca un retrato, elige tu resolución y número de fotogramas, opcionalmente añade un prompt y LoRA, luego renderiza a MP4. Bajo el capó, el gráfico detecta la cara, codifica la guía de imagen y texto, fusiona las incrustaciones de identidad de Fantasy Portrait en el acondicionador I2V de Wan, muestrea un video y decodifica los fotogramas antes de guardar el clip final.
FantasyPortrait (Fantasy-AMAP)
Módulo central de identidad y expresión. Proporciona incrustaciones aumentadas por expresión que preservan los rasgos del sujeto mientras permiten un movimiento facial matizado.
|
WanVideo 2.1 I2V (14B, 720p)
Espina dorsal de difusión de video utilizada para muestrear la animación desde el retrato y el condicionamiento de texto/imagen. Pesos cuantizados y listos para Comfy disponibles a través del paquete de modelos de Kijai.
UMT5-XXL encoder
Codificador de texto de alta capacidad utilizado para la guía de prompts en el muestreador de video.
Ejemplo de peso: umt5-xxl-enc-bf16.safetensors
en
Wan 2.1 VAE
VAE optimizado para video para codificar/decodificar latentes.
Ejemplo de peso: Wan2_1_VAE_bf16.safetensors
en
El flujo de trabajo se ejecuta de izquierda a derecha desde las entradas hasta el video final. Principalmente establecerás tres cosas al principio: imagen, dimensiones y duración. Luego puedes refinar con un breve prompt o un LoRA si lo deseas.
Carga un solo retrato en LoadImage
, luego se redimensiona para el procesamiento. Dos etapas de redimensionamiento aseguran que la imagen coincida con el ancho
y altura
elegidos mientras se mantiene la composición. Usa los controles Width
, Height
y Frames
para definir el tamaño de salida (por defecto 720 × 720) y la longitud de la animación. Esto mantiene el encuadre de tu Retrato de Fantasía consistente en toda la canalización.
FantasyPortraitModelLoader
carga los pesos de FantasyPortrait, y FantasyPortraitFaceDetector
extrae incrustaciones de retrato conscientes de la identidad y expresión de tu imagen. La idea principal es separar quién es el sujeto de cómo se expresa, para que la animación final preserve la identidad mientras permite un movimiento expresivo. No necesitas ajustar nada aquí a menos que cambies de modelos.
Para la guía de imagen, CLIPVisionLoader
con WanVideoClipVisionEncode
produce características visuales robustas del retrato. Para la guía de texto, WanVideoTextEncodeCached
utiliza el codificador UMT5-XXL para convertir tus prompts positivos y negativos en incrustaciones de condición de video. Un prompt corto y simple como "primer plano de estudio natural, sonrisa suave" suele ser suficiente para un aspecto limpio de Retrato de Fantasía.
VHS_LoadVideo
se usa como un contador de fotogramas conveniente. Puedes dejar el clip de marcador de posición o cargar una referencia con tu duración preferida; su conteo de fotogramas alimenta WanVideoImageToVideoEncode
, que convierte tu imagen de inicio más las incrustaciones de imagen/texto en un acondicionamiento I2V. Si prefieres una longitud fija, simplemente establece Frames
directamente e ignora el cargador de referencia.
WanVideoAddFantasyPortrait
fusiona el acondicionamiento I2V con las incrustaciones de retrato del paso 2. Esto es lo que da a la animación final de Retrato de Fantasía su fuerte preservación de identidad y detalle expresivo. No se requieren entradas adicionales una vez que tu imagen está cargada.
WanVideoModelLoader
carga Wan 2.1, luego WanVideoLoraSelect
aplica opcionalmente un LoRA I2V ligero del paquete de Kijai para sesgar el movimiento o la estética sin necesidad de reentrenamiento. Este es un buen lugar para experimentar si deseas un Retrato de Fantasía ligeramente más estilizado manteniendo la identidad intacta.
WanVideoSampler
genera fotogramas latentes usando el acondicionamiento fusionado. Mantén los prompts simples, aumenta los pasos moderadamente si necesitas más detalle, y evita sobreconstrainir con negativos largos. WanVideoDecode
convierte los latentes de vuelta a imágenes, y el flujo de trabajo concatena vistas previas antes de que VHS_VideoCombine
escriba un MP4 (por defecto 16 fps, yuv420p). El prefijo del nombre de archivo de salida se establece para conveniencia.
FantasyPortraitModelLoader
(#138)Carga los pesos de FantasyPortrait. Cambia aquí si estás probando una versión más nueva de Fantasy-AMAP. No se requiere ajuste, pero mantén la precisión consistente con tu modelo Wan y VAE.
FantasyPortraitFaceDetector
(#142)Extrae incrustaciones de retrato de la imagen redimensionada. Los buenos resultados provienen de fotos bien iluminadas y de frente con mínima oclusión. Si el movimiento parece incorrecto, verifica el recorte de entrada e intenta una imagen fuente más limpia.
WanVideoImageToVideoEncode
(#151)Construye el acondicionamiento I2V de Wan a partir de características de imagen CLIP, tu imagen de inicio y duración. Ajusta width
, height
y num_frames
para controlar la huella de renderizado y la longitud. Las secuencias más largas necesitan más VRAM y tiempo.
WanVideoAddFantasyPortrait
(#150)Fusiona las identidades/expresiones de Retrato de Fantasía en el acondicionador I2V. Usa esto para mantener al sujeto reconocible en todos los fotogramas mientras permite cambios de expresión matizados. No se requiere ajuste de parámetros típicamente.
WanVideoSampler
(#149)Genera los latentes de video. Si deseas detalles más nítidos, aumenta los pasos modestamente. Si el movimiento se desvía, reduce la complejidad del prompt o prueba un LoRA diferente. Mantén la guía coherente en lugar de ser extensa.
WanVideoTextEncodeCached
(#155)Codifica prompts positivos/negativos con UMT5-XXL. Usa frases cortas y descriptivas. Los prompts negativos demasiado fuertes (por ejemplo, apilamientos pesados de "mala calidad") pueden suprimir la expresión.
Este flujo de trabajo aprovecha el modelo Fantasy Portrait del equipo , integrando Expression-Augmented Diffusion Transformers en ComfyUI para una canalización de animación de retrato completamente automatizada y de alta calidad.
Agradecimientos especiales a kijai por crear e integrar el Wan Video Wrapper node, haciendo posible ejecutar sin problemas la animación de retrato en un marco de imagen a video.
También reconocemos a la comunidad más amplia de ComfyUI por sus contribuciones continuas a herramientas creativas abiertas.
Enlaces:
RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.