LongCat Avatar en ComfyUI | WanVideo Animación con Identidad Preservada

LongCat Avatar en ComfyUI: de una sola imagen a video de avatar hablante

LongCat Avatar en ComfyUI convierte una sola imagen de referencia en un video de avatar estable en identidad y dirigido por audio. Construido sobre el envoltorio WanVideo de kijai, se enfoca en la coherencia facial, la continuidad del movimiento suave y la sincronización labial natural sin necesidad de ajustes finos por personaje. Proporcionas una imagen de personaje y una pista de audio; el flujo de trabajo genera una actuación temporalmente consistente, adecuada para clips de cabezas parlantes, actuaciones de personajes estilizados y pruebas rápidas de movimiento de avatar.

Los creadores que deseen iteraciones rápidas encontrarán LongCat Avatar en ComfyUI pragmático y confiable. El flujo de trabajo utiliza el modelo de preservación de identidad de LongCat y un esquema de generación en ventanas para extender secuencias mientras mantiene las expresiones estables. Las salidas se ensamblan en video con el audio fuente para una revisión o publicación sencilla.

Nota: En máquinas 2XL o superiores, por favor configure el backend de atención a "sdpa" en el nodo WanVideo Model Loader. El backend segeattn predeterminado puede causar problemas de compatibilidad en GPUs de alto nivel.

Modelos clave en el flujo de trabajo Comfyui LongCat Avatar en ComfyUI

Modelo LongCat-Avatar para WanVideo. Generación de imagen a video centrada en la identidad adaptada para ComfyUI, proporcionando una fuerte preservación de personajes a lo largo de los cuadros. Consulte los lanzamientos Comfy de WanVideo por kijai en Hugging Face para puntos de control y notas. Hugging Face: Kijai/WanVideo_comfy
LongCat distill LoRA. Un LoRA destilado que refuerza la estructura facial y las características de identidad durante el muestreo, mejorando la estabilidad bajo movimiento. Disponible con los recursos WanVideo Comfy. Hugging Face: Kijai/WanVideo_comfy
Wan 2.1 VAE. VAE de video utilizado para codificar el(los) cuadro(s) de referencia en latentes y decodificar muestras generadas de nuevo a imágenes. Hugging Face: Kijai/WanVideo_comfy
Codificador de texto UM-T5. Usado por WanVideo para interpretar indicaciones de texto que dirigen la descripción de la escena y el estilo mientras se mantiene la identidad intacta. Hugging Face: google/umt5-xxl
Representaciones de habla Wav2Vec 2.0. Proporciona características de habla robustas que impulsan el movimiento de labios y mandíbula a través de incrustaciones MultiTalk. Documento de fondo: wav2vec 2.0. arXiv y una variante de modelo compatible: Hugging Face: TencentGameMate/chinese-wav2vec2-base
Separador vocal MelBandRoFormer. Separación opcional de vocal-música para que el módulo de sincronización labial reciba una señal de habla más limpia. Hugging Face: Kijai/MelBandRoFormer_comfy

Cómo usar el flujo de trabajo Comfyui LongCat Avatar en ComfyUI

El flujo de trabajo tiene tres fases principales: modelos y configuraciones, audio a pistas de movimiento, e imagen de referencia a video con extensión en ventanas. Renderiza a una tasa fija diseñada para movimiento impulsado por audio, luego une ventanas a un clip sin costuras.

Modelos
- El WanVideoModelLoader (#122) carga el punto de control LongCat-Avatar y el LongCat distill LoRA, mientras que WanVideoVAELoader (#129) proporciona el VAE de video. El WanVideoSchedulerv2 (#325) prepara el horario del muestreador utilizado durante la difusión. Estos componentes definen la fidelidad, la retención de identidad y el aspecto general. Una vez configurados, actúan como la columna vertebral para todos los pasos de muestreo subsiguientes.
Audio
- Carga una pista de voz con LoadAudio (#125), opcionalmente recorta con TrimAudioDuration (#317), y separa las voces con MelBandRoFormerSampler (#302) para reducir el sangrado de fondo. MultiTalkWav2VecEmbeds (#194) convierte el habla limpia en incrustaciones que impulsan el movimiento de la boca y las dinámicas sutiles de la cabeza. El conteo efectivo de cuadros se deriva de la duración del audio, por lo que un audio más largo conduce a secuencias más largas. El flujo de audio se multiplexa más tarde con imágenes en la etapa de combinación de video.
Imagen de entrada
- Añade tu imagen de personaje con LoadImage (#284). ImageResizeKJv2 (#281) la dimensiona para el modelo, y WanVideoEncode (#312) la convierte en un ref_latent que ancla la identidad a lo largo de todos los cuadros. Este latente es la referencia fija que la canalización LongCat Avatar en ComfyUI reutiliza mientras inyecta movimiento variable en el tiempo desde el audio y las indicaciones.
Extender ventana 1
- WanVideoLongCatAvatarExtendEmbeds (#345) fusiona el ref_latent con las incrustaciones de audio para crear incrustaciones de imagen para la primera ventana. WanVideoSamplerv2 (#324) luego desruida los latentes en un clip corto. WanVideoDecode (#313) los convierte en imágenes para vista previa y la primera exportación de video con VHS_VideoCombine (#320). El tamaño de la ventana y la superposición se rastrean internamente para que la próxima ventana pueda alinearse sin costuras visibles.
Extender ventana 2
- El segundo grupo de extensión repite la misma idea para continuar la secuencia. WanVideoLongCatAvatarExtendEmbeds (#346, #461) calcula las incrustaciones condicionadas en los latentes anteriores, enmarcados por la superposición actual. WanVideoSamplerv2 (#327, #456) genera el siguiente fragmento, que se decodifica y se fusiona con ImageBatchExtendWithOverlap (#341, #460) para mantener la continuidad. Se pueden repetir pasos de ventana adicionales para resultados más largos, y cada etapa se puede exportar con VHS_VideoCombine (#386, #453).

Nodos clave en el flujo de trabajo Comfyui LongCat Avatar en ComfyUI

WanVideoModelLoader (#122)
- Carga el punto de control LongCat-Avatar y adjunta el LongCat distill LoRA, definiendo la fidelidad de identidad y el comportamiento del movimiento. Si ejecutas instancias más grandes, cambia la implementación de atención para un mejor rendimiento como se recomienda en el envoltorio WanVideo. Repositorio de referencia: github.com/kijai/ComfyUI-WanVideoWrapper.
MultiTalkWav2VecEmbeds (#194)
- Produce incrustaciones impulsadas por audio del habla que guían los labios, la mandíbula y el movimiento sutil de la cabeza. Para una articulación más fuerte, aumenta la influencia del habla y considera un pase adicional para una sincronización más ajustada cuando tu audio es muy claro. Información del modelo de fondo: arXiv: wav2vec 2.0.
WanVideoLongCatAvatarExtendEmbeds (#346)
- Núcleo de LongCat Avatar en ComfyUI, este nodo extiende incrustaciones de imagen en el tiempo mientras se mantiene anclado al latente de referencia. Ajusta la longitud de la ventana y la superposición para equilibrar la suavidad, el tiempo de ejecución y la estabilidad en clips más largos.
WanVideoSamplerv2 (#327)
- Ejecuta el proceso de difusión utilizando el modelo, el programador, la guía de texto y las incrustaciones de imagen. Ajusta la fuerza de la guía para equilibrar la adherencia a la indicación contra la variación; pequeños cambios pueden tener efectos visibles en la rigidez de la identidad y el movimiento.
VHS_VideoCombine (#320)
- Multiplexa cuadros renderizados con el audio original en un mp4 para una visualización fácil. Usa la opción de recorte incorporada cuando quieras que los visuales terminen exactamente con el audio o para exportar solo la ventana más reciente.

Extras opcionales

Asegúrate de que la duración del audio cubra todas las ventanas de extensión planificadas para evitar quedarte sin habla a mitad de secuencia.
Para clips largos, aumenta moderadamente el tamaño de la ventana y mantén algo de superposición para que las transiciones sigan siendo suaves; muy poca superposición puede introducir estallidos, demasiada puede ralentizar el renderizado.
La canalización opera a una tasa de cuadros fija vinculada al paso impulsado por el habla, lo que mantiene la sincronización labial alineada durante la exportación.
Si utilizas un tipo de máquina grande, configura la implementación de atención en el cargador de modelos a una opción eficiente en memoria para una mejor velocidad.
No mezcles formatos de modelo incompatibles; mantén el modelo principal y cualquier componente de habla en familias coincidentes como se proporciona en los lanzamientos WanVideo Comfy. Centros de modelos útiles: Kijai/WanVideo_comfy y variantes GGUF como city96/Wan2.1-I2V-14B-480P-gguf.

Agradecimientos

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Kijai por ComfyUI-WanVideoWrapper (flujo de trabajo LongCatAvatar) y @Benji’s AI Playground el creador del video de YouTube referenciado por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulte la documentación original y los repositorios enlazados a continuación.

Recursos

YouTube/Tutorial en video
- Documentación / Notas de lanzamiento: Video de YouTube de Benji’s AI Playground
Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
- GitHub: kijai/ComfyUI-WanVideoWrapper
- Documentación / Notas de lanzamiento: LongCatAvatar_testing_wip.json (rama longcat_avatar)

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Wan 2.1 | Generación de Video Revolucionaria

Crea videos increíbles a partir de texto o imágenes con IA revolucionaria ejecutándose en CPUs cotidianas.

Wan 2.1 LoRA

Mejora la generación de video Wan 2.1 con modelos LoRA para un estilo y personalización mejorados.

Wan 2.1 Control LoRA | Profundidad y Mosaico

Avanza la generación de video Wan 2.1 con LoRAs de profundidad y mosaico ligeros para mejorar la estructura y el detalle.

Janus-Pro | T2I + I2T Model

Janus-Pro: Generación avanzada de Texto a Imagen y de Imagen a Texto.

Wan FusionX | T2V+I2V+VACE Completo

¡La solución de generación de video más poderosa hasta ahora! Detalles de calidad cinematográfica, tu estudio de cine personal.

Wan 2.1 Fun | I2V + T2V

Potencia tus videos AI con Wan 2.1 Fun.

Wan2.2 S2V | Generador de Sonido a Video

Convierte tu clip de audio en un video realista y sincronizado desde una imagen

ComfyUI F5 TTS | Motor de Clonación de Voz Natural

Convierte texto en voces ricas y expresivas con control de tono natural.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

LongCat Avatar en ComfyUI | Animación de Avatar con Consistencia de Identidad

LongCat Avatar en ComfyUI: de una sola imagen a video de avatar hablante

Modelos clave en el flujo de trabajo Comfyui LongCat Avatar en ComfyUI

Cómo usar el flujo de trabajo Comfyui LongCat Avatar en ComfyUI

Nodos clave en el flujo de trabajo Comfyui LongCat Avatar en ComfyUI

Extras opcionales

Agradecimientos

Recursos

Want More ComfyUI Workflows?

Wan 2.1 | Generación de Video Revolucionaria

Wan 2.1 LoRA

Wan 2.1 Control LoRA | Profundidad y Mosaico

Janus-Pro | T2I + I2T Model

Wan FusionX | T2V+I2V+VACE Completo

Wan 2.1 Fun | I2V + T2V

Wan2.2 S2V | Generador de Sonido a Video

ComfyUI F5 TTS | Motor de Clonación de Voz Natural