LongCat Avatar en ComfyUI: de una sola imagen a video de avatar hablante
LongCat Avatar en ComfyUI convierte una sola imagen de referencia en un video de avatar estable en identidad y dirigido por audio. Construido sobre el envoltorio WanVideo de kijai, se enfoca en la coherencia facial, la continuidad del movimiento suave y la sincronización labial natural sin necesidad de ajustes finos por personaje. Proporcionas una imagen de personaje y una pista de audio; el flujo de trabajo genera una actuación temporalmente consistente, adecuada para clips de cabezas parlantes, actuaciones de personajes estilizados y pruebas rápidas de movimiento de avatar.
Los creadores que deseen iteraciones rápidas encontrarán LongCat Avatar en ComfyUI pragmático y confiable. El flujo de trabajo utiliza el modelo de preservación de identidad de LongCat y un esquema de generación en ventanas para extender secuencias mientras mantiene las expresiones estables. Las salidas se ensamblan en video con el audio fuente para una revisión o publicación sencilla.
Nota: En máquinas 2XL o superiores, por favor configure el backend de atención a "sdpa" en el nodo WanVideo Model Loader. El backend segeattn predeterminado puede causar problemas de compatibilidad en GPUs de alto nivel.
Modelos clave en el flujo de trabajo Comfyui LongCat Avatar en ComfyUI
- Modelo LongCat-Avatar para WanVideo. Generación de imagen a video centrada en la identidad adaptada para ComfyUI, proporcionando una fuerte preservación de personajes a lo largo de los cuadros. Consulte los lanzamientos Comfy de WanVideo por kijai en Hugging Face para puntos de control y notas. Hugging Face: Kijai/WanVideo_comfy
- LongCat distill LoRA. Un LoRA destilado que refuerza la estructura facial y las características de identidad durante el muestreo, mejorando la estabilidad bajo movimiento. Disponible con los recursos WanVideo Comfy. Hugging Face: Kijai/WanVideo_comfy
- Wan 2.1 VAE. VAE de video utilizado para codificar el(los) cuadro(s) de referencia en latentes y decodificar muestras generadas de nuevo a imágenes. Hugging Face: Kijai/WanVideo_comfy
- Codificador de texto UM-T5. Usado por WanVideo para interpretar indicaciones de texto que dirigen la descripción de la escena y el estilo mientras se mantiene la identidad intacta. Hugging Face: google/umt5-xxl
- Representaciones de habla Wav2Vec 2.0. Proporciona características de habla robustas que impulsan el movimiento de labios y mandíbula a través de incrustaciones MultiTalk. Documento de fondo: wav2vec 2.0. arXiv y una variante de modelo compatible: Hugging Face: TencentGameMate/chinese-wav2vec2-base
- Separador vocal MelBandRoFormer. Separación opcional de vocal-música para que el módulo de sincronización labial reciba una señal de habla más limpia. Hugging Face: Kijai/MelBandRoFormer_comfy
Cómo usar el flujo de trabajo Comfyui LongCat Avatar en ComfyUI
El flujo de trabajo tiene tres fases principales: modelos y configuraciones, audio a pistas de movimiento, e imagen de referencia a video con extensión en ventanas. Renderiza a una tasa fija diseñada para movimiento impulsado por audio, luego une ventanas a un clip sin costuras.
- Modelos
- El
WanVideoModelLoader(#122) carga el punto de control LongCat-Avatar y el LongCat distill LoRA, mientras queWanVideoVAELoader(#129) proporciona el VAE de video. ElWanVideoSchedulerv2(#325) prepara el horario del muestreador utilizado durante la difusión. Estos componentes definen la fidelidad, la retención de identidad y el aspecto general. Una vez configurados, actúan como la columna vertebral para todos los pasos de muestreo subsiguientes.
- El
- Audio
- Carga una pista de voz con
LoadAudio(#125), opcionalmente recorta conTrimAudioDuration(#317), y separa las voces conMelBandRoFormerSampler(#302) para reducir el sangrado de fondo.MultiTalkWav2VecEmbeds(#194) convierte el habla limpia en incrustaciones que impulsan el movimiento de la boca y las dinámicas sutiles de la cabeza. El conteo efectivo de cuadros se deriva de la duración del audio, por lo que un audio más largo conduce a secuencias más largas. El flujo de audio se multiplexa más tarde con imágenes en la etapa de combinación de video.
- Carga una pista de voz con
- Imagen de entrada
- Añade tu imagen de personaje con
LoadImage(#284).ImageResizeKJv2(#281) la dimensiona para el modelo, yWanVideoEncode(#312) la convierte en unref_latentque ancla la identidad a lo largo de todos los cuadros. Este latente es la referencia fija que la canalización LongCat Avatar en ComfyUI reutiliza mientras inyecta movimiento variable en el tiempo desde el audio y las indicaciones.
- Añade tu imagen de personaje con
- Extender ventana 1
WanVideoLongCatAvatarExtendEmbeds(#345) fusiona elref_latentcon las incrustaciones de audio para crear incrustaciones de imagen para la primera ventana.WanVideoSamplerv2(#324) luego desruida los latentes en un clip corto.WanVideoDecode(#313) los convierte en imágenes para vista previa y la primera exportación de video conVHS_VideoCombine(#320). El tamaño de la ventana y la superposición se rastrean internamente para que la próxima ventana pueda alinearse sin costuras visibles.
- Extender ventana 2
- El segundo grupo de extensión repite la misma idea para continuar la secuencia.
WanVideoLongCatAvatarExtendEmbeds(#346, #461) calcula las incrustaciones condicionadas en los latentes anteriores, enmarcados por la superposición actual.WanVideoSamplerv2(#327, #456) genera el siguiente fragmento, que se decodifica y se fusiona conImageBatchExtendWithOverlap(#341, #460) para mantener la continuidad. Se pueden repetir pasos de ventana adicionales para resultados más largos, y cada etapa se puede exportar conVHS_VideoCombine(#386, #453).
- El segundo grupo de extensión repite la misma idea para continuar la secuencia.
Nodos clave en el flujo de trabajo Comfyui LongCat Avatar en ComfyUI
WanVideoModelLoader(#122)- Carga el punto de control LongCat-Avatar y adjunta el LongCat distill LoRA, definiendo la fidelidad de identidad y el comportamiento del movimiento. Si ejecutas instancias más grandes, cambia la implementación de atención para un mejor rendimiento como se recomienda en el envoltorio WanVideo. Repositorio de referencia: github.com/kijai/ComfyUI-WanVideoWrapper.
MultiTalkWav2VecEmbeds(#194)- Produce incrustaciones impulsadas por audio del habla que guían los labios, la mandíbula y el movimiento sutil de la cabeza. Para una articulación más fuerte, aumenta la influencia del habla y considera un pase adicional para una sincronización más ajustada cuando tu audio es muy claro. Información del modelo de fondo: arXiv: wav2vec 2.0.
WanVideoLongCatAvatarExtendEmbeds(#346)- Núcleo de LongCat Avatar en ComfyUI, este nodo extiende incrustaciones de imagen en el tiempo mientras se mantiene anclado al latente de referencia. Ajusta la longitud de la ventana y la superposición para equilibrar la suavidad, el tiempo de ejecución y la estabilidad en clips más largos.
WanVideoSamplerv2(#327)- Ejecuta el proceso de difusión utilizando el modelo, el programador, la guía de texto y las incrustaciones de imagen. Ajusta la fuerza de la guía para equilibrar la adherencia a la indicación contra la variación; pequeños cambios pueden tener efectos visibles en la rigidez de la identidad y el movimiento.
VHS_VideoCombine(#320)- Multiplexa cuadros renderizados con el audio original en un mp4 para una visualización fácil. Usa la opción de recorte incorporada cuando quieras que los visuales terminen exactamente con el audio o para exportar solo la ventana más reciente.
Extras opcionales
- Asegúrate de que la duración del audio cubra todas las ventanas de extensión planificadas para evitar quedarte sin habla a mitad de secuencia.
- Para clips largos, aumenta moderadamente el tamaño de la ventana y mantén algo de superposición para que las transiciones sigan siendo suaves; muy poca superposición puede introducir estallidos, demasiada puede ralentizar el renderizado.
- La canalización opera a una tasa de cuadros fija vinculada al paso impulsado por el habla, lo que mantiene la sincronización labial alineada durante la exportación.
- Si utilizas un tipo de máquina grande, configura la implementación de atención en el cargador de modelos a una opción eficiente en memoria para una mejor velocidad.
- No mezcles formatos de modelo incompatibles; mantén el modelo principal y cualquier componente de habla en familias coincidentes como se proporciona en los lanzamientos WanVideo Comfy. Centros de modelos útiles: Kijai/WanVideo_comfy y variantes GGUF como city96/Wan2.1-I2V-14B-480P-gguf.
Agradecimientos
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Kijai por ComfyUI-WanVideoWrapper (flujo de trabajo LongCatAvatar) y @Benji’s AI Playground el creador del video de YouTube referenciado por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulte la documentación original y los repositorios enlazados a continuación.
Recursos
- YouTube/Tutorial en video
- Documentación / Notas de lanzamiento: Video de YouTube de Benji’s AI Playground
- Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
- GitHub: kijai/ComfyUI-WanVideoWrapper
- Documentación / Notas de lanzamiento: LongCatAvatar_testing_wip.json (rama longcat_avatar)
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.
