LongCat Video Avatar 1.5 Single Character ComfyUI#
Este flujo de trabajo convierte una sola imagen de referencia y una pista de voz en un avatar parlante vertical sincronizado con los labios. Construido alrededor de LongCat-Avatar-15 y los nodos personalizados WanVideoWrapper, utiliza Whisper para extraer señales de habla, Wan 2.1 VAE para codificación/decodificación latente, y un LongCat LoRA destilado para preservar la identidad. El resultado es un video retrato MP4 que mantiene la apariencia del personaje y el movimiento de la boca en sincronía.
Diseñado como la ruta de un solo personaje, el flujo de trabajo LongCat Video Avatar 1.5 Single Character ComfyUI es ideal para creadores que desean una plantilla lista para RunComfy con entradas claras y una salida reproducible. Proporcionas una imagen de rostro y un clip de audio, ajustas algunos indicios de estilo y renderizas un video de avatar consistente sin cableado adicional.
Modelos clave en el flujo de trabajo Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#
- LongCat-Avatar-15 (destilado) y LongCat Avatar LoRA: pesos de generación de video que preservan la identidad adaptados para ComfyUI. Proporcionados en el paquete comunitario para que el avatar mantenga la apariencia mientras habla. Model files
- Wan 2.1 VAE: autoencoder variacional orientado a video utilizado para codificar el marco de referencia a latentes y decodificar marcos finales de nuevo a imágenes. Incluido en el mismo paquete comunitario. Model files
- OpenAI Whisper large v3: representación del habla que impulsa formas de la boca y sincronización precisa de labios. Model card
- Google UMT5‑XXL codificador de texto: convierte indicios positivos/negativos en condicionamiento para matices de movimiento y pose. Model card
Cómo usar el flujo de trabajo Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#
El gráfico sigue un camino claro desde las entradas hasta el video: carga activos, calcula embeddings de audio, prepara guías de texto, codifica la apariencia, muestrea marcos, luego combina el audio y guarda.
Imagen de referencia#
Carga un retrato frontal único en LoadImage (#26). La imagen se normaliza mediante ImageResizeKJv2 (#25) a un lienzo vertical 9:16 para que el personaje llene el marco sin distorsión. Usa un rostro limpio e iluminado uniformemente con mínimas oclusiones para la mejor retención de identidad. Si tu fuente es más ancha que alta, recorta centrado alrededor de la cabeza y los hombros.
Audio de voz#
Coloca un archivo de audio en LoadAudio (#5). Si es necesario, recórtalo con TrimAudioDuration (#29) para que la longitud final del video coincida con tu objetivo. La pequeña utilidad matemática (Evaluate Floats (#39)) multiplica los segundos elegidos por cuadros por segundo para establecer automáticamente el recuento total de cuadros. Una forma rápida de controlar la duración es ajustar segundos o FPS antes de renderizar.
Embeddings de habla (sincronización labial)#
LongCatAvatarWhisperEmbeds (#3) ejecuta Whisper para producir embeddings MultiTalk que codifican fonemas, pausas y énfasis. Estos embeddings son la columna vertebral de la sincronización de labios y el movimiento sutil de la cabeza. Asegúrate de que los cuadros totales y FPS aquí coincidan con tus configuraciones de exportación para evitar desincronización. Opcionalmente, habilita la normalización de sonoridad cuando tu grabación varía en nivel.
Guía de texto#
LoadWanVideoT5TextEncoder (#16) y WanVideoTextEncode (#15) convierten tus indicios positivos y negativos en condicionamiento. Usa el indicio positivo para describir el comportamiento natural que deseas (giros de cabeza calmados, asentimientos sutiles) y manten el indicio negativo para evitar artefactos (movimiento rígido, manos deformadas). La guía de texto impulsa el estilo de movimiento sin cambiar la identidad del personaje.
Codifica la apariencia#
WanVideoVAELoader (#19) y WanVideoEncode (#24) convierten tu retrato en latentes. WanVideoLongCatAvatarExtendEmbeds (#6) luego fusiona el latente de referencia con los embeddings de audio para que la identidad sea estable a través de los cuadros mientras la boca sigue el habla. Si el audio es más corto que el clip, el nodo puede rellenar o hacer bucles inteligentemente para que la sincronización se mantenga suave.
Carga el modelo de avatar#
WanVideoLoraSelect (#27) adjunta el LongCat Avatar LoRA destilado al modelo base LongCat‑Avatar‑15, todo cargado por WanVideoModelLoader (#8). Este emparejamiento preserva los rasgos faciales mientras habilita un movimiento parlante expresivo. Los ayudantes de intercambio de bloques internos mantienen el uso de VRAM predecible en GPUs compartidas o modestas.
Muestrea marcos#
WanVideoSchedulerv2 (#52) elige un horario de solucionador ajustado para LongCat destilado, y WanVideoSamplerv2 (#51) genera el video latente. Establece una semilla para resultados reproducibles y ajusta la fuerza de la guía si necesitas más o menos adherencia a los indicios. El muestreador toma imagen, texto y embeddings de imagen impulsados por audio juntos para que la boca, la cabeza y la identidad se cohesionen.
Decodifica y guarda MP4#
WanVideoDecode (#20) convierte los latentes finales de nuevo a imágenes. VHS_VideoCombine (#14) fusiona marcos y audio en un MP4 H.264 con la tasa de cuadros y prefijo de nombre de archivo especificados. La salida es un clip de avatar parlante vertical listo para compartir que mantiene la sincronización de labios y el estilo intacto.
Nodos clave en el flujo de trabajo Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI#
LongCatAvatarWhisperEmbeds (#3)#
Crea embeddings de audio MultiTalk de Whisper que impulsan la sincronización de labios y la micro-temporización. Mantén fps y num_frames alineados con tu exportación para evitar desincronización. Cuando las grabaciones varían en nivel, habilita la normalización de sonoridad. Este nodo proviene de la integración LongCat de WanVideoWrapper. Repo
WanVideoLongCatAvatarExtendEmbeds (#6)#
Fusiona el latente de referencia y los embeddings de audio en embeddings de imagen conscientes del marco. Si tu discurso es más corto que la longitud objetivo, elige cómo rellenar o hacer bucles para que el movimiento siga siendo natural. Las configuraciones de superposición y marco de referencia ayudan a mantener la estabilidad de identidad entre cortes en clips más largos. Repo
WanVideoModelLoader (#8)#
Carga la base LongCat‑Avatar‑15 con el LongCat Avatar LoRA seleccionado para fidelidad de identidad. Úsalo con la gestión de VRAM incluida y opciones de intercambio de bloques al ejecutar en hardware limitado. Cambia a una variante diferente de LongCat o LoRA aquí para cambiar el estilo sin reestructuración. Repo
WanVideoSamplerv2 (#51)#
El generador principal que sintetiza marcos a partir de modelo, planificador, texto y embeddings de imagen. Ajusta la guía libre de clasificador si necesitas una adherencia más estricta a los indicios o un movimiento más suelto. Fija la semilla para bloquear la reproducibilidad en múltiples renders. Repo
ImageResizeKJv2 (#25)#
Prepara un lienzo orientado al retrato para que el avatar llene un marco 9:16. Mantén recortes con aspecto correcto alrededor de la cara y los hombros para una codificación de identidad confiable. Igualar la divisibilidad del codificador/decodificador evita artefactos en los bordes.
VHS_VideoCombine (#14)#
Combina marcos y audio en un solo MP4 con la tasa de cuadros y prefijo de nombre de archivo elegidos. Habilita el guardado de metadatos para un seguimiento más fácil de iteraciones. Este nodo es parte de VideoHelperSuite. Repo
Extras opcionales#
- Usa una foto neutral, mirando al frente con ojos y boca claros; evita grandes oclusiones y ángulos extremos.
- Limpia el audio (elimina silencios largos, reduce el ruido de fondo) para un movimiento de boca más estable.
- Mantén el FPS consistente entre la etapa de embeddings de susurro y la exportación final para mantener una sincronización de labios ajustada.
- Para una mayor preservación de la identidad, mantente con el LongCat Avatar LoRA proporcionado; solo cambia LoRAs cuando pretendas un cambio de estilo. Model files
- Establece una semilla fija cuando necesites re-renders idénticos o pruebas A/B solo de un cambio de indicio único.
- En VRAM más baja, habilita el intercambio de bloques en el cargador de modelos para intercambiar algo de velocidad por estabilidad.
Agradecimientos#
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos sinceramente a RunningHub por la fuente del flujo de trabajo, Meigen AI por LongCat Video Avatar 1.5, y Kijai por los archivos de modelo LongCat-Video_comfy y el ComfyUI-WanVideoWrapper por sus contribuciones y mantenimiento. Para detalles autorizados, consulta la documentación original y los repositorios enlazados a continuación.
Recursos#
- Fuente del flujo de trabajo RunningHub
- Documentos / Notas de lanzamiento: RunningHub workflow source
- Página del proyecto Meigen AI/LongCat Video Avatar 1.5
- Documentos / Notas de lanzamiento: LongCat Video Avatar 1.5 project page
- Archivos de modelo Kijai/LongCat Video Comfy
- Hugging Face: Kijai/LongCat-Video_comfy
- Kijai/ComfyUI-WanVideoWrapper
- GitHub: kijai/ComfyUI-WanVideoWrapper
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.
