La técnica Hallo2 fue desarrollada por Jiahao Cui, Hui Li, Yao Yao, Hao Zhu, Hanlin Shang, Kaihui Cheng, Hang Zhou, Siyu Zhu y Jingdong Wang de la Universidad Fudan y Baidu Inc. Para más información, visita Hallo2 GitHub. Los nodos y el flujo de trabajo de ComfyUI_Hallo2 fueron desarrollados por smthemex. Para más detalles, visita ComfyUI_Hallo2 GitHub. Todos los créditos a sus contribuciones.
Hallo2 es un modelo de vanguardia para generar videos de animación de retratos impulsados por audio de alta calidad, larga duración y resolución 4K. Se basa en el modelo original Hallo con varias mejoras clave:
Hallo2 logra esto utilizando técnicas avanzadas como la aumentación de datos para mantener la consistencia durante largas duraciones, la cuantización vectorial de códigos latentes para resolución 4K y un proceso de eliminación de ruido mejorado guiado tanto por audio como por texto.
Hallo2 combina varios modelos de IA avanzados y técnicas para crear sus videos de retratos de alta calidad:
En resumen, Hallo2 toma audio e imagen de retrato, tiene un "agente" de IA que esculpe fotogramas de video para que coincidan mientras se mantiene fiel al retrato original, y emplea algunos trucos adicionales para mantener todo sincronizado y coherente incluso en videos largos. Todas estas partes trabajan juntas en una canalización de múltiples pasos para producir los impresionantes resultados que ves.
Hallo2 ha sido integrado en ComfyUI a través de un flujo de trabajo personalizado con varios nodos especializados. Aquí se explica cómo usarlo:
LoadImage. Esta debe ser un retrato claro y frontal. (Consejos: Cuanto mejor enmarcado e iluminado esté tu retrato de referencia, mejores serán los resultados. Evita perfiles laterales, oclusiones, fondos ocupados, etc.)LoadAudio. Debe coincidir con el estado de ánimo que deseas que el retrato exprese.HalloPreImgAndAudio. Esto preprocesa la imagen y el audio en incrustaciones. Parámetros clave:
audio_separator: Modelo para separar el habla del ruido de fondo. Generalmente dejarlo en el valor predeterminado.face_expand_ratio: Cuánto expandir la región detectada del rostro. Valores más altos incluyen más del cabello/fondo.width/height: Resolución de generación. Valores más altos son más lentos pero más detallados. 512-1024 cuadrado es un buen equilibrio.fps: FPS de video objetivo. 25 es un buen valor predeterminado.HalloLoader. Apúntalo a tu archivo de punto de control Hallo2, VAE y archivos del módulo de movimiento.HalloSampler. Esto realiza la generación real del video. Parámetros clave:
seed: Semilla aleatoria que determina detalles menores. Cámbiala si no te gusta el primer resultado.pose_scale/face_scale/lip_scale: Cuánto escalar la intensidad de los movimientos de pose, expresión facial y labios. 1.0 = intensidad completa, 0.0 = congelado.cfg: Escala de orientación sin clasificador. Más alto = sigue más de cerca la condicionante pero es menos diverso.steps: Número de pasos de eliminación de ruido. Más pasos = mejor calidad pero más lento.HallosUpscaleloader y HallosVideoUpscale al final de la cadena. El cargador de escalado lee un modelo de escalado previamente entrenado, mientras que el nodo de escalado realiza el escalado a 4K.RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.