logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>Workflows>Hallo2 | Animation de portrait synchronisée sur les lèvres

Hallo2 | Animation de portrait synchronisée sur les lèvres

Workflow Name: RunComfy/Hallo2
Workflow ID: 0000...1164
Hallo2 est un modèle d'IA avancé qui génère des animations de portraits de haute qualité, synchronisées sur les lèvres et pilotées par des entrées audio. En utilisant des techniques telles que les modèles de diffusion, l'encodage audio et la détection de visage, Hallo2 crée des animations en 4K avec des mouvements de bouche et des expressions précisément synchronisés. Intégré de manière transparente dans le cadre ComfyUI, Hallo2 permet aux utilisateurs de créer des animations de portraits réalistes et synchronisées sur les lèvres.

La technique Hallo2 a été développée par Jiahao Cui, Hui Li, Yao Yao, Hao Zhu, Hanlin Shang, Kaihui Cheng, Hang Zhou, Siyu Zhu et Jingdong Wang de l'Université Fudan et Baidu Inc. Pour plus d'informations, visitez Hallo2 GitHub. Les nœuds et le flux de travail ComfyUI_Hallo2 ont été développés par smthemex. Pour plus de détails, visitez ComfyUI_Hallo2 GitHub. Tous les crédits à leurs contributions.

1. À propos de Hallo2

Hallo2 est un modèle de pointe pour générer des vidéos d'animation de portraits pilotées par audio de haute qualité et de longue durée en résolution 4K. Il s'appuie sur le modèle original Hallo avec plusieurs améliorations clés :

  1. Prend en charge la génération de vidéos beaucoup plus longues, jusqu'à des dizaines de minutes ou même des heures
  2. Génère des vidéos en résolution 4K
  3. Permet de contrôler l'expression et la pose à l'aide de messages textuels en plus de l'audio

Hallo2 y parvient en utilisant des techniques avancées telles que l'augmentation de données pour maintenir la cohérence sur de longues durées, la quantification vectorielle des codes latents pour la résolution 4K et un processus de débruitage amélioré guidé à la fois par l'audio et le texte.

2. Caractéristiques techniques de Hallo2

Hallo2 combine plusieurs modèles et techniques avancés d'IA pour créer ses vidéos de portraits de haute qualité :

  1. Modèle de diffusion : Il s'agit du "moteur" principal qui génère les images vidéo. Il commence par un bruit aléatoire et le raffine progressivement pour correspondre au résultat souhaité, guidé par les messages audio et textuels.
  2. 3D U-Net : C'est un type de réseau neuronal qui agit comme le "sculpteur" dans le processus de diffusion. Il examine l'image bruyante actuelle, l'audio et les instructions textuelles, et suggère comment changer le bruit pour le rendre plus proche du portrait final.
  3. Encodeur audio : Hallo2 utilise un modèle appelé Wav2Vec2 comme ses "oreilles" pour comprendre l'audio, convertissant la forme d'onde brute en une représentation compacte qui capture le ton, la vitesse et le contenu du discours.
  4. Détecteur de visage : Pour l'aider à se concentrer sur l'animation du visage, Hallo2 utilise un modèle de détection de visage pour localiser automatiquement le visage du portrait dans l'image de référence. Il sait alors où appliquer les mouvements des lèvres et des expressions.
  5. Compresseur d'images : Pour travailler efficacement avec des images 4K haute résolution, Hallo2 utilise un type spécial de modèle d'autoencodeur (VQ-VAE) pour les compresser en une "représentation latente" plus petite, puis les décoder en 4K à la fin. C'est comme la façon dont les JPEG réduisent la taille des fichiers image tout en préservant la qualité.
  6. Trucs d'augmentation : Pour aider à maintenir la qualité sur de longues vidéos, Hallo2 applique quelques "augmentations de données" astucieuses aux images générées précédentes avant de les utiliser pour influencer l'image suivante. Cela inclut l'effacement occasionnel de patchs aléatoires ou l'ajout de bruit subtil. Cela aide à prévenir les erreurs cumulatives qui pourraient autrement s'accumuler et ruiner la cohérence au fil du temps.

En résumé - Hallo2 prend en entrée un audio et une image de portrait, dispose d'un "agent" IA qui sculpte des images vidéo pour les assortir tout en restant fidèle au portrait original, et emploie quelques astuces supplémentaires pour garder tout synchronisé et cohérent même dans les longues vidéos. Toutes ces parties travaillent ensemble dans un pipeline à étapes multiples pour produire les résultats impressionnants que vous voyez.

3. Comment utiliser le flux de travail ComfyUI Hallo2

Hallo2 a été intégré dans ComfyUI via un flux de travail personnalisé avec plusieurs nœuds spécialisés. Voici comment l'utiliser :

  1. Chargez votre image de portrait de référence en utilisant le nœud LoadImage. Il doit s'agir d'un portrait clair de face. (Conseils : plus votre portrait de référence est bien cadré et éclairé, meilleurs seront les résultats. Évitez les profils latéraux, les occlusions, les arrière-plans chargés, etc.)
  2. Chargez votre audio de conduite en utilisant le nœud LoadAudio. Il doit correspondre à l'humeur que vous souhaitez que le portrait exprime.
  3. Connectez l'image et l'audio au nœud HalloPreImgAndAudio. Cela prétraite l'image et l'audio en incorporations. Paramètres clés :
    • audio_separator : Modèle pour séparer la parole du bruit de fond. Laissez généralement par défaut.
    • face_expand_ratio : Combien étendre la région du visage détectée. Des valeurs plus élevées incluent plus de cheveux/arrière-plan.
    • width/height : Résolution de génération. Des valeurs plus élevées sont plus lentes mais plus détaillées. 512-1024 carré est un bon équilibre.
    • fps : FPS vidéo cible. 25 est un bon défaut.
  4. Chargez le modèle Hallo2 principal en utilisant le nœud HalloLoader. Pointez-le vers votre point de contrôle Hallo2, VAE, et fichiers de module de mouvement.
  5. Connectez les incorporations d'image et d'audio prétraitées ainsi que le modèle chargé au nœud HalloSampler. Cela effectue la génération vidéo réelle. Paramètres clés :
    • seed : Graine aléatoire qui détermine les détails mineurs. Changez-la si vous n'aimez pas le premier résultat.
    • pose_scale/face_scale/lip_scale : Combien échelle l'intensité des mouvements de pose, d'expression faciale et de lèvres. 1.0 = pleine intensité, 0.0 = gelé.
    • cfg : Échelle de guidage sans classificateur. Plus élevé = suit plus étroitement le conditionnement mais est moins diversifié.
    • steps : Nombre d'étapes de débruitage. Plus d'étapes = meilleure qualité mais plus lent.
  6. À ce stade, vous pouvez voir la vidéo générée. Pour améliorer encore la qualité avec la super-résolution, ajoutez les nœuds HallosUpscaleloader et HallosVideoUpscale à la fin de la chaîne. Le chargeur d'upscaling lit un modèle d'upscaling préentraîné, tandis que le nœud d'upscaling effectue réellement l'upscaling en 4K.

Want More ComfyUI Workflows?

AnimateLCM | Accélérer le texte en vidéo

Accélérez votre animation texte-vidéo en utilisant le flux de travail ComfyUI AnimateLCM.

LTX 2.3 - Échange de Visage Vidéo | Remplacement de Visage Sans Couture

Échangez des visages dans la vidéo avec des résultats naturels et sans scintillement.

Portrait en direct avancé | Contrôle des paramètres

Utilisez des paramètres personnalisables pour contrôler chaque caractéristique, des clignements d'yeux aux mouvements de tête, pour des résultats naturels.

FLUX Inpainting | Édition d'images sans couture

FLUX Inpainting | Édition d'images sans couture

Remplissez, supprimez et affinez des images sans effort, en intégrant de nouveaux contenus de manière transparente.

daVinci-MagiHuman | Générateur d'Humains Parlants Réalistes

Crée des avatars réalistes avec un discours synchronisé et un mouvement expressif.

BAGEL AI | T2I + I2T + I2I

Compréhension et génération multimodales avec une IA open-source.

Inférence Qwen Image Edit Plus 2511 LoRA | AI Toolkit ComfyUI

Maintenez les éditions LoRA de Qwen Image Edit Plus 2511 formées par AI Toolkit dans ComfyUI alignées en prévisualisation à l'aide d'un seul nœud personnalisé RCQwenImageEditPlus2511.

FLUX Kontext Face Swap | Remplacement de visage sans couture

Remplacement de visage photoréaliste avec contrôle guidé par invite et mélange naturel

Suivez-nous
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Support
  • Discord
  • Email
  • État du système
  • affilié
Ressources
  • ComfyUI en ligne gratuit
  • Guides ComfyUI
  • RunComfy API
  • Tutoriels ComfyUI
  • Nœuds ComfyUI
  • En savoir plus
Légal
  • Conditions d'utilisation
  • Politique de confidentialité
  • Politique relative aux cookies
RunComfy
Droits d'auteur 2026 RunComfy. Tous droits réservés.

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Models, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.