logo
RunComfy
  • Models
  • ComfyUI
  • TrainerNew
  • API
  • Pricing
discord logo
ComfyUI>Fluxos de Trabalho>Hallo2 | Animação de Retrato com Sincronização Labial

Hallo2 | Animação de Retrato com Sincronização Labial

Workflow Name: RunComfy/Hallo2
Workflow ID: 0000...1164
Hallo2 é um modelo de IA avançado que gera animações de retratos de alta qualidade, sincronizadas com os lábios, guiadas por entrada de áudio. Utilizando técnicas como modelos de difusão, codificação de áudio e detecção facial, o Hallo2 cria animações em 4K com movimentos labiais e expressões sincronizadas com precisão. Integrado perfeitamente ao framework ComfyUI, o Hallo2 permite que os usuários criem animações de retratos realistas e sincronizadas com os lábios.

A técnica Hallo2 foi desenvolvida por Jiahao Cui, Hui Li, Yao Yao, Hao Zhu, Hanlin Shang, Kaihui Cheng, Hang Zhou, Siyu Zhu e Jingdong Wang da Fudan University e Baidu Inc. Para mais informações, visite Hallo2 GitHub. Os nós e o fluxo de trabalho ComfyUI_Hallo2 foram desenvolvidos por smthemex. Para mais detalhes, visite ComfyUI_Hallo2 GitHub. Todos os créditos às suas contribuições.

1. Sobre o Hallo2

Hallo2 é um modelo de ponta para gerar vídeos de animação de retratos guiados por áudio, de longa duração e em resolução 4K. Ele se baseia no modelo original Hallo com várias melhorias importantes:

  1. Suporta a geração de vídeos muito mais longos, de até dezenas de minutos ou até horas
  2. Gera vídeos em resolução 4K
  3. Permite controlar expressão e pose usando prompts textuais além do áudio

O Hallo2 alcança isso usando técnicas avançadas como aumento de dados para manter a consistência ao longo de longas durações, quantização vetorial de códigos latentes para resolução 4K e um processo de remoção de ruído aprimorado guiado por áudio e texto.

2. Características Técnicas do Hallo2

Hallo2 combina vários modelos e técnicas avançadas de IA para criar seus vídeos de retratos de alta qualidade:

  1. Diffusion Model: Este é o "motor" principal que gera os quadros de vídeo. Começa com ruído aleatório e gradualmente o refina para corresponder ao resultado desejado, guiado pelos prompts de áudio e texto.
  2. 3D U-Net: Este é um tipo de rede neural que atua como o "escultor" no processo de difusão. Ele observa o quadro ruidoso atual, o áudio e as instruções de texto, e sugere como alterar o ruído para que pareça mais com o retrato final.
  3. Audio Encoder: O Hallo2 usa um modelo chamado Wav2Vec2 como seus "ouvidos" para entender o áudio, convertendo a forma de onda bruta em uma representação compacta que captura tom, velocidade e conteúdo da fala.
  4. Face Detector: Para ajudá-lo a focar na animação do rosto, o Hallo2 usa um modelo de detecção facial para localizar automaticamente o rosto do retrato na imagem de referência. Ele então sabe onde aplicar os movimentos labiais e de expressão.
  5. Image Compressor: Para trabalhar eficientemente com imagens em alta resolução 4K, o Hallo2 usa um tipo especial de modelo autoencoder (VQ-VAE) para compactá-las em uma representação "latente" menor, e depois decodificá-las de volta para 4K no final. Isso é como os JPEGs reduzem o tamanho dos arquivos de imagem enquanto preservam a qualidade.
  6. Augmentation Tricks: Para ajudar a manter a qualidade em vídeos longos, o Hallo2 aplica alguns "aumentos de dados" inteligentes aos quadros gerados anteriormente antes de usá-los para influenciar o próximo quadro. Isso inclui ocasionalmente apagar partes aleatórias ou adicionar ruído sutil. Isso ajuda a evitar erros acumulados que poderiam, de outra forma, se acumular e arruinar a consistência ao longo do tempo.

Em resumo - o Hallo2 recebe áudio e uma imagem de retrato, tem um "agente" de IA que esculpe os quadros de vídeo para correspondê-los enquanto permanece fiel ao retrato original, e emprega alguns truques extras para manter tudo sincronizado e coerente, mesmo em vídeos longos. Todas essas partes trabalham juntas em um pipeline de múltiplas etapas para produzir os resultados impressionantes que você vê.

3. Como Usar o ComfyUI Hallo2 Workflow

O Hallo2 foi integrado ao ComfyUI por meio de um fluxo de trabalho personalizado com vários nós especializados. Veja como usá-lo:

  1. Carregue sua imagem de retrato de referência usando o nó LoadImage. Esta deve ser um retrato claro de frente. (Dicas: Quanto melhor enquadrada e iluminada sua imagem de referência, melhores serão os resultados. Evite perfis laterais, oclusões, fundos ocupados, etc.)
  2. Carregue seu áudio de condução usando o nó LoadAudio. Deve corresponder ao humor que você deseja que o retrato expresse.
  3. Conecte a imagem e o áudio ao nó HalloPreImgAndAudio. Isso pré-processa a imagem e o áudio em embeddings. Parâmetros chave:
    • audio_separator: Modelo para separar fala de ruído de fundo. Geralmente deixe no padrão.
    • face_expand_ratio: Quanto expandir a região do rosto detectada. Valores mais altos incluem mais cabelo/fundo.
    • width/height: Resolução de geração. Valores mais altos são mais lentos, mas mais detalhados. 512-1024 quadrado é um bom equilíbrio.
    • fps: FPS de vídeo alvo. 25 é um bom padrão.
  4. Carregue o modelo principal Hallo2 usando o nó HalloLoader. Aponte para seu checkpoint Hallo2, VAE e arquivos do módulo de movimento.
  5. Conecte os embeddings de imagem e áudio pré-processados, juntamente com o modelo carregado, ao nó HalloSampler. Isso realiza a geração real do vídeo. Parâmetros chave:
    • seed: Semente aleatória que determina detalhes menores. Mude se você não gostar do primeiro resultado.
    • pose_scale/face_scale/lip_scale: Quanto escalar a intensidade de pose, expressão facial e movimentos labiais. 1.0 = intensidade total, 0.0 = congelado.
    • cfg: Escala de orientação sem classificador. Maior = segue mais de perto o condicionamento, mas é menos diverso.
    • steps: Número de etapas de remoção de ruído. Mais etapas = melhor qualidade, mas mais lento.
  6. Neste ponto, você pode visualizar o vídeo gerado. Para melhorar ainda mais a qualidade com super-resolução, adicione os nós HallosUpscaleloader e HallosVideoUpscale ao final da cadeia. O carregador de upscale lê um modelo de upscale pré-treinado, enquanto o nó de upscale realiza o upscale para 4K.

Want More ComfyUI Workflows?

Qwen Edit 2509 Light Restoration | Ferramenta de Reiluminação de Fotos

Corrija a iluminação ruim rapidamente para fotos perfeitas, limpas e equilibradas sempre.

ICEdit | Edição de Imagens com IA Rápida com Nunchaku

ICEdit+Nunchaku: Uma solução para edição de imagens com IA ultra-rápida e precisa.

MimicMotion | Geração de Vídeos de Movimento Humano

Gere vídeos de movimento humano de alta qualidade com MimicMotion, usando uma imagem de referência e uma sequência de movimento.

CogvideoX Fun | Modelo de Vídeo para Vídeo

CogVideoX Fun: Modelo avançado de vídeo para vídeo para geração de vídeos de alta qualidade.

Flux PuLID para Troca de Rostos

Flux PuLID para Troca de Rostos

Leve seus projetos de troca de rostos a novos patamares com Flux PuLID.

SkyReels-A2 | Geração de Vídeo Multi-Elemento

Combine múltiplos elementos em vídeos dinâmicos com precisão.

AnimateDiff + ControlNet TimeStep KeyFrame | Animação de Morphing

Defina ControlNet Timestep KeyFrames, como os primeiro e último quadros, para criar animações de morphing.

Janus-Pro | Modelo T2I + I2T

Janus-Pro: Geração Avançada de Texto-para-Imagem e Imagem-para-Texto.

Siga-nos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Suporte
  • Discord
  • E-mail
  • Status do Sistema
  • afiliado
Recursos
  • ComfyUI Online Gratuito
  • Guias do ComfyUI
  • RunComfy API
  • Tutoriais do ComfyUI
  • Nós do ComfyUI
  • Saiba Mais
Legal
  • Termos de Serviço
  • Política de Privacidade
  • Política de Cookies
RunComfy
Copyright 2026 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.