Retrato Fantástico: Animação de retrato rica em expressão no ComfyUI
Este fluxo de trabalho transforma uma única imagem estática em uma animação de Retrato Fantástico de alta fidelidade. Ele integra o modelo FantasyPortrait do Fantasy-AMAP com transformadores de difusão aumentados por expressão e o envolve em um pipeline de imagem-para-vídeo Wan Video 2.1, permitindo que você gere cenas falantes densas em emoção e preservação de identidade com configuração mínima. É projetado para criadores que desejam movimento cinematográfico de Retrato Fantástico a partir de uma única foto, com controles claros para enquadramento, duração e estilo.
O pipeline é totalmente automatizado: insira um retrato, escolha sua resolução e contagem de quadros, opcionalmente adicione um prompt e LoRA, e então renderize para MP4. Internamente, o gráfico detecta o rosto, codifica orientação de imagem e texto, funde embeddings de identidade do Retrato Fantástico no condicionador I2V do Wan, amostra um vídeo e decodifica quadros antes de salvar o clipe final.
Modelos chave no fluxo de trabalho ComfyUI Fantasy Portrait
FantasyPortrait (Fantasy-AMAP)
Módulo central de identidade e expressão. Fornece embeddings aumentados por expressão que preservam traços do sujeito enquanto permitem movimento facial sutil. GitHub | Paper (arXiv)
WanVideo 2.1 I2V (14B, 720p)
Base de difusão de vídeo usada para amostrar a animação a partir do retrato e condicionamento de texto/imagem. Pesos quantizados, prontos para Comfy, estão disponíveis via pack de modelos do Kijai. Hugging Face: Kijai/WanVideo_comfy
UMT5-XXL encoder
Codificador de texto de alta capacidade usado para orientação de prompts no amostrador de vídeo. Exemplo de peso: umt5-xxl-enc-bf16.safetensors em Kijai/WanVideo_comfy
Wan 2.1 VAE
VAE otimizado para vídeo para codificação/decodificação de latentes. Exemplo de peso: Wan2_1_VAE_bf16.safetensors em Kijai/WanVideo_comfy
Como usar o fluxo de trabalho ComfyUI Fantasy Portrait
O fluxo de trabalho corre da esquerda para a direita dos inputs até o vídeo final. Você principalmente configurará três coisas no início: imagem, dimensões e duração. Depois, você pode refinar com um curto prompt ou um LoRA se desejar.
1) Entrada de imagem e dimensionamento
Carregue um único retrato em LoadImage, depois ele é redimensionado para processamento. Dois estágios de redimensionamento garantem que a imagem corresponda à largura e altura escolhidas enquanto mantém a composição. Use os controles Width, Height, e Frames para definir o tamanho de saída (padrão 720 × 720) e o comprimento da animação. Isso mantém o enquadramento do Retrato Fantástico consistente ao longo do pipeline.
2) Detecção facial e embeddings de Retrato Fantástico
FantasyPortraitModelLoader carrega os pesos do FantasyPortrait, e FantasyPortraitFaceDetector extrai embeddings de retrato conscientes de identidade e expressão da sua imagem. A ideia central é separar quem é o sujeito de como eles expressam, para que a animação final preserve a identidade ao permitir movimento expressivo. Você não precisa ajustar nada aqui, a menos que troque os modelos.
3) Condicionamento de imagem e texto
Para orientação de imagem, CLIPVisionLoader com WanVideoClipVisionEncode produz recursos visuais robustos do retrato. Para orientação de texto, WanVideoTextEncodeCached usa o codificador UMT5-XXL para transformar seus prompts positivos e negativos em embeddings de condição de vídeo. Um prompt curto e simples como "natural studio close-up, gentle smile" costuma ser suficiente para um visual limpo de Retrato Fantástico.
4) Codificação I2V com controle de duração
VHS_LoadVideo é usado como um contador de quadros conveniente. Você pode deixar o clipe de espaço reservado ou carregar uma referência com sua duração preferida; sua contagem de quadros alimenta WanVideoImageToVideoEncode, que transforma sua imagem inicial mais embeddings de imagem/texto em condicionamento I2V. Se preferir um comprimento fixo, basta definir Frames diretamente e ignorar o carregador de referência.
5) Fusão de Retrato Fantástico
WanVideoAddFantasyPortrait funde o condicionamento I2V com os embeddings de retrato do passo 2. Isso é o que dá à animação final de Retrato Fantástico sua forte preservação de identidade e detalhe expressivo. Nenhuma entrada extra é necessária uma vez que sua imagem está carregada.
6) Configuração de LoRA e modelo
WanVideoModelLoader carrega Wan 2.1, então WanVideoLoraSelect aplica opcionalmente um LoRA I2V leve do pack do Kijai para influenciar movimento ou estética sem re-treinar. Este é um bom lugar para experimentar se você quiser um Retrato Fantástico ligeiramente mais estilizado enquanto mantém a identidade intacta.
7) Amostragem e decodificação de vídeo
WanVideoSampler gera quadros latentes usando o condicionamento fundido. Mantenha os prompts simples, aumente os passos moderadamente se precisar de mais detalhes, e evite restringir demais com negativos longos. WanVideoDecode converte latentes de volta em imagens, e o fluxo de trabalho concatena pré-visualizações antes de VHS_VideoCombine escrever um MP4 (padrão 16 fps, yuv420p). O prefixo do nome do arquivo de saída é definido para conveniência.
Nós chave no fluxo de trabalho ComfyUI Fantasy Portrait
FantasyPortraitModelLoader (#138)
Carrega os pesos do FantasyPortrait. Troque aqui se estiver testando uma nova versão do Fantasy-AMAP. Nenhuma sintonia é necessária, mas mantenha a precisão consistente com seu modelo Wan e VAE.
FantasyPortraitFaceDetector (#142)
Extrai embeddings de retrato da imagem redimensionada. Bons resultados vêm de fotos bem iluminadas, de frente, com mínima oclusão. Se o movimento parecer errado, verifique o recorte de entrada e tente uma fonte de imagem mais limpa.
WanVideoImageToVideoEncode (#151)
Constrói o condicionamento I2V do Wan a partir de recursos de imagem CLIP, sua imagem inicial e duração. Ajuste width, height, e num_frames para controlar a pegada de renderização e comprimento. Sequências mais longas precisam de mais VRAM e tempo.
WanVideoAddFantasyPortrait (#150)
Funde identidade/expressões de Retrato Fantástico no condicionador I2V. Use isso para manter o sujeito reconhecidamente o mesmo nos quadros enquanto permite mudanças de expressão sutis. Nenhum parâmetro normalmente requer ajuste.
WanVideoSampler (#149)
Gera os latentes de vídeo. Se quiser detalhes mais nítidos, aumente os passos modestamente. Se o movimento desviar, reduza a complexidade do prompt ou tente um LoRA diferente. Mantenha a orientação coerente em vez de verbosa.
WanVideoTextEncodeCached (#155)
Codifica prompts positivos/negativos com UMT5-XXL. Use frases curtas e descritivas. Prompts negativos excessivamente fortes (por exemplo, pilhas pesadas de “má qualidade”) podem suprimir a expressão.
Dicas
- Comece com quadrado 720 × 720 e 4 a 6 segundos para iteração rápida, depois escale se necessário.
- Use um retrato limpo e iluminado de frente com olhos visíveis. Evite oclusões pesadas, óculos de sol ou ângulos extremos.
- Mantenha os prompts de Retrato Fantástico concisos. Descreva a iluminação e o humor, não a identidade.
- Experimente um LoRA suave do pack Kijai se quiser uma sensação de movimento diferente sem perder a identidade.
Agradecimentos
Este fluxo de trabalho utiliza o modelo Retrato Fantástico da equipe Fantasy-AMAP, integrando Transformadores de Difusão Aumentados por Expressão no ComfyUI para um pipeline de animação de retrato totalmente automatizado e de alta qualidade. Agradecimentos especiais a kijai por criar e integrar o nó Wrapper de Vídeo Wan, tornando possível executar animação de retrato perfeitamente em uma estrutura de imagem-para-vídeo. Também agradecemos à comunidade mais ampla do ComfyUI por suas contribuições contínuas para ferramentas criativas abertas.
Links:
