Este fluxo de trabalho transforma uma única imagem estática em uma animação de Retrato Fantástico de alta fidelidade. Ele integra o modelo FantasyPortrait do Fantasy-AMAP com transformadores de difusão aumentados por expressão e o envolve em um pipeline de imagem-para-vídeo Wan Video 2.1, permitindo que você gere cenas falantes densas em emoção e preservação de identidade com configuração mínima. É projetado para criadores que desejam movimento cinematográfico de Retrato Fantástico a partir de uma única foto, com controles claros para enquadramento, duração e estilo.
O pipeline é totalmente automatizado: insira um retrato, escolha sua resolução e contagem de quadros, opcionalmente adicione um prompt e LoRA, e então renderize para MP4. Internamente, o gráfico detecta o rosto, codifica orientação de imagem e texto, funde embeddings de identidade do Retrato Fantástico no condicionador I2V do Wan, amostra um vídeo e decodifica quadros antes de salvar o clipe final.
FantasyPortrait (Fantasy-AMAP)
Módulo central de identidade e expressão. Fornece embeddings aumentados por expressão que preservam traços do sujeito enquanto permitem movimento facial sutil.
|
WanVideo 2.1 I2V (14B, 720p)
Base de difusão de vídeo usada para amostrar a animação a partir do retrato e condicionamento de texto/imagem. Pesos quantizados, prontos para Comfy, estão disponíveis via pack de modelos do Kijai.
UMT5-XXL encoder
Codificador de texto de alta capacidade usado para orientação de prompts no amostrador de vídeo.
Exemplo de peso: umt5-xxl-enc-bf16.safetensors
em
Wan 2.1 VAE
VAE otimizado para vídeo para codificação/decodificação de latentes.
Exemplo de peso: Wan2_1_VAE_bf16.safetensors
em
O fluxo de trabalho corre da esquerda para a direita dos inputs até o vídeo final. Você principalmente configurará três coisas no início: imagem, dimensões e duração. Depois, você pode refinar com um curto prompt ou um LoRA se desejar.
Carregue um único retrato em LoadImage
, depois ele é redimensionado para processamento. Dois estágios de redimensionamento garantem que a imagem corresponda à largura
e altura
escolhidas enquanto mantém a composição. Use os controles Width
, Height
, e Frames
para definir o tamanho de saída (padrão 720 × 720) e o comprimento da animação. Isso mantém o enquadramento do Retrato Fantástico consistente ao longo do pipeline.
FantasyPortraitModelLoader
carrega os pesos do FantasyPortrait, e FantasyPortraitFaceDetector
extrai embeddings de retrato conscientes de identidade e expressão da sua imagem. A ideia central é separar quem é o sujeito de como eles expressam, para que a animação final preserve a identidade ao permitir movimento expressivo. Você não precisa ajustar nada aqui, a menos que troque os modelos.
Para orientação de imagem, CLIPVisionLoader
com WanVideoClipVisionEncode
produz recursos visuais robustos do retrato. Para orientação de texto, WanVideoTextEncodeCached
usa o codificador UMT5-XXL para transformar seus prompts positivos e negativos em embeddings de condição de vídeo. Um prompt curto e simples como "natural studio close-up, gentle smile" costuma ser suficiente para um visual limpo de Retrato Fantástico.
VHS_LoadVideo
é usado como um contador de quadros conveniente. Você pode deixar o clipe de espaço reservado ou carregar uma referência com sua duração preferida; sua contagem de quadros alimenta WanVideoImageToVideoEncode
, que transforma sua imagem inicial mais embeddings de imagem/texto em condicionamento I2V. Se preferir um comprimento fixo, basta definir Frames
diretamente e ignorar o carregador de referência.
WanVideoAddFantasyPortrait
funde o condicionamento I2V com os embeddings de retrato do passo 2. Isso é o que dá à animação final de Retrato Fantástico sua forte preservação de identidade e detalhe expressivo. Nenhuma entrada extra é necessária uma vez que sua imagem está carregada.
WanVideoModelLoader
carrega Wan 2.1, então WanVideoLoraSelect
aplica opcionalmente um LoRA I2V leve do pack do Kijai para influenciar movimento ou estética sem re-treinar. Este é um bom lugar para experimentar se você quiser um Retrato Fantástico ligeiramente mais estilizado enquanto mantém a identidade intacta.
WanVideoSampler
gera quadros latentes usando o condicionamento fundido. Mantenha os prompts simples, aumente os passos moderadamente se precisar de mais detalhes, e evite restringir demais com negativos longos. WanVideoDecode
converte latentes de volta em imagens, e o fluxo de trabalho concatena pré-visualizações antes de VHS_VideoCombine
escrever um MP4 (padrão 16 fps, yuv420p). O prefixo do nome do arquivo de saída é definido para conveniência.
FantasyPortraitModelLoader
(#138)Carrega os pesos do FantasyPortrait. Troque aqui se estiver testando uma nova versão do Fantasy-AMAP. Nenhuma sintonia é necessária, mas mantenha a precisão consistente com seu modelo Wan e VAE.
FantasyPortraitFaceDetector
(#142)Extrai embeddings de retrato da imagem redimensionada. Bons resultados vêm de fotos bem iluminadas, de frente, com mínima oclusão. Se o movimento parecer errado, verifique o recorte de entrada e tente uma fonte de imagem mais limpa.
WanVideoImageToVideoEncode
(#151)Constrói o condicionamento I2V do Wan a partir de recursos de imagem CLIP, sua imagem inicial e duração. Ajuste width
, height
, e num_frames
para controlar a pegada de renderização e comprimento. Sequências mais longas precisam de mais VRAM e tempo.
WanVideoAddFantasyPortrait
(#150)Funde identidade/expressões de Retrato Fantástico no condicionador I2V. Use isso para manter o sujeito reconhecidamente o mesmo nos quadros enquanto permite mudanças de expressão sutis. Nenhum parâmetro normalmente requer ajuste.
WanVideoSampler
(#149)Gera os latentes de vídeo. Se quiser detalhes mais nítidos, aumente os passos modestamente. Se o movimento desviar, reduza a complexidade do prompt ou tente um LoRA diferente. Mantenha a orientação coerente em vez de verbosa.
WanVideoTextEncodeCached
(#155)Codifica prompts positivos/negativos com UMT5-XXL. Use frases curtas e descritivas. Prompts negativos excessivamente fortes (por exemplo, pilhas pesadas de “má qualidade”) podem suprimir a expressão.
Este fluxo de trabalho utiliza o modelo Retrato Fantástico da equipe , integrando Transformadores de Difusão Aumentados por Expressão no ComfyUI para um pipeline de animação de retrato totalmente automatizado e de alta qualidade.
Agradecimentos especiais a kijai por criar e integrar o nó Wrapper de Vídeo Wan, tornando possível executar animação de retrato perfeitamente em uma estrutura de imagem-para-vídeo.
Também agradecemos à comunidade mais ampla do ComfyUI por suas contribuições contínuas para ferramentas criativas abertas.
Links:
RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.