Fluxo de trabalho Hunyuan Video 1.5 ComfyUI: texto para vídeo rápido e imagem para vídeo com super resolução de 1080p
Este fluxo de trabalho envolve o Hunyuan Video 1.5 no ComfyUI para entregar geração de vídeo rápida e coerente em GPUs de consumo. Ele suporta tanto texto para vídeo quanto imagem para vídeo, podendo opcionalmente aumentar a resolução para 1080p usando um upsampler latente dedicado e um modelo de super-resolução destilado. Sob o capô, o Hunyuan Video 1.5 combina um Transformer de Difusão com um VAE causal 3D e uma estratégia de atenção de deslizamento seletivo para equilibrar qualidade, fidelidade de movimento e velocidade.
Criadores, equipes de produto e pesquisadores podem usar este fluxo de trabalho ComfyUI Hunyuan Video 1.5 para iterar rapidamente a partir de prompts ou uma única imagem estática, pré-visualizar em 720p e finalizar com saída nítida de 1080p quando necessário.
Modelos principais no fluxo de trabalho Comfyui Hunyuan Video 1.5
- HunyuanVideo 1.5 720p Image-to-Video UNet. Produz movimento e coerência temporal a partir de uma imagem inicial. Os pesos são fornecidos na reembalagem Comfy-Org no Hugging Face Comfy-Org/HunyuanVideo_1.5_repackaged.
- HunyuanVideo 1.5 720p Text-to-Video UNet. Gera vídeos diretamente de prompts de texto usando a mesma arquitetura central, ajustada para fluxos de trabalho de prompt-primeiro. Veja o repositório de reembalagem acima.
- HunyuanVideo 1.5 1080p Super-Resolution UNet (destilado). Refina latentes de 720p para maior detalhe enquanto preserva movimento e estrutura de cena. Incluído na mesma reembalagem no Hugging Face.
- HunyuanVideo 1.5 3D VAE. Codifica e decodifica latentes de vídeo para geração eficiente e decodificação em blocos.
- HunyuanVideo 1.5 Latent Upsampler 1080p. Reescala sequências latentes para 1920×1080 antes do refinamento SR para eficiência de velocidade e memória.
- Qwen 2.5 VL 7B codificador de texto e ByT5 Small codificador de texto. Fornecem instrução robusta e tokenização para prompts diversos, reembalados para este fluxo de trabalho no pacote Hugging Face acima. Cartão de modelo original do ByT5: google/byt5-small.
- SigCLIP Vision (ViT-L/14, 384). Extrai recursos visuais de alta qualidade da imagem inicial para guiar o condicionamento de imagem para vídeo: Comfy-Org/sigclip_vision_384.
Como usar o fluxo de trabalho Comfyui Hunyuan Video 1.5
Este gráfico expõe dois caminhos independentes que compartilham o mesmo estágio de exportação e acabamento opcional de 1080p. Escolha Imagem para Vídeo ou Texto para Vídeo, depois ative opcionalmente o grupo de 1080p para finalizar.
Imagem para Vídeo
Passo 1 — Carregar modelos Os carregadores trazem o Hunyuan Video 1.5 UNet para imagem para vídeo, o VAE 3D, os codificadores de texto duplos e a visão SigCLIP. Isso prepara o fluxo de trabalho para aceitar uma imagem inicial única e um prompt. Nenhuma ação do usuário é necessária além de confirmar que os modelos estão disponíveis.
Passo 2 — Carregar imagem inicial Forneça uma imagem limpa e bem exposta em LoadImage (#80). O gráfico codifica esta imagem com CLIPVisionEncode (#79) para que o Hunyuan Video 1.5 possa ancorar movimento e estilo à sua referência. Prefira imagens que correspondam aproximadamente à sua proporção de aspecto alvo para reduzir corte ou preenchimento.
Passo 3 — Prompt Escreva sua descrição em CLIP Text Encode (Positive Prompt) (#44). Use o prompt negativo CLIP Text Encode (Negative Prompt) (#93) para afastar de artefatos ou estilos indesejados. Mantenha os prompts concisos, mas específicos sobre o sujeito, movimento e comportamento da câmera.
Passo 4 — Tamanho e duração do vídeo HunyuanVideo15ImageToVideo (#78) define a resolução espacial e o número de quadros a serem sintetizados. Sequências mais longas requerem mais VRAM e tempo, então comece mais curto e aumente uma vez que você goste do movimento.
Amostragem personalizada A pilha de amostradores (ModelSamplingSD3 (#130), CFGGuider (#129), BasicScheduler (#126), KSamplerSelect (#128), RandomNoise (#127), SamplerCustomAdvanced (#125)) controla a força da orientação, etapas, tipo de amostrador e semente. Aumente as etapas para mais detalhe e estabilidade, e use uma semente fixa para reproduzir resultados ao iterar em prompts.
Pré-visualizar e salvar A sequência latente é decodificada com VAEDecode (#8), enquadrada em um vídeo a 24 fps com CreateVideo (#101), e gravada por SaveVideo (#102). Isso lhe dá uma pré-visualização rápida de 720p pronta para revisão.
Acabamento de 1080p (opcional) Ative o grupo “Video Upscale 1080P” para habilitar a cadeia de acabamento. O upsampler latente expande para 1920×1080, então o UNet de super-resolução destilado refina detalhes em duas fases. VAEDecodeTiled e um segundo par CreateVideo/SaveVideo exportam o resultado de 1080p.
Texto para Vídeo
Passo 1 — Carregar modelos Os carregadores buscam o Hunyuan Video 1.5 720p texto para vídeo UNet, o VAE 3D e os codificadores de texto duplos. Este caminho não requer uma imagem inicial.
Passo 3 — Prompt Digite sua descrição no codificador positivo CLIP Text Encode (Positive Prompt) (#149) e opcionalmente adicione um prompt negativo em CLIP Text Encode (Negative Prompt) (#155). Descreva cena, sujeito, movimento e câmera, mantendo a linguagem concreta.
Passo 4 — Tamanho e duração do vídeo EmptyHunyuanVideo15Latent (#183) aloca o latente inicial com a largura, altura e contagem de quadros escolhidas. Use isso para definir quão longo e quão grande seu vídeo deve ser.
Amostragem personalizada ModelSamplingSD3 (#165), CFGGuider (#164), BasicScheduler (#161), KSamplerSelect (#163), RandomNoise (#162), e SamplerCustomAdvanced (#166) colaboram para transformar ruído em um vídeo coerente guiado por seu texto. Ajuste etapas e orientação para trocar velocidade por fidelidade, e fixe a semente para tornar as execuções comparáveis.
Pré-visualizar e salvar Os quadros decodificados são montados por CreateVideo (#168) e salvos por SaveVideo (#167) para uma revisão rápida de 720p a 24 fps.
Acabamento de 1080p (opcional) Habilite o grupo “Video Upscale 1080P” para aumentar a resolução dos latentes para 1080p e refinar com o UNet SR destilado. A amostragem em duas fases melhora a nitidez enquanto preserva o movimento. Um decodificador em blocos e uma segunda etapa de salvamento exportam o vídeo final de 1080p.
Nós principais no fluxo de trabalho Comfyui Hunyuan Video 1.5
HunyuanVideo15ImageToVideo (#78) Gera um vídeo condicionando em uma imagem inicial e seus prompts. Ajuste sua resolução e quadros totais para corresponder ao seu alvo criativo. Resoluções mais altas e clipes mais longos aumentam VRAM e tempo. Este nó é central para a qualidade de imagem para vídeo porque funde recursos CLIP-Vision com orientação de texto antes da amostragem.
EmptyHunyuanVideo15Latent (#183) Inicializa a grade latente para texto para vídeo com largura, altura e contagem de quadros. Use-o para definir o comprimento da sequência antecipadamente para que o scheduler e o sampler possam planejar uma trajetória de denoising estável. Mantenha a proporção consistente com sua saída pretendida para evitar preenchimento extra posterior.
CFGGuider (#129) Define a força da orientação livre de classificadores, equilibrando a aderência ao prompt contra a naturalidade. Aumente a orientação para seguir o prompt mais estritamente; reduza-a para diminuir a supersaturação e oscilação. Use valores moderados durante a geração base e diminua a orientação para refinamento de super-resolução.
BasicScheduler (#126) Controla o número de etapas de denoising e o cronograma. Mais etapas geralmente significam melhor detalhe e estabilidade, mas renderizações mais longas. Emparelhe a contagem de etapas com a escolha do sampler para melhores resultados; este fluxo de trabalho padrão para um sampler rápido e de propósito geral.
SamplerCustomAdvanced (#125) Executa o loop de denoising com seu sampler e orientação selecionados. Na cadeia de acabamento de 1080p, ele funciona em duas fases divididas por SplitSigmas para primeiro estabelecer estrutura em maior ruído e depois refinar detalhes de baixo ruído. Mantenha sementes fixas enquanto ajusta etapas e orientação para que você possa comparar saídas de forma confiável.
HunyuanVideo15LatentUpscaleWithModel (#109) Reescala a sequência latente para 1920×1080 usando o upsampler dedicado dos pesos reembalados. Aumentar a escala no espaço latente é mais rápido e mais econômico em termos de memória do que redimensionar no espaço de pixels, e prepara o cenário para o modelo SR destilado adicionar detalhes finos. Alvos maiores exigem mais VRAM; mantenha 16:9 para melhor rendimento.
HunyuanVideo15SuperResolution (#113) Refina o latente ampliado com o UNet SR destilado de 1080p do pacote Hunyuan Video 1.5, opcionalmente tomando pistas de imagem inicial e CLIP-Vision para consistência. Isso adiciona texturas nítidas e trabalho de linha enquanto mantém o movimento. Os pesos SR estão disponíveis em Comfy-Org/HunyuanVideo_1.5_repackaged.
EasyCache (#116) Armazena estados intermediários do modelo para acelerar iterações de pré-visualização. Ative-o quando quiser um retorno mais rápido e desative para qualidade máxima na sua passagem final. É especialmente útil ao iterar em prompts com a mesma resolução e duração.
Extras opcionais
- Mantenha os prompts concretos. Descreva sujeito, verbos de movimento e movimentos de câmera. Use um prompt negativo curto para suprimir artefatos que você vê repetidamente.
- Prefira imagens iniciais limpas e de alto contraste para imagem para vídeo. Combine a proporção com sua resolução alvo para minimizar preenchimento.
- Para velocidade, itere em durações mais curtas e 720p; ative o grupo de 1080p apenas para execuções finais.
- Se a VRAM estiver apertada, alterne decodificação VAE em blocos e considere carregar pesos em uma configuração de precisão mais baixa exposta pelo carregador de modelos.
- Fixe sementes enquanto ajusta etapas, orientação e redação para tornar as mudanças mensuráveis entre execuções.
Agradecimentos
Este fluxo de trabalho implementa e constrói a partir dos seguintes trabalhos e recursos. Agradecemos Comfy.org pelo tutorial do fluxo de trabalho Hunyuan Video 1.5 por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Recursos
- Fonte do Hunyuan Video 1.5
- Docs / Notas de Lançamento: Hunyuan Video 1.5 Source
Nota: O uso dos modelos, conjuntos de dados e códigos referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

