Este fluxo de trabalho envolve o Hunyuan Video 1.5 no ComfyUI para entregar geração de vídeo rápida e coerente em GPUs de consumo. Ele suporta tanto texto para vídeo quanto imagem para vídeo, podendo opcionalmente aumentar a resolução para 1080p usando um upsampler latente dedicado e um modelo de super-resolução destilado. Sob o capô, o Hunyuan Video 1.5 combina um Transformer de Difusão com um VAE causal 3D e uma estratégia de atenção de deslizamento seletivo para equilibrar qualidade, fidelidade de movimento e velocidade.
Criadores, equipes de produto e pesquisadores podem usar este fluxo de trabalho ComfyUI Hunyuan Video 1.5 para iterar rapidamente a partir de prompts ou uma única imagem estática, pré-visualizar em 720p e finalizar com saída nítida de 1080p quando necessário.
Este gráfico expõe dois caminhos independentes que compartilham o mesmo estágio de exportação e acabamento opcional de 1080p. Escolha Imagem para Vídeo ou Texto para Vídeo, depois ative opcionalmente o grupo de 1080p para finalizar.
Passo 1 — Carregar modelos
Os carregadores trazem o Hunyuan Video 1.5 UNet para imagem para vídeo, o VAE 3D, os codificadores de texto duplos e a visão SigCLIP. Isso prepara o fluxo de trabalho para aceitar uma imagem inicial única e um prompt. Nenhuma ação do usuário é necessária além de confirmar que os modelos estão disponíveis.
Passo 2 — Carregar imagem inicial
Forneça uma imagem limpa e bem exposta em LoadImage (#80). O gráfico codifica esta imagem com CLIPVisionEncode (#79) para que o Hunyuan Video 1.5 possa ancorar movimento e estilo à sua referência. Prefira imagens que correspondam aproximadamente à sua proporção de aspecto alvo para reduzir corte ou preenchimento.
Passo 3 — Prompt
Escreva sua descrição em CLIP Text Encode (Positive Prompt) (#44). Use o prompt negativo CLIP Text Encode (Negative Prompt) (#93) para afastar de artefatos ou estilos indesejados. Mantenha os prompts concisos, mas específicos sobre o sujeito, movimento e comportamento da câmera.
Passo 4 — Tamanho e duração do vídeo
HunyuanVideo15ImageToVideo (#78) define a resolução espacial e o número de quadros a serem sintetizados. Sequências mais longas requerem mais VRAM e tempo, então comece mais curto e aumente uma vez que você goste do movimento.
Amostragem personalizada
A pilha de amostradores (ModelSamplingSD3 (#130), CFGGuider (#129), BasicScheduler (#126), KSamplerSelect (#128), RandomNoise (#127), SamplerCustomAdvanced (#125)) controla a força da orientação, etapas, tipo de amostrador e semente. Aumente as etapas para mais detalhe e estabilidade, e use uma semente fixa para reproduzir resultados ao iterar em prompts.
Pré-visualizar e salvar
A sequência latente é decodificada com VAEDecode (#8), enquadrada em um vídeo a 24 fps com CreateVideo (#101), e gravada por SaveVideo (#102). Isso lhe dá uma pré-visualização rápida de 720p pronta para revisão.
Acabamento de 1080p (opcional)
Ative o grupo “Video Upscale 1080P” para habilitar a cadeia de acabamento. O upsampler latente expande para 1920×1080, então o UNet de super-resolução destilado refina detalhes em duas fases. VAEDecodeTiled e um segundo par CreateVideo/SaveVideo exportam o resultado de 1080p.
Passo 1 — Carregar modelos
Os carregadores buscam o Hunyuan Video 1.5 720p texto para vídeo UNet, o VAE 3D e os codificadores de texto duplos. Este caminho não requer uma imagem inicial.
Passo 3 — Prompt
Digite sua descrição no codificador positivo CLIP Text Encode (Positive Prompt) (#149) e opcionalmente adicione um prompt negativo em CLIP Text Encode (Negative Prompt) (#155). Descreva cena, sujeito, movimento e câmera, mantendo a linguagem concreta.
Passo 4 — Tamanho e duração do vídeo
EmptyHunyuanVideo15Latent (#183) aloca o latente inicial com a largura, altura e contagem de quadros escolhidas. Use isso para definir quão longo e quão grande seu vídeo deve ser.
Amostragem personalizada
ModelSamplingSD3 (#165), CFGGuider (#164), BasicScheduler (#161), KSamplerSelect (#163), RandomNoise (#162), e SamplerCustomAdvanced (#166) colaboram para transformar ruído em um vídeo coerente guiado por seu texto. Ajuste etapas e orientação para trocar velocidade por fidelidade, e fixe a semente para tornar as execuções comparáveis.
Pré-visualizar e salvar
Os quadros decodificados são montados por CreateVideo (#168) e salvos por SaveVideo (#167) para uma revisão rápida de 720p a 24 fps.
Acabamento de 1080p (opcional)
Habilite o grupo “Video Upscale 1080P” para aumentar a resolução dos latentes para 1080p e refinar com o UNet SR destilado. A amostragem em duas fases melhora a nitidez enquanto preserva o movimento. Um decodificador em blocos e uma segunda etapa de salvamento exportam o vídeo final de 1080p.
HunyuanVideo15ImageToVideo (#78)
Gera um vídeo condicionando em uma imagem inicial e seus prompts. Ajuste sua resolução e quadros totais para corresponder ao seu alvo criativo. Resoluções mais altas e clipes mais longos aumentam VRAM e tempo. Este nó é central para a qualidade de imagem para vídeo porque funde recursos CLIP-Vision com orientação de texto antes da amostragem.
EmptyHunyuanVideo15Latent (#183)
Inicializa a grade latente para texto para vídeo com largura, altura e contagem de quadros. Use-o para definir o comprimento da sequência antecipadamente para que o scheduler e o sampler possam planejar uma trajetória de denoising estável. Mantenha a proporção consistente com sua saída pretendida para evitar preenchimento extra posterior.
CFGGuider (#129)
Define a força da orientação livre de classificadores, equilibrando a aderência ao prompt contra a naturalidade. Aumente a orientação para seguir o prompt mais estritamente; reduza-a para diminuir a supersaturação e oscilação. Use valores moderados durante a geração base e diminua a orientação para refinamento de super-resolução.
BasicScheduler (#126)
Controla o número de etapas de denoising e o cronograma. Mais etapas geralmente significam melhor detalhe e estabilidade, mas renderizações mais longas. Emparelhe a contagem de etapas com a escolha do sampler para melhores resultados; este fluxo de trabalho padrão para um sampler rápido e de propósito geral.
SamplerCustomAdvanced (#125)
Executa o loop de denoising com seu sampler e orientação selecionados. Na cadeia de acabamento de 1080p, ele funciona em duas fases divididas por SplitSigmas para primeiro estabelecer estrutura em maior ruído e depois refinar detalhes de baixo ruído. Mantenha sementes fixas enquanto ajusta etapas e orientação para que você possa comparar saídas de forma confiável.
HunyuanVideo15LatentUpscaleWithModel (#109)
Reescala a sequência latente para 1920×1080 usando o upsampler dedicado dos pesos reembalados. Aumentar a escala no espaço latente é mais rápido e mais econômico em termos de memória do que redimensionar no espaço de pixels, e prepara o cenário para o modelo SR destilado adicionar detalhes finos. Alvos maiores exigem mais VRAM; mantenha 16:9 para melhor rendimento.
HunyuanVideo15SuperResolution (#113)
Refina o latente ampliado com o UNet SR destilado de 1080p do pacote Hunyuan Video 1.5, opcionalmente tomando pistas de imagem inicial e CLIP-Vision para consistência. Isso adiciona texturas nítidas e trabalho de linha enquanto mantém o movimento. Os pesos SR estão disponíveis em Comfy-Org/HunyuanVideo_1.5_repackaged.
EasyCache (#116)
Armazena estados intermediários do modelo para acelerar iterações de pré-visualização. Ative-o quando quiser um retorno mais rápido e desative para qualidade máxima na sua passagem final. É especialmente útil ao iterar em prompts com a mesma resolução e duração.
Este fluxo de trabalho implementa e constrói a partir dos seguintes trabalhos e recursos. Agradecemos Comfy.org pelo tutorial do fluxo de trabalho Hunyuan Video 1.5 por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Nota: O uso dos modelos, conjuntos de dados e códigos referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.