Hunyuan Video 1.5 no ComfyUI | Fluxo de Trabalho Eficiente de Texto para Vídeo

ComfyUI Hunyuan Video 1.5 Fluxo de Trabalho

Hunyuan Video 1.5 in ComfyUI | Efficient Text-to-Video Workflow

Deseja executar este fluxo de trabalho?

Fluxos de trabalho totalmente operacionais
Sem nós ou modelos ausentes
Nenhuma configuração manual necessária
Apresenta visuais impressionantes

ComfyUI Hunyuan Video 1.5 Exemplos

Fluxo de trabalho Hunyuan Video 1.5 ComfyUI: texto para vídeo rápido e imagem para vídeo com super resolução de 1080p#

Este fluxo de trabalho envolve o Hunyuan Video 1.5 no ComfyUI para entregar geração de vídeo rápida e coerente em GPUs de consumo. Ele suporta tanto texto para vídeo quanto imagem para vídeo, podendo opcionalmente aumentar a resolução para 1080p usando um upsampler latente dedicado e um modelo de super-resolução destilado. Sob o capô, o Hunyuan Video 1.5 combina um Transformer de Difusão com um VAE causal 3D e uma estratégia de atenção de deslizamento seletivo para equilibrar qualidade, fidelidade de movimento e velocidade.

Criadores, equipes de produto e pesquisadores podem usar este fluxo de trabalho ComfyUI Hunyuan Video 1.5 para iterar rapidamente a partir de prompts ou uma única imagem estática, pré-visualizar em 720p e finalizar com saída nítida de 1080p quando necessário.

Modelos principais no fluxo de trabalho Comfyui Hunyuan Video 1.5#

HunyuanVideo 1.5 720p Image-to-Video UNet. Produz movimento e coerência temporal a partir de uma imagem inicial. Os pesos são fornecidos na reembalagem Comfy-Org no Hugging Face Comfy-Org/HunyuanVideo_1.5_repackaged.
HunyuanVideo 1.5 720p Text-to-Video UNet. Gera vídeos diretamente de prompts de texto usando a mesma arquitetura central, ajustada para fluxos de trabalho de prompt-primeiro. Veja o repositório de reembalagem acima.
HunyuanVideo 1.5 1080p Super-Resolution UNet (destilado). Refina latentes de 720p para maior detalhe enquanto preserva movimento e estrutura de cena. Incluído na mesma reembalagem no Hugging Face.
HunyuanVideo 1.5 3D VAE. Codifica e decodifica latentes de vídeo para geração eficiente e decodificação em blocos.
HunyuanVideo 1.5 Latent Upsampler 1080p. Reescala sequências latentes para 1920×1080 antes do refinamento SR para eficiência de velocidade e memória.
Qwen 2.5 VL 7B codificador de texto e ByT5 Small codificador de texto. Fornecem instrução robusta e tokenização para prompts diversos, reembalados para este fluxo de trabalho no pacote Hugging Face acima. Cartão de modelo original do ByT5: google/byt5-small.
SigCLIP Vision (ViT-L/14, 384). Extrai recursos visuais de alta qualidade da imagem inicial para guiar o condicionamento de imagem para vídeo: Comfy-Org/sigclip_vision_384.

Como usar o fluxo de trabalho Comfyui Hunyuan Video 1.5#

Este gráfico expõe dois caminhos independentes que compartilham o mesmo estágio de exportação e acabamento opcional de 1080p. Escolha Imagem para Vídeo ou Texto para Vídeo, depois ative opcionalmente o grupo de 1080p para finalizar.

Imagem para Vídeo#

Passo 1 — Carregar modelos Os carregadores trazem o Hunyuan Video 1.5 UNet para imagem para vídeo, o VAE 3D, os codificadores de texto duplos e a visão SigCLIP. Isso prepara o fluxo de trabalho para aceitar uma imagem inicial única e um prompt. Nenhuma ação do usuário é necessária além de confirmar que os modelos estão disponíveis.

Passo 2 — Carregar imagem inicial Forneça uma imagem limpa e bem exposta em LoadImage (#80). O gráfico codifica esta imagem com CLIPVisionEncode (#79) para que o Hunyuan Video 1.5 possa ancorar movimento e estilo à sua referência. Prefira imagens que correspondam aproximadamente à sua proporção de aspecto alvo para reduzir corte ou preenchimento.

Passo 3 — Prompt Escreva sua descrição em CLIP Text Encode (Positive Prompt) (#44). Use o prompt negativo CLIP Text Encode (Negative Prompt) (#93) para afastar de artefatos ou estilos indesejados. Mantenha os prompts concisos, mas específicos sobre o sujeito, movimento e comportamento da câmera.

Passo 4 — Tamanho e duração do vídeo HunyuanVideo15ImageToVideo (#78) define a resolução espacial e o número de quadros a serem sintetizados. Sequências mais longas requerem mais VRAM e tempo, então comece mais curto e aumente uma vez que você goste do movimento.

Amostragem personalizada A pilha de amostradores (ModelSamplingSD3 (#130), CFGGuider (#129), BasicScheduler (#126), KSamplerSelect (#128), RandomNoise (#127), SamplerCustomAdvanced (#125)) controla a força da orientação, etapas, tipo de amostrador e semente. Aumente as etapas para mais detalhe e estabilidade, e use uma semente fixa para reproduzir resultados ao iterar em prompts.

Pré-visualizar e salvar A sequência latente é decodificada com VAEDecode (#8), enquadrada em um vídeo a 24 fps com CreateVideo (#101), e gravada por SaveVideo (#102). Isso lhe dá uma pré-visualização rápida de 720p pronta para revisão.

Acabamento de 1080p (opcional) Ative o grupo “Video Upscale 1080P” para habilitar a cadeia de acabamento. O upsampler latente expande para 1920×1080, então o UNet de super-resolução destilado refina detalhes em duas fases. VAEDecodeTiled e um segundo par CreateVideo/SaveVideo exportam o resultado de 1080p.

Texto para Vídeo#

Passo 1 — Carregar modelos Os carregadores buscam o Hunyuan Video 1.5 720p texto para vídeo UNet, o VAE 3D e os codificadores de texto duplos. Este caminho não requer uma imagem inicial.

Passo 3 — Prompt Digite sua descrição no codificador positivo CLIP Text Encode (Positive Prompt) (#149) e opcionalmente adicione um prompt negativo em CLIP Text Encode (Negative Prompt) (#155). Descreva cena, sujeito, movimento e câmera, mantendo a linguagem concreta.

Passo 4 — Tamanho e duração do vídeo EmptyHunyuanVideo15Latent (#183) aloca o latente inicial com a largura, altura e contagem de quadros escolhidas. Use isso para definir quão longo e quão grande seu vídeo deve ser.

Amostragem personalizada ModelSamplingSD3 (#165), CFGGuider (#164), BasicScheduler (#161), KSamplerSelect (#163), RandomNoise (#162), e SamplerCustomAdvanced (#166) colaboram para transformar ruído em um vídeo coerente guiado por seu texto. Ajuste etapas e orientação para trocar velocidade por fidelidade, e fixe a semente para tornar as execuções comparáveis.

Pré-visualizar e salvar Os quadros decodificados são montados por CreateVideo (#168) e salvos por SaveVideo (#167) para uma revisão rápida de 720p a 24 fps.

Acabamento de 1080p (opcional) Habilite o grupo “Video Upscale 1080P” para aumentar a resolução dos latentes para 1080p e refinar com o UNet SR destilado. A amostragem em duas fases melhora a nitidez enquanto preserva o movimento. Um decodificador em blocos e uma segunda etapa de salvamento exportam o vídeo final de 1080p.

Nós principais no fluxo de trabalho Comfyui Hunyuan Video 1.5#

HunyuanVideo15ImageToVideo (#78) Gera um vídeo condicionando em uma imagem inicial e seus prompts. Ajuste sua resolução e quadros totais para corresponder ao seu alvo criativo. Resoluções mais altas e clipes mais longos aumentam VRAM e tempo. Este nó é central para a qualidade de imagem para vídeo porque funde recursos CLIP-Vision com orientação de texto antes da amostragem.

EmptyHunyuanVideo15Latent (#183) Inicializa a grade latente para texto para vídeo com largura, altura e contagem de quadros. Use-o para definir o comprimento da sequência antecipadamente para que o scheduler e o sampler possam planejar uma trajetória de denoising estável. Mantenha a proporção consistente com sua saída pretendida para evitar preenchimento extra posterior.

CFGGuider (#129) Define a força da orientação livre de classificadores, equilibrando a aderência ao prompt contra a naturalidade. Aumente a orientação para seguir o prompt mais estritamente; reduza-a para diminuir a supersaturação e oscilação. Use valores moderados durante a geração base e diminua a orientação para refinamento de super-resolução.

BasicScheduler (#126) Controla o número de etapas de denoising e o cronograma. Mais etapas geralmente significam melhor detalhe e estabilidade, mas renderizações mais longas. Emparelhe a contagem de etapas com a escolha do sampler para melhores resultados; este fluxo de trabalho padrão para um sampler rápido e de propósito geral.

SamplerCustomAdvanced (#125) Executa o loop de denoising com seu sampler e orientação selecionados. Na cadeia de acabamento de 1080p, ele funciona em duas fases divididas por SplitSigmas para primeiro estabelecer estrutura em maior ruído e depois refinar detalhes de baixo ruído. Mantenha sementes fixas enquanto ajusta etapas e orientação para que você possa comparar saídas de forma confiável.

HunyuanVideo15LatentUpscaleWithModel (#109) Reescala a sequência latente para 1920×1080 usando o upsampler dedicado dos pesos reembalados. Aumentar a escala no espaço latente é mais rápido e mais econômico em termos de memória do que redimensionar no espaço de pixels, e prepara o cenário para o modelo SR destilado adicionar detalhes finos. Alvos maiores exigem mais VRAM; mantenha 16:9 para melhor rendimento.

HunyuanVideo15SuperResolution (#113) Refina o latente ampliado com o UNet SR destilado de 1080p do pacote Hunyuan Video 1.5, opcionalmente tomando pistas de imagem inicial e CLIP-Vision para consistência. Isso adiciona texturas nítidas e trabalho de linha enquanto mantém o movimento. Os pesos SR estão disponíveis em Comfy-Org/HunyuanVideo_1.5_repackaged.

EasyCache (#116) Armazena estados intermediários do modelo para acelerar iterações de pré-visualização. Ative-o quando quiser um retorno mais rápido e desative para qualidade máxima na sua passagem final. É especialmente útil ao iterar em prompts com a mesma resolução e duração.

Extras opcionais#

Mantenha os prompts concretos. Descreva sujeito, verbos de movimento e movimentos de câmera. Use um prompt negativo curto para suprimir artefatos que você vê repetidamente.
Prefira imagens iniciais limpas e de alto contraste para imagem para vídeo. Combine a proporção com sua resolução alvo para minimizar preenchimento.
Para velocidade, itere em durações mais curtas e 720p; ative o grupo de 1080p apenas para execuções finais.
Se a VRAM estiver apertada, alterne decodificação VAE em blocos e considere carregar pesos em uma configuração de precisão mais baixa exposta pelo carregador de modelos.
Fixe sementes enquanto ajusta etapas, orientação e redação para tornar as mudanças mensuráveis entre execuções.

Agradecimentos#

Este fluxo de trabalho implementa e constrói a partir dos seguintes trabalhos e recursos. Agradecemos Comfy.org pelo tutorial do fluxo de trabalho Hunyuan Video 1.5 por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos#

Fonte do Hunyuan Video 1.5
- Docs / Notas de Lançamento: Hunyuan Video 1.5 Source

Nota: O uso dos modelos, conjuntos de dados e códigos referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

AnimateLCM | Acelere o Texto para Vídeo

Acelere sua animação de texto para vídeo usando o Fluxo de Trabalho ComfyUI AnimateLCM.

SUPIR | Upscaler de Imagem/Vídeo Foto-Realista

O SUPIR permite a restauração foto-realista de imagens, funciona com o modelo SDXL e suporta aprimoramento por prompt de texto.

CCSR | Aumentador de Escala Consistente de Imagem/Vídeo

O modelo CCSR aprimora o aumento de escala de imagens e vídeos, concentrando-se mais na consistência do conteúdo.

Face Detailer | Corrigir Rostos

Use o Face Detailer primeiro para restauração facial, seguido pelo modelo 4x UltraSharp para upscaling superior.

Hunyuan Imagem para Vídeo | Criador de Movimento Deslumbrante

Crie filmes magníficos a partir de imagens estáticas através de movimento cinematográfico e efeitos personalizáveis.

Edição de Expressão de Grão Fino PixelSmile | Controle Facial Preciso

Edite rostos com precisão. Mudanças sutis de emoção. Retratos perfeitos todas as vezes.

Sonic | Animação de Retratos com Sincronização Labial

Sonic oferece sincronização labial avançada e dirigida por áudio para retratos com animação de alta qualidade.

AnimateDiff + Batch Prompt Schedule | Texto para Vídeo

Utilize Prompts Travel com Animatediff para controle preciso sobre quadros específicos dentro da animação.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

Hunyuan Video 1.5 | Gerador de Vídeo AI Rápido