ComfyUI>Workflows>Hunyuan Video 1.5 | Générateur de Vidéo AI Rapide

Hunyuan Video 1.5 | Générateur de Vidéo AI Rapide

Workflow Name: RunComfy/Hunyuan-Video-1.5

Workflow ID: 0000...1313

Avec ce workflow, vous pouvez facilement transformer du texte ou des images en vidéos claires avec un mouvement naturel tout en maintenant une haute fidélité et efficacité. Son design DiT prend en charge des transitions de mouvement fluides, ce qui le rend idéal pour les concepteurs souhaitant un contrôle créatif sans besoin de matériel lourd. Vous pouvez augmenter la résolution des sorties à 1080p sans effort et obtenir un mouvement réaliste en utilisant moins de paramètres. L'interface permet une personnalisation intuitive, économisant du temps sur le réglage. Parfait pour la visualisation rapide de concepts, les clips promotionnels ou la narration assistée par IA.

Workflow Hunyuan Video 1.5 ComfyUI: texte-à-vidéo et image-à-vidéo rapides avec super résolution 1080p

Ce workflow enveloppe Hunyuan Video 1.5 dans ComfyUI pour offrir une génération vidéo rapide et cohérente sur les GPU grand public. Il prend en charge à la fois le texte-à-vidéo et l'image-à-vidéo, puis passe éventuellement à la 1080p en utilisant un upsampleur latent dédié et un modèle de super-résolution distillé. Sous le capot, Hunyuan Video 1.5 couple un Diffusion Transformer avec un VAE causal 3D et une stratégie d'attention par tuilage sélectif pour équilibrer qualité, fidélité de mouvement et vitesse.

Les créateurs, équipes produit et chercheurs peuvent utiliser ce workflow ComfyUI Hunyuan Video 1.5 pour itérer rapidement à partir de prompts ou d'une image fixe unique, prévisualiser en 720p, et terminer avec une sortie nette en 1080p si nécessaire.

Modèles clés dans le workflow Comfyui Hunyuan Video 1.5

HunyuanVideo 1.5 720p Image-à-Vidéo UNet. Produit du mouvement et de la cohérence temporelle à partir d'une image de départ. Les poids sont fournis dans le repackage Comfy-Org sur Hugging Face Comfy-Org/HunyuanVideo_1.5_repackaged.
HunyuanVideo 1.5 720p Texte-à-Vidéo UNet. Génère des vidéos directement à partir de prompts textuels en utilisant la même architecture de base, optimisée pour les workflows axés sur les prompts. Voir le dépôt de repackage ci-dessus.
HunyuanVideo 1.5 1080p Super-Résolution UNet (distillé). Affine les latents 720p à un détail plus élevé tout en préservant mouvement et structure de scène. Inclus dans le même repackage sur Hugging Face.
HunyuanVideo 1.5 3D VAE. Encode et décode les latents vidéo pour une génération efficace et un décodage par tuiles.
HunyuanVideo 1.5 Latent Upsampler 1080p. Redimensionne les séquences latentes à 1920×1080 avant le raffinement SR pour la rapidité et l'efficacité mémoire.
Qwen 2.5 VL 7B encodeur de texte et ByT5 Small encodeur de texte. Fournissent un suivi d'instructions et une tokenisation robustes pour des prompts divers, reconditionnés pour ce workflow dans le bundle Hugging Face ci-dessus. Carte du modèle original de ByT5 : google/byt5-small.
SigCLIP Vision (ViT-L/14, 384). Extrait des caractéristiques visuelles de haute qualité de l'image de départ pour guider le conditionnement image-à-vidéo : Comfy-Org/sigclip_vision_384.

Comment utiliser le workflow Comfyui Hunyuan Video 1.5

Ce graphe expose deux chemins indépendants qui partagent le même stade d'exportation et de finition optionnel en 1080p. Choisissez soit Image à Vidéo soit Texte à Vidéo, puis activez éventuellement le groupe 1080p pour finaliser.

Image à Vidéo

Étape 1 — Charger les modèles
Les chargeurs importent le Hunyuan Video 1.5 UNet pour image-à-vidéo, le 3D VAE, les encodeurs de texte doubles et la vision SigCLIP. Cela prépare le workflow à accepter une image de départ unique et un prompt. Aucune action utilisateur n'est nécessaire au-delà de la confirmation que les modèles sont disponibles.

Étape 2 — Télécharger l'image de départ
Fournissez une image propre et bien exposée dans LoadImage (#80). Le graphe encode cette image avec CLIPVisionEncode (#79) afin que Hunyuan Video 1.5 puisse ancrer le mouvement et le style à votre référence. Privilégiez les images qui correspondent approximativement à votre ratio d'aspect cible pour réduire le recadrage ou le remplissage.

Étape 3 — Prompt
Écrivez votre description dans CLIP Text Encode (Positive Prompt) (#44). Utilisez le prompt négatif CLIP Text Encode (Negative Prompt) (#93) pour éviter les artefacts ou styles indésirables. Gardez les prompts concis mais précis sur le sujet, le mouvement et le comportement de la caméra.

Étape 4 — Taille et durée de la vidéo
HunyuanVideo15ImageToVideo (#78) définit la résolution spatiale et le nombre de frames à synthétiser. Les séquences plus longues nécessitent plus de VRAM et de temps, commencez donc plus court et augmentez une fois que vous aimez le mouvement.

Échantillonnage personnalisé
La pile de samplers (ModelSamplingSD3 (#130), CFGGuider (#129), BasicScheduler (#126), KSamplerSelect (#128), RandomNoise (#127), SamplerCustomAdvanced (#125)) contrôle la force de guidance, les étapes, le type de sampler et la graine. Augmentez les étapes pour plus de détail et de stabilité, et utilisez une graine fixe pour reproduire les résultats lors de l'itération sur les prompts.

Prévisualisation et sauvegarde
La séquence latente est décodée avec VAEDecode (#8), encadrée dans une vidéo à 24 fps avec CreateVideo (#101), et écrite par SaveVideo (#102). Cela vous donne une prévisualisation rapide en 720p prête à être revue.

Finition 1080p (optionnelle)
Basculez le groupe “Video Upscale 1080P” pour activer la chaîne de finition. L'upsampleur latent s'étend à 1920×1080, puis le UNet de super-résolution distillé affine les détails en deux phases. VAEDecodeTiled et une seconde paire CreateVideo/SaveVideo exportent le résultat 1080p.

Texte à Vidéo

Étape 1 — Charger les modèles
Les chargeurs récupèrent le Hunyuan Video 1.5 720p texte-à-vidéo UNet, le 3D VAE et les encodeurs de texte doubles. Ce chemin ne nécessite pas d'image de départ.

Étape 3 — Prompt
Entrez votre description dans l'encodeur positif CLIP Text Encode (Positive Prompt) (#149) et ajoutez éventuellement un prompt négatif dans CLIP Text Encode (Negative Prompt) (#155). Décrivez la scène, le sujet, le mouvement et la caméra, en gardant un langage concret.

Étape 4 — Taille et durée de la vidéo
EmptyHunyuanVideo15Latent (#183) alloue le latent initial avec votre largeur, hauteur et nombre de frames choisis. Utilisez cela pour définir combien de temps et quelle taille devrait avoir votre vidéo.

Échantillonnage personnalisé
ModelSamplingSD3 (#165), CFGGuider (#164), BasicScheduler (#161), KSamplerSelect (#163), RandomNoise (#162), et SamplerCustomAdvanced (#166) collaborent pour transformer le bruit en une vidéo cohérente guidée par votre texte. Ajustez les étapes et la guidance pour échanger la vitesse pour la fidélité, et fixez la graine pour rendre les exécutions comparables.

Prévisualisation et sauvegarde
Les frames décodées sont assemblées par CreateVideo (#168) et sauvegardées par SaveVideo (#167) pour une revue rapide en 720p à 24 fps.

Finition 1080p (optionnelle)
Activez le groupe “Video Upscale 1080P” pour augmenter les latents à 1080p et affiner avec le UNet SR distillé. L'échantillonnage en deux étapes améliore la netteté tout en préservant le mouvement. Un décodeur par tuiles et une seconde étape de sauvegarde exportent la vidéo finale 1080p.

Nœuds clés dans le workflow Comfyui Hunyuan Video 1.5

HunyuanVideo15ImageToVideo (#78)
Génère une vidéo en se basant sur une image de départ et vos prompts. Ajustez sa résolution et le nombre total de frames pour correspondre à votre objectif créatif. Les résolutions plus élevées et les clips plus longs augmentent la VRAM et le temps. Ce nœud est central pour la qualité image-à-vidéo car il fusionne les caractéristiques CLIP-Vision avec les indications textuelles avant l'échantillonnage.

EmptyHunyuanVideo15Latent (#183)
Initialise la grille latente pour texte-à-vidéo avec largeur, hauteur et nombre de frames. Utilisez-le pour définir la longueur de la séquence à l'avance afin que le scheduler et le sampler puissent planifier une trajectoire de débruitage stable. Gardez le ratio d'aspect cohérent avec votre sortie prévue pour éviter le remplissage supplémentaire plus tard.

CFGGuider (#129)
Définit la force de guidance sans classifieur, équilibrant l'adhésion au prompt contre la naturalité. Augmentez la guidance pour suivre le prompt plus strictement; réduisez-la pour diminuer la sursaturation et le scintillement. Utilisez des valeurs modérées pendant la génération de base et une guidance plus faible pour le raffinement de super-résolution.

BasicScheduler (#126)
Contrôle le nombre d'étapes de débruitage et le calendrier. Plus d'étapes signifient généralement un meilleur détail et stabilité mais des rendus plus longs. Associez le nombre d'étapes au choix de sampler pour de meilleurs résultats; ce workflow utilise par défaut un sampler rapide et polyvalent.

SamplerCustomAdvanced (#125)
Exécute la boucle de débruitage avec votre sampler et guidance sélectionnés. Dans la chaîne de finition 1080p, il fonctionne en deux phases séparées par SplitSigmas pour d'abord établir la structure à un bruit plus élevé puis affiner les détails à faible bruit. Gardez les graines fixes tout en ajustant les étapes et la guidance pour pouvoir comparer les sorties de manière fiable.

HunyuanVideo15LatentUpscaleWithModel (#109)
Redimensionne la séquence latente à 1920×1080 en utilisant l'upsampleur dédié des poids reconditionnés. L'upscaling dans l'espace latent est plus rapide et plus économe en mémoire que le redimensionnement en espace pixel, et il prépare le terrain pour que le modèle SR distillé ajoute des détails fins. Les cibles plus grandes demandent plus de VRAM; gardez 16:9 pour le meilleur débit.

HunyuanVideo15SuperResolution (#113)
Affine le latent upscalé avec le UNet SR 1080p distillé du bundle Hunyuan Video 1.5, prenant éventuellement des indices d'image de départ et de CLIP-Vision pour la cohérence. Cela ajoute des textures nettes et un travail de ligne tout en maintenant le mouvement. Les poids SR sont disponibles dans Comfy-Org/HunyuanVideo_1.5_repackaged.

EasyCache (#116)
Met en cache les états de modèle intermédiaires pour accélérer les itérations de prévisualisation. Activez-le lorsque vous souhaitez un retour plus rapide, et désactivez pour une qualité maximale sur votre passage final. Il est particulièrement utile lors de l'itération sur des prompts avec la même résolution et durée.

Extras optionnels

Gardez les prompts concrets. Décrivez le sujet, les verbes de mouvement et les mouvements de caméra. Utilisez un prompt négatif court pour supprimer les artefacts que vous voyez à plusieurs reprises.
Privilégiez des images de départ propres et à fort contraste pour l'image-à-vidéo. Faites correspondre le ratio d'aspect à votre résolution cible pour minimiser le remplissage.
Pour la vitesse, itérez à des durées plus courtes et en 720p; activez le groupe 1080p uniquement pour les exécutions finales.
Si la VRAM est serrée, activez le décodage VAE par tuiles et envisagez de charger les poids dans un réglage de précision plus faible exposé par le chargeur de modèle.
Fixez les graines pendant que vous ajustez les étapes, la guidance et le libellé pour rendre les changements mesurables à travers les exécutions.

Remerciements

Ce workflow met en œuvre et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement Comfy.org pour le tutoriel sur le workflow Hunyuan Video 1.5 pour leurs contributions et leur maintenance. Pour des détails autorisés, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.

Ressources

Source Hunyuan Video 1.5
- Docs / Notes de version: Hunyuan Video 1.5 Source

Note: L'utilisation des modèles, ensembles de données et code référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

AnimateLCM | Accélérer le texte en vidéo

Accélérez votre animation texte-vidéo en utilisant le flux de travail ComfyUI AnimateLCM.

SUPIR | Upscaler d'image/vidéo photo-réaliste

SUPIR permet une restauration photo-réaliste des images, fonctionne avec le modèle SDXL et prend en charge l'amélioration par prompt textuel.

CCSR | Outil de mise à l'échelle cohérente d'images/vidéos

Le modèle CCSR améliore la mise à l'échelle des images et des vidéos en se concentrant davantage sur la cohérence du contenu.

Face Detailer | Corriger les visages

Utilisez d'abord Face Detailer pour la restauration faciale, puis le modèle 4x UltraSharp pour un upscaling supérieur.

AnimateDiff + ControlNet | Style de sculpture en marbre

Transformez vos vidéos en sculptures de marbre intemporelles, capturant l'essence de l'art classique.

Era3D | ComfyUI 3D Pack

Générez du contenu 3D, des images multi-vues aux maillages détaillés.

PuLID | Intégration précise de visages pour la génération d'images à partir de texte

Intégrez les identités de visage et contrôlez les styles de manière transparente avec PuLID et IPAdapter Plus.

AnimateDiff + ControlNet + IPAdapter V1 | Style de jeu d'aventure

Révolutionnez les vidéos dans le style des jeux d'aventure, en donnant vie au frisson du jeu !

Support

Ressources

Légal

RunComfy

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Playground, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.