RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Playground, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.
Ce workflow InfiniteTalk de ComfyUI crée des vidéos portrait naturelles et synchronisées sur le discours à partir d'une seule image de référence et d'un clip audio. Il combine la génération d'image à vidéo WanVideo 2.1 avec le modèle de tête parlante MultiTalk pour produire un mouvement labial expressif et une identité stable. Si vous avez besoin de courts clips sociaux, de doublages vidéo ou de mises à jour d'avatar, InfiniteTalk transforme une photo statique en une vidéo parlante fluide en quelques minutes.
InfiniteTalk s'appuie sur l'excellente recherche MultiTalk de MeiGen-AI. Pour les informations de base et les attributions, voir le projet open source : .
Conseil : ce graphe InfiniteTalk est conçu pour GGUF. Gardez les poids MultiTalk InfiniteTalk et l'ossature WanVideo en GGUF pour éviter les incompatibilités. Des constructions fp8/fp16 optionnelles sont également disponibles : et .
Le workflow s'exécute de gauche à droite. Vous fournissez trois éléments : une image portrait nette, un fichier audio de discours et une courte invite pour orienter le style. Le graphe extrait alors les indices de texte, d'image et d'audio, les fusionne en latents vidéo conscients du mouvement, et rend un MP4 synchronisé.
Ce groupe charge WanVideo, VAE, MultiTalk, CLIP Vision et l'encodeur de texte. WanVideoModelLoader
(#122) sélectionne l'ossature Wan 2.1 I2V 14B GGUF, tandis que WanVideoVAELoader
(#129) prépare le VAE correspondant. MultiTalkModelLoader
(#120) charge la variante InfiniteTalk qui alimente le mouvement piloté par le discours. Vous pouvez éventuellement attacher un Wan LoRA dans WanVideoLoraSelect
(#13) pour influencer l'apparence et le mouvement. Laissez ces éléments intacts pour un premier essai rapide ; ils sont pré-câblés pour un pipeline 480p qui convient à la plupart des GPU.
WanVideoTextEncodeCached
(#241) prend vos invites positives et négatives et les encode avec UMT5. Utilisez l'invite positive pour décrire le sujet et le ton de la scène, pas l'identité ; l'identité vient de la photo de référence. Gardez l'invite négative concentrée sur les artefacts que vous souhaitez éviter (flous, membres supplémentaires, arrière-plans gris). Les invites dans InfiniteTalk façonnent principalement l'éclairage et l'énergie du mouvement tandis que le visage reste cohérent.
CLIPVisionLoader
(#238) et WanVideoClipVisionEncode
(#237) intègrent votre portrait. Utilisez une photo nette, de face, tête et épaules, avec une lumière uniforme. Si nécessaire, coupez légèrement pour que le visage ait de la place pour bouger ; une coupe excessive peut déstabiliser le mouvement. Les embeddings d'image sont transmis pour préserver l'identité et les détails vestimentaires à mesure que la vidéo s'anime.
Chargez votre discours dans LoadAudio
(#125) ; coupez-le avec AudioCrop
(#159) pour des aperçus rapides. DownloadAndLoadWav2VecModel
(#137) récupère Wav2Vec2, et MultiTalkWav2VecEmbeds
(#194) transforme le clip en caractéristiques de mouvement conscientes des phonèmes. Des coupes courtes de 4 à 8 secondes sont idéales pour l'itération ; vous pouvez exécuter des prises plus longues une fois que vous aimez le rendu. Les pistes vocales claires et sèches fonctionnent le mieux ; une musique de fond forte peut perturber le timing labial.
WanVideoImageToVideoMultiTalk
(#192) fusionne votre image, les embeddings CLIP Vision et MultiTalk en embeddings d'image par trame dimensionnés par les constantes Width
et Height
. WanVideoSampler
(#128) génère les images latentes en utilisant le modèle WanVideo de Get_wanmodel
et vos embeddings de texte. WanVideoDecode
(#130) convertit les latents en images RGB. Enfin, VHS_VideoCombine
(#131) multiplexe les images et l'audio en un MP4 à 25 fps avec un réglage de qualité équilibré, produisant le clip final InfiniteTalk.
WanVideoImageToVideoMultiTalk
(#192)Ce nœud est le cœur d'InfiniteTalk : il conditionne l'animation de la tête parlante en fusionnant l'image de départ, les caractéristiques CLIP Vision et les instructions MultiTalk à votre résolution cible. Ajustez width
et height
pour définir l'aspect ; 832×480 est un bon défaut pour la vitesse et la stabilité. Utilisez-le comme principal endroit pour aligner l'identité avec le mouvement avant l'échantillonnage.
MultiTalkWav2VecEmbeds
(#194)Convertit les caractéristiques Wav2Vec2 en embeddings de mouvement MultiTalk. Si le mouvement labial est trop subtil, augmentez son influence (mise à l'échelle audio) à ce stade ; s'il est trop exagéré, réduisez l'influence. Assurez-vous que l'audio est axé sur le discours pour un timing des phonèmes fiable.
WanVideoSampler
(#128)Génère les latents vidéo étant donné les embeddings d'image, de texte et de MultiTalk. Pour les premiers essais, gardez le planificateur et les étapes par défaut. Si vous voyez des scintillements, augmenter le nombre total d'étapes ou activer le CFG peut aider ; si le mouvement semble trop rigide, réduisez la force du CFG ou de l'échantillonneur.
WanVideoTextEncodeCached
(#241)Encode les invites positives et négatives avec UMT5-XXL. Utilisez un langage concis et concret comme "lumière de studio, peau douce, couleur naturelle" et concentrez les invites négatives sur les artefacts. Rappelez-vous que les invites affinent le cadrage et le style, tandis que la synchronisation labiale vient de MultiTalk.
Le workflow InfiniteTalk représente un saut majeur dans la génération vidéo alimentée par l'IA en combinant le système de nœuds flexible de ComfyUI avec le modèle AI MultiTalk. Cette implémentation a été rendue possible grâce à la recherche originale et à la publication par MeiGen-AI, dont le projet alimente la synchronisation naturelle du discours d'InfiniteTalk. Un merci spécial également à l'équipe de projet InfiniteTalk pour avoir fourni la référence source, et à la communauté de développeurs ComfyUI pour avoir permis une intégration fluide des workflows.
De plus, un crédit est accordé à Kijai, qui a implémenté InfiniteTalk dans le nœud Wan Video Sampler, facilitant ainsi la production par les créateurs de portraits parlants et chantants de haute qualité directement dans ComfyUI. Le lien vers la ressource originale pour InfiniteTalk est disponible ici : .
Ensemble, ces contributions permettent aux créateurs de transformer de simples portraits en avatars parlants continus et réalistes, ouvrant de nouvelles opportunités pour la narration, le doublage et le contenu de performance pilotés par l'IA.