Dieser ComfyUI InfiniteTalk-Workflow erstellt natürliche, sprachsynchronisierte Porträtvideos aus einem einzigen Referenzbild plus einem Audioclip. Er kombiniert WanVideo 2.1 Bild-zu-Video-Generierung mit dem MultiTalk Talking-Head-Modell, um ausdrucksstarke Lippenbewegungen und stabile Identität zu erzeugen. Wenn Sie kurze Social-Clips, Video-Dubs oder Avatar-Updates benötigen, verwandelt InfiniteTalk ein Standbild in ein flüssiges Sprechvideo in Minuten.
InfiniteTalk baut auf der hervorragenden MultiTalk-Forschung von MeiGen-AI auf. Für Hintergrundinformationen und Zuweisungen siehe das Open-Source-Projekt: .
Tipp: Dieses InfiniteTalk-Diagramm ist für GGUF gebaut. Halten Sie die InfiniteTalk MultiTalk-Gewichte und das WanVideo-Rückgrat in GGUF, um Inkompatibilitäten zu vermeiden. Optionale fp8/fp16-Builds sind ebenfalls verfügbar: und .
Der Workflow läuft von links nach rechts. Sie stellen drei Dinge bereit: ein sauberes Porträtbild, eine Sprach-Audiodatei und einen kurzen Prompt, um den Stil zu lenken. Das Diagramm extrahiert dann Text-, Bild- und Audiohinweise, fusioniert sie in bewegungsbewusste Video-Latenten und rendert ein synchronisiertes MP4.
Diese Gruppe lädt WanVideo, VAE, MultiTalk, CLIP Vision und den Text-Encoder. WanVideoModelLoader
(#122) wählt das Wan 2.1 I2V 14B GGUF-Rückgrat, während WanVideoVAELoader
(#129) das passende VAE vorbereitet. MultiTalkModelLoader
(#120) lädt die InfiniteTalk-Variante, die sprachgesteuerte Bewegungen antreibt. Sie können optional ein Wan LoRA in WanVideoLoraSelect
(#13) anhängen, um Aussehen und Bewegung zu beeinflussen. Lassen Sie diese unangetastet für einen schnellen ersten Durchlauf; sie sind vorverkabelt für eine 480p-Pipeline, die den meisten GPUs freundlich ist.
WanVideoTextEncodeCached
(#241) nimmt Ihre positiven und negativen Prompts und kodiert sie mit UMT5. Verwenden Sie den positiven Prompt, um das Thema und den Szenenton zu beschreiben, nicht die Identität; die Identität kommt aus dem Referenzfoto. Halten Sie den negativen Prompt auf Artefakte fokussiert, die Sie vermeiden möchten (Unschärfen, zusätzliche Gliedmaßen, graue Hintergründe). Prompts in InfiniteTalk formen hauptsächlich Beleuchtung und Bewegungsenergie, während das Gesicht konsistent bleibt.
CLIPVisionLoader
(#238) und WanVideoClipVisionEncode
(#237) betten Ihr Porträt ein. Verwenden Sie ein scharfes, frontales Kopf-und-Schultern-Foto mit gleichmäßigem Licht. Bei Bedarf sanft zuschneiden, damit das Gesicht Raum für Bewegung hat; starkes Zuschneiden kann die Bewegung destabilisieren. Die Bild-Einbettungen werden weitergegeben, um Identität und Kleidungsdetails zu bewahren, während das Video animiert wird.
Laden Sie Ihre Sprache in LoadAudio
(#125); schneiden Sie sie mit AudioCrop
(#159) für schnelle Vorschauen. DownloadAndLoadWav2VecModel
(#137) lädt Wav2Vec2 herunter, und MultiTalkWav2VecEmbeds
(#194) verwandelt den Clip in phonembewusste Bewegungsmerkmale. Kurze 4–8 Sekunden Schnitte sind großartig für Iterationen; Sie können längere Takes ausführen, sobald Ihnen das Aussehen gefällt. Saubere, trockene Sprachtracks funktionieren am besten; starke Hintergrundmusik kann das Lippentiming verwirren.
WanVideoImageToVideoMultiTalk
(#192) verschmilzt Ihr Bild, CLIP Vision-Einbettungen und MultiTalk in bildweise Bild-Einbettungen, die durch Width
und Height
Konstanten dimensioniert sind. WanVideoSampler
(#128) generiert die latenten Frames mit dem WanVideo-Modell von Get_wanmodel
und Ihren Texteingaben. WanVideoDecode
(#130) wandelt Latenten in RGB-Frames um. Schließlich kombiniert VHS_VideoCombine
(#131) Frames und Audio in ein MP4 mit 25 fps bei einer ausgewogenen Qualitätseinstellung und erzeugt den finalen InfiniteTalk-Clip.
WanVideoImageToVideoMultiTalk
(#192)Dieser Knoten ist das Herzstück von InfiniteTalk: Er konditioniert die Talking-Head-Animation, indem er das Startbild, die CLIP Vision-Features und die MultiTalk-Leitlinien bei Ihrer Zielauflösung zusammenführt. Passen Sie width
und height
an, um das Seitenverhältnis festzulegen; 832×480 ist ein guter Standard für Geschwindigkeit und Stabilität. Verwenden Sie es als Hauptstelle, um Identität mit Bewegung vor dem Sampling auszurichten.
MultiTalkWav2VecEmbeds
(#194)Wandelt Wav2Vec2-Features in MultiTalk-Bewegungsembeddings um. Wenn die Lippenbewegung zu subtil ist, erhöhen Sie ihren Einfluss (Audio-Skalierung) in dieser Phase; wenn sie übertrieben ist, verringern Sie den Einfluss. Stellen Sie sicher, dass das Audio sprachdominant ist, um eine zuverlässige Phonem-Timing zu gewährleisten.
WanVideoSampler
(#128)Generiert die Video-Latenten, gegeben Bild-, Text- und MultiTalk-Einbettungen. Für erste Durchläufe halten Sie den Standard-Scheduler und die Schritte bei. Wenn Sie Flackern sehen, kann eine Erhöhung der Gesamtschritte oder das Aktivieren von CFG helfen; wenn sich die Bewegung zu steif anfühlt, reduzieren Sie CFG oder die Sampler-Stärke.
WanVideoTextEncodeCached
(#241)Kodiert positive und negative Prompts mit UMT5-XXL. Verwenden Sie prägnante, konkrete Sprache wie "Studio-Licht, weiche Haut, natürliche Farbe" und halten Sie negative Prompts fokussiert. Denken Sie daran, dass Prompts das Framing und den Stil verfeinern, während die Mundsynchronisation von MultiTalk kommt.
Der InfiniteTalk-Workflow stellt einen großen Fortschritt in der KI-gestützten Videogenerierung dar, indem er das flexible Knotensystem von ComfyUI mit dem MultiTalk AI-Modell kombiniert. Diese Implementierung wurde dank der ursprünglichen Forschung und Veröffentlichung von MeiGen-AI ermöglicht, deren -Projekt die natürliche Sprachsynchronisation von InfiniteTalk antreibt. Besonderer Dank geht auch an das InfiniteTalk-Projektteam für die Bereitstellung der Referenzquelle und an die ComfyUI-Entwicklergemeinschaft für die nahtlose Workflow-Integration.
Darüber hinaus geht der Dank an Kijai, der InfiniteTalk in den Wan Video Sampler-Knoten implementiert hat und es Schöpfern erleichtert, hochwertige sprechende und singende Porträts direkt in ComfyUI zu erstellen. Der ursprüngliche Ressourcenlink für InfiniteTalk ist hier verfügbar: .
Zusammen ermöglichen diese Beiträge Schöpfern, einfache Porträts in lebensechte, kontinuierlich sprechende Avatare zu verwandeln und neue Möglichkeiten für KI-gesteuertes Storytelling, Dubbing und Performance-Inhalte zu erschließen.
RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI-Spielplatz, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.