LongCat Video Avatar 1.5 Single Character ComfyUI

LongCat Video Avatar 1.5 Single Character ComfyUI Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

LongCat Video Avatar 1.5 Single Character ComfyUI Examples

LongCat Video Avatar 1.5 Single Character ComfyUI#

Dieser Workflow verwandelt ein einzelnes Referenzbild und eine Sprachspur in einen lippensynchronisierten vertikalen sprechenden Avatar. Er basiert auf LongCat-Avatar-15 und den benutzerdefinierten WanVideoWrapper-Knoten, verwendet Whisper zur Extraktion von Sprachhinweisen, Wan 2.1 VAE für latente Kodierung/Dekodierung und ein destilliertes LongCat LoRA zur Erhaltung der Identität. Das Ergebnis ist ein MP4-Porträtvideo, das das Aussehen des Charakters und die Mundbewegungen synchron hält.

Entwickelt als Single-Character-Pfad, ist der LongCat Video Avatar 1.5 Single Character ComfyUI-Workflow ideal für Ersteller, die eine RunComfy-bereite Vorlage mit klaren Eingaben und einem reproduzierbaren Output wünschen. Sie stellen ein Gesichtsbild und einen Audioclip bereit, passen einige Stilvorgaben an und rendern ein konsistentes Avatar-Video ohne zusätzliche Verkabelung.

Schlüsselmodelle im Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI-Workflow#

LongCat-Avatar-15 (destilliert) und LongCat Avatar LoRA: Identitätserhaltende Videogenerierungsgewichte, die für ComfyUI angepasst sind. Im Community-Pack bereitgestellt, damit der Avatar beim Sprechen das Erscheinungsbild behält. Model files
Wan 2.1 VAE: Video-orientierter variationaler Autoencoder, der zur Kodierung des Referenzbildes in Latente und zur Dekodierung der Endrahmen zurück zu Bildern verwendet wird. Mit dem gleichen Community-Pack enthalten. Model files
OpenAI Whisper large v3: Sprachrepräsentation, die Mundformen und Timing für genaue Lippensynchronisation steuert. Model card
Google UMT5-XXL Textencoder: Wandelt positive/negative Vorgaben in Konditionierung für Bewegungs- und Posen-Nuancen um. Model card

Verwendung des Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI-Workflows#

Der Graph folgt einem klaren Pfad von Eingaben zum Video: Assets laden, Audioeinbettungen berechnen, Textanleitung vorbereiten, das Aussehen kodieren, Rahmen sampeln, dann Audio muxen und speichern.

Referenzbild#

Laden Sie ein einzelnes, frontal ausgerichtetes Porträt in LoadImage (#26). Das Bild wird von ImageResizeKJv2 (#25) auf eine vertikale 9:16-Leinwand normalisiert, damit der Charakter den Rahmen ohne Verzerrung füllt. Verwenden Sie ein sauberes, gleichmäßig beleuchtetes Gesicht mit minimalen Verdeckungen für die beste Identitätserhaltung. Wenn Ihre Quelle breiter als hoch ist, zentrieren Sie den Zuschnitt um Kopf und Schultern.

Sprach-Audio#

Legen Sie eine Audiodatei in LoadAudio (#5). Falls nötig, kürzen Sie sie mit TrimAudioDuration (#29), damit die endgültige Videolänge Ihrem Ziel entspricht. Das kleine Mathematik-Tool (Evaluate Floats (#39)) multipliziert Ihre gewählten Sekunden mit Bildern pro Sekunde, um die Gesamtbildanzahl automatisch festzulegen. Eine schnelle Möglichkeit, die Dauer zu steuern, besteht darin, Sekunden oder FPS vor dem Rendern anzupassen.

Spracheinbettungen (Lippensynchronisation)#

LongCatAvatarWhisperEmbeds (#3) führt Whisper aus, um MultiTalk-Einbettungen zu erzeugen, die Phoneme, Pausen und Betonungen kodieren. Diese Einbettungen sind das Timing-Rückgrat für Mundformen und subtile Kopfbewegungen. Stellen Sie sicher, dass die Gesamtbilder und FPS hier Ihren Exporteinstellungen entsprechen, um Drift zu vermeiden. Optional können Sie die Lautheitsnormierung aktivieren, wenn Ihre Aufnahme im Pegel variiert.

Textanleitung#

LoadWanVideoT5TextEncoder (#16) und WanVideoTextEncode (#15) wandeln Ihre positiven und negativen Vorgaben in Konditionierung um. Verwenden Sie die positive Vorgabe, um natürliches Verhalten zu beschreiben, das Sie möchten (ruhige Kopfdrehungen, subtile Nicken) und behalten Sie die negative Vorgabe für zu vermeidende Artefakte (starre Bewegungen, deformierte Hände). Die Textanleitung gibt dem Bewegungsstil Hinweise, ohne die Identität des Charakters zu ändern.

Das Aussehen kodieren#

WanVideoVAELoader (#19) und WanVideoEncode (#24) wandeln Ihr Porträt in Latente um. WanVideoLongCatAvatarExtendEmbeds (#6) fusioniert dann das Referenz-Latente mit den Audioeinbettungen, sodass die Identität über die Rahmen hinweg stabil bleibt, während der Mund der Sprache folgt. Wenn das Audio kürzer als der Clip ist, kann der Knoten intelligent auffüllen oder loopen, sodass das Timing glatt bleibt.

Avatar-Modell laden#

WanVideoLoraSelect (#27) verbindet das destillierte LongCat Avatar LoRA mit dem Basis-LongCat-Avatar-15-Modell, alles geladen von WanVideoModelLoader (#8). Diese Paarung bewahrt Gesichtszüge und ermöglicht ausdrucksstarke sprechende Bewegungen. Interne Block-Swap-Hilfsmittel halten die VRAM-Nutzung auf gemeinsamer oder bescheidener GPU vorhersehbar.

Rahmen sampeln#

WanVideoSchedulerv2 (#52) wählt einen auf LongCat distill abgestimmten Lösungsscheduler, und WanVideoSamplerv2 (#51) erzeugt das latente Video. Setzen Sie einen Seed für reproduzierbare Ergebnisse und passen Sie die Anleitungsstärke an, wenn Sie mehr oder weniger Befolgung der Vorgaben benötigen. Der Sampler nimmt Bild-, Text- und audio-gesteuerte Bild-Einbettungen zusammen, sodass Mund, Kopf und Identität kohärent sind.

MP4 dekodieren und speichern#

WanVideoDecode (#20) wandelt die endgültigen Latenten zurück in Bilder. VHS_VideoCombine (#14) kombiniert Rahmen und Audio in einem H.264 MP4 mit der angegebenen Bildrate und Dateinamen-Präfix. Das Ergebnis ist ein sofort teilbarer vertikaler sprechender Avatar-Clip, der Lippensynchronisation und Stil intakt hält.

Schlüssel-Knoten im Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI-Workflow#

`LongCatAvatarWhisperEmbeds` (#3)#

Erzeugt MultiTalk-Audioeinbettungen von Whisper, die Lippensynchronisation und Mikro-Timing steuern. Halten Sie fps und num_frames mit Ihrem Export synchron, um Desynchronisation zu vermeiden. Wenn Aufnahmen im Pegel variieren, aktivieren Sie die Lautheitsnormierung. Dieser Knoten stammt aus der WanVideoWrapper LongCat-Integration. Repo

`WanVideoLongCatAvatarExtendEmbeds` (#6)#

Fusioniert das Referenz-Latent und Audioeinbettungen in rahmenbewusste Bild-Einbettungen. Wenn Ihre Sprache kürzer als die Ziellänge ist, wählen Sie, wie Sie auffüllen oder loopen, damit die Bewegung natürlich bleibt. Überlappungs- und Referenzrahmeneinstellungen helfen, die Identitätsstabilität zwischen Abschnitten bei längeren Clips zu erhalten. Repo

`WanVideoModelLoader` (#8)#

Lädt die LongCat-Avatar-15-Basis mit dem ausgewählten LongCat Avatar LoRA für Identitätstreue. Verwenden Sie es mit dem enthaltenen VRAM-Management und Block-Swap-Optionen bei Verwendung auf eingeschränkter Hardware. Wechseln Sie zu einer anderen LongCat-Variante oder LoRA hier, um den Stil zu ändern, ohne neu zu verdrahten. Repo

`WanVideoSamplerv2` (#51)#

Der Hauptgenerator, der Rahmen aus Modell, Scheduler, Text und Bild-Einbettungen synthetisiert. Passen Sie die classifier-free guidance an, wenn Sie eine engere Befolgung der Vorgaben oder lockerere Bewegungen benötigen. Fixieren Sie den Seed, um Reproduzierbarkeit über mehrere Renderings zu gewährleisten. Repo

`ImageResizeKJv2` (#25)#

Bereitet eine porträtorientierte Leinwand vor, sodass der Avatar einen 9:16-Rahmen füllt. Halten Sie aspektgerechte Zuschnitte um Gesicht und Schultern für zuverlässige Identitätskodierung. Die Teilbarkeit des Encoder/Decoder vermeidet Kantenartefakte.

`VHS_VideoCombine` (#14)#

Muxes Rahmen und Audio in eine einzige MP4 mit Ihrer gewählten Bildrate und Dateinamen-Präfix. Aktivieren Sie die Metadatenspeicherung für einfachere Iterationsverfolgung. Dieser Knoten ist Teil der VideoHelperSuite. Repo

Optionale Extras#

Verwenden Sie ein neutrales, nach vorne gerichtetes Foto mit klaren Augen und Mund; vermeiden Sie starke Verdeckungen und extreme Winkel.
Bereinigen Sie das Audio (entfernen Sie lange Pausen, reduzieren Sie Hintergrundgeräusche) für stabilere Mundbewegungen.
Halten Sie die FPS zwischen der Whisper-Einbettungsphase und dem endgültigen Export konsistent, um eine enge Lippensynchronisation zu gewährleisten.
Für stärkere Identitätserhaltung bleiben Sie beim bereitgestellten LongCat Avatar LoRA; tauschen Sie LoRAs nur aus, wenn Sie eine Stiländerung beabsichtigen. Model files
Setzen Sie einen festen Seed, wenn Sie identische Neurenderungen benötigen oder nur eine einzelne Vorgabenänderung A/B-testen möchten.
Bei niedrigerem VRAM aktivieren Sie Block-Swap im Modell-Loader, um etwas Geschwindigkeit gegen Stabilität zu tauschen.

Danksagungen#

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken RunningHub für die Workflow-Quelle, Meigen AI für LongCat Video Avatar 1.5 und Kijai für die LongCat-Video_comfy-Modell-Dateien und die ComfyUI-WanVideoWrapper für ihre Beiträge und Wartung. Für autoritative Details verweisen wir auf die Originaldokumentation und die unten verlinkten Repositories.

Ressourcen#

RunningHub/Workflow-Quelle
- Docs / Release Notes: RunningHub workflow source
Meigen AI/LongCat Video Avatar 1.5 Projektseite
- Docs / Release Notes: LongCat Video Avatar 1.5 project page
Kijai/LongCat Video Comfy-Modell-Dateien
- Hugging Face: Kijai/LongCat-Video_comfy
Kijai/ComfyUI-WanVideoWrapper
- GitHub: kijai/ComfyUI-WanVideoWrapper

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.

Want More ComfyUI Workflows?

InfiniteTalk | Lippensynchronisierter Avatar-Generator

Foto + Stimme = Perfekt synchronisierter sprechender Avatar in Minuten

Multitalk | Realistischer Sprechender Video-Maker

Mit einem Klick mehrsprecher-lippen-synchronisierte Videos aus Porträts und Stimmen erstellen!

LatentSync| Lip Sync Modell

Fortschrittliche audio-gesteuerte Lip Sync-Technologie.

Hallo2 | Lip-Sync-Porträtanimation

Audiogesteuerte Lip-Synchronisation für Porträtanimationen in 4K.

CogVideoX-5B | Fortgeschrittenes Text-to-Video-Modell

CogVideoX-5B: Fortgeschrittenes Text-to-Video-Modell für hochwertige Videogenerierung.

IPAdapter Plus (V2) | Ein-Bild-Stilübertragung

Verwenden Sie IPAdapter Plus und ControlNet für präzise Stilübertragungen mit einem einzigen Referenzbild.

Produkt-Neubeleuchtung | Magnific.AI Relight Alternative

Heben Sie Ihre Produktfotografie mühelos auf ein neues Niveau, eine erstklassige Alternative zu Magnific.AI Relight.

Vid2Vid Teil 1 | Komposition und Maskierung

Der ComfyUI Vid2Vid bietet zwei unterschiedliche Workflows zur Erstellung hochwertiger, professioneller Animationen: Vid2Vid Teil 1, der Ihre Kreativität fördert, indem er sich auf die Komposition und Maskierung Ihres Originalvideos konzentriert, und Vid2Vid Teil 2, der SDXL Style Transfer nutzt, um den Stil Ihres Videos an Ihr gewünschtes ästhetisches Erscheinungsbild anzupassen. Diese Seite behandelt speziell Vid2Vid Teil 1.

Support

Ressourcen

Rechtliches

RunComfy

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI Models, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.

LongCat Video Avatar 1.5 ComfyUI | Lippensynchronisierter Generator