ComfyUI>Workflows>LongCat Video Avatar 1.5 ComfyUI | Lippensynchronisierter Generator

LongCat Video Avatar 1.5 ComfyUI | Lippensynchronisierter Generator

Workflow Name: RunComfy/LongCat-Video-Avatar-1.5
Workflow ID: 0000...1437
Dieser Workflow hilft Ihnen, ein Charakterbild und einen Audioclip in ein perfekt abgestimmtes, sprechendes Avatar-Video zu verwandeln. Er nutzt LongCat-Avatar-15 mit WanVideoWrapper-Knoten für genaue Lippensynchronisation. Mit Whisper-Audioanalyse und Wan 2.1 VAE-Decodierung erzeugt er vertikale MP4-Ausgaben, die bereit für die Veröffentlichung sind. Sie können es leicht in Ihre kreative Pipeline integrieren und ausführen. Perfekt für Content-Ersteller, visuelle Designer und Entwickler, die einen zuverlässigen Video-Avatar-Generator benötigen.

LongCat Video Avatar 1.5 Single Character ComfyUI Workflow

LongCat Video Avatar 1.5 Single Character ComfyUI | Audio2Video Sync
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

LongCat Video Avatar 1.5 Single Character ComfyUI Examples

LongCat Video Avatar 1.5 Single Character ComfyUI#

Dieser Workflow verwandelt ein einzelnes Referenzbild und eine Sprachspur in einen lippensynchronisierten vertikalen sprechenden Avatar. Er basiert auf LongCat-Avatar-15 und den benutzerdefinierten WanVideoWrapper-Knoten, verwendet Whisper zur Extraktion von Sprachhinweisen, Wan 2.1 VAE für latente Kodierung/Dekodierung und ein destilliertes LongCat LoRA zur Erhaltung der Identität. Das Ergebnis ist ein MP4-Porträtvideo, das das Aussehen des Charakters und die Mundbewegungen synchron hält.

Entwickelt als Single-Character-Pfad, ist der LongCat Video Avatar 1.5 Single Character ComfyUI-Workflow ideal für Ersteller, die eine RunComfy-bereite Vorlage mit klaren Eingaben und einem reproduzierbaren Output wünschen. Sie stellen ein Gesichtsbild und einen Audioclip bereit, passen einige Stilvorgaben an und rendern ein konsistentes Avatar-Video ohne zusätzliche Verkabelung.

Schlüsselmodelle im Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI-Workflow#

  • LongCat-Avatar-15 (destilliert) und LongCat Avatar LoRA: Identitätserhaltende Videogenerierungsgewichte, die für ComfyUI angepasst sind. Im Community-Pack bereitgestellt, damit der Avatar beim Sprechen das Erscheinungsbild behält. Model files
  • Wan 2.1 VAE: Video-orientierter variationaler Autoencoder, der zur Kodierung des Referenzbildes in Latente und zur Dekodierung der Endrahmen zurück zu Bildern verwendet wird. Mit dem gleichen Community-Pack enthalten. Model files
  • OpenAI Whisper large v3: Sprachrepräsentation, die Mundformen und Timing für genaue Lippensynchronisation steuert. Model card
  • Google UMT5-XXL Textencoder: Wandelt positive/negative Vorgaben in Konditionierung für Bewegungs- und Posen-Nuancen um. Model card

Verwendung des Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI-Workflows#

Der Graph folgt einem klaren Pfad von Eingaben zum Video: Assets laden, Audioeinbettungen berechnen, Textanleitung vorbereiten, das Aussehen kodieren, Rahmen sampeln, dann Audio muxen und speichern.

Referenzbild#

Laden Sie ein einzelnes, frontal ausgerichtetes Porträt in LoadImage (#26). Das Bild wird von ImageResizeKJv2 (#25) auf eine vertikale 9:16-Leinwand normalisiert, damit der Charakter den Rahmen ohne Verzerrung füllt. Verwenden Sie ein sauberes, gleichmäßig beleuchtetes Gesicht mit minimalen Verdeckungen für die beste Identitätserhaltung. Wenn Ihre Quelle breiter als hoch ist, zentrieren Sie den Zuschnitt um Kopf und Schultern.

Sprach-Audio#

Legen Sie eine Audiodatei in LoadAudio (#5). Falls nötig, kürzen Sie sie mit TrimAudioDuration (#29), damit die endgültige Videolänge Ihrem Ziel entspricht. Das kleine Mathematik-Tool (Evaluate Floats (#39)) multipliziert Ihre gewählten Sekunden mit Bildern pro Sekunde, um die Gesamtbildanzahl automatisch festzulegen. Eine schnelle Möglichkeit, die Dauer zu steuern, besteht darin, Sekunden oder FPS vor dem Rendern anzupassen.

Spracheinbettungen (Lippensynchronisation)#

LongCatAvatarWhisperEmbeds (#3) führt Whisper aus, um MultiTalk-Einbettungen zu erzeugen, die Phoneme, Pausen und Betonungen kodieren. Diese Einbettungen sind das Timing-Rückgrat für Mundformen und subtile Kopfbewegungen. Stellen Sie sicher, dass die Gesamtbilder und FPS hier Ihren Exporteinstellungen entsprechen, um Drift zu vermeiden. Optional können Sie die Lautheitsnormierung aktivieren, wenn Ihre Aufnahme im Pegel variiert.

Textanleitung#

LoadWanVideoT5TextEncoder (#16) und WanVideoTextEncode (#15) wandeln Ihre positiven und negativen Vorgaben in Konditionierung um. Verwenden Sie die positive Vorgabe, um natürliches Verhalten zu beschreiben, das Sie möchten (ruhige Kopfdrehungen, subtile Nicken) und behalten Sie die negative Vorgabe für zu vermeidende Artefakte (starre Bewegungen, deformierte Hände). Die Textanleitung gibt dem Bewegungsstil Hinweise, ohne die Identität des Charakters zu ändern.

Das Aussehen kodieren#

WanVideoVAELoader (#19) und WanVideoEncode (#24) wandeln Ihr Porträt in Latente um. WanVideoLongCatAvatarExtendEmbeds (#6) fusioniert dann das Referenz-Latente mit den Audioeinbettungen, sodass die Identität über die Rahmen hinweg stabil bleibt, während der Mund der Sprache folgt. Wenn das Audio kürzer als der Clip ist, kann der Knoten intelligent auffüllen oder loopen, sodass das Timing glatt bleibt.

Avatar-Modell laden#

WanVideoLoraSelect (#27) verbindet das destillierte LongCat Avatar LoRA mit dem Basis-LongCat-Avatar-15-Modell, alles geladen von WanVideoModelLoader (#8). Diese Paarung bewahrt Gesichtszüge und ermöglicht ausdrucksstarke sprechende Bewegungen. Interne Block-Swap-Hilfsmittel halten die VRAM-Nutzung auf gemeinsamer oder bescheidener GPU vorhersehbar.

Rahmen sampeln#

WanVideoSchedulerv2 (#52) wählt einen auf LongCat distill abgestimmten Lösungsscheduler, und WanVideoSamplerv2 (#51) erzeugt das latente Video. Setzen Sie einen Seed für reproduzierbare Ergebnisse und passen Sie die Anleitungsstärke an, wenn Sie mehr oder weniger Befolgung der Vorgaben benötigen. Der Sampler nimmt Bild-, Text- und audio-gesteuerte Bild-Einbettungen zusammen, sodass Mund, Kopf und Identität kohärent sind.

MP4 dekodieren und speichern#

WanVideoDecode (#20) wandelt die endgültigen Latenten zurück in Bilder. VHS_VideoCombine (#14) kombiniert Rahmen und Audio in einem H.264 MP4 mit der angegebenen Bildrate und Dateinamen-Präfix. Das Ergebnis ist ein sofort teilbarer vertikaler sprechender Avatar-Clip, der Lippensynchronisation und Stil intakt hält.

Schlüssel-Knoten im Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI-Workflow#

LongCatAvatarWhisperEmbeds (#3)#

Erzeugt MultiTalk-Audioeinbettungen von Whisper, die Lippensynchronisation und Mikro-Timing steuern. Halten Sie fps und num_frames mit Ihrem Export synchron, um Desynchronisation zu vermeiden. Wenn Aufnahmen im Pegel variieren, aktivieren Sie die Lautheitsnormierung. Dieser Knoten stammt aus der WanVideoWrapper LongCat-Integration. Repo

WanVideoLongCatAvatarExtendEmbeds (#6)#

Fusioniert das Referenz-Latent und Audioeinbettungen in rahmenbewusste Bild-Einbettungen. Wenn Ihre Sprache kürzer als die Ziellänge ist, wählen Sie, wie Sie auffüllen oder loopen, damit die Bewegung natürlich bleibt. Überlappungs- und Referenzrahmeneinstellungen helfen, die Identitätsstabilität zwischen Abschnitten bei längeren Clips zu erhalten. Repo

WanVideoModelLoader (#8)#

Lädt die LongCat-Avatar-15-Basis mit dem ausgewählten LongCat Avatar LoRA für Identitätstreue. Verwenden Sie es mit dem enthaltenen VRAM-Management und Block-Swap-Optionen bei Verwendung auf eingeschränkter Hardware. Wechseln Sie zu einer anderen LongCat-Variante oder LoRA hier, um den Stil zu ändern, ohne neu zu verdrahten. Repo

WanVideoSamplerv2 (#51)#

Der Hauptgenerator, der Rahmen aus Modell, Scheduler, Text und Bild-Einbettungen synthetisiert. Passen Sie die classifier-free guidance an, wenn Sie eine engere Befolgung der Vorgaben oder lockerere Bewegungen benötigen. Fixieren Sie den Seed, um Reproduzierbarkeit über mehrere Renderings zu gewährleisten. Repo

ImageResizeKJv2 (#25)#

Bereitet eine porträtorientierte Leinwand vor, sodass der Avatar einen 9:16-Rahmen füllt. Halten Sie aspektgerechte Zuschnitte um Gesicht und Schultern für zuverlässige Identitätskodierung. Die Teilbarkeit des Encoder/Decoder vermeidet Kantenartefakte.

VHS_VideoCombine (#14)#

Muxes Rahmen und Audio in eine einzige MP4 mit Ihrer gewählten Bildrate und Dateinamen-Präfix. Aktivieren Sie die Metadatenspeicherung für einfachere Iterationsverfolgung. Dieser Knoten ist Teil der VideoHelperSuite. Repo

Optionale Extras#

  • Verwenden Sie ein neutrales, nach vorne gerichtetes Foto mit klaren Augen und Mund; vermeiden Sie starke Verdeckungen und extreme Winkel.
  • Bereinigen Sie das Audio (entfernen Sie lange Pausen, reduzieren Sie Hintergrundgeräusche) für stabilere Mundbewegungen.
  • Halten Sie die FPS zwischen der Whisper-Einbettungsphase und dem endgültigen Export konsistent, um eine enge Lippensynchronisation zu gewährleisten.
  • Für stärkere Identitätserhaltung bleiben Sie beim bereitgestellten LongCat Avatar LoRA; tauschen Sie LoRAs nur aus, wenn Sie eine Stiländerung beabsichtigen. Model files
  • Setzen Sie einen festen Seed, wenn Sie identische Neurenderungen benötigen oder nur eine einzelne Vorgabenänderung A/B-testen möchten.
  • Bei niedrigerem VRAM aktivieren Sie Block-Swap im Modell-Loader, um etwas Geschwindigkeit gegen Stabilität zu tauschen.

Danksagungen#

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken RunningHub für die Workflow-Quelle, Meigen AI für LongCat Video Avatar 1.5 und Kijai für die LongCat-Video_comfy-Modell-Dateien und die ComfyUI-WanVideoWrapper für ihre Beiträge und Wartung. Für autoritative Details verweisen wir auf die Originaldokumentation und die unten verlinkten Repositories.

Ressourcen#

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.

RunComfy
Urheberrecht 2026 RunComfy. Alle Rechte vorbehalten.

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI Models, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.