LongCat Avatar in ComfyUI | WanVideo Identitätsbewahrende Animation

LongCat Avatar in ComfyUI: Einzelbild zu sprechendem Avatar-Video

Der LongCat Avatar in ComfyUI verwandelt ein einzelnes Referenzbild in ein identitätsstabiles, audiogesteuertes Avatar-Video. Basierend auf kija’s WanVideo-Wrapper konzentriert es sich auf Gesichtskohärenz, fließende Bewegungsfortsetzung und natürliche Lippenbewegungen ohne per-Charakter-Feinabstimmung. Sie stellen ein Charakterbild und eine Audiospur bereit; der Workflow rendert eine zeitlich konsistente Leistung, geeignet für sprechende Kopfclips, stilisierte Charakterdarstellungen und schnelle Avatar-Bewegungstests.

Kreative, die schnelle Iterationen wünschen, finden den LongCat Avatar in ComfyUI pragmatisch und zuverlässig. Der Workflow nutzt LongCats identitätsbewahrendes Modell und ein fensterbasiertes Generierungsschema, um Sequenzen zu verlängern, während die Ausdrücke stabil bleiben. Die Ausgaben werden mit dem Quellaudio zu einem Video zusammengefügt, um eine einfache Überprüfung oder Veröffentlichung zu ermöglichen.

Hinweis: Auf 2XL- oder größeren Maschinen bitte das Attention-Backend auf "sdpa" im WanVideo Model Loader-Knoten setzen. Das Standard-segeattn-Backend kann auf High-End-GPUs Kompatibilitätsprobleme verursachen.

Wichtige Modelle im Comfyui LongCat Avatar in ComfyUI-Workflow

LongCat-Avatar-Modell für WanVideo. Identitätsfokussierte Bild-zu-Video-Generierung, angepasst für ComfyUI, bietet starke Charakterbewahrung über die Frames hinweg. Siehe die WanVideo Comfy-Veröffentlichungen von kijai auf Hugging Face für Checkpoints und Anmerkungen. Hugging Face: Kijai/WanVideo_comfy
LongCat distill LoRA. Ein destilliertes LoRA, das die Gesichtsstruktur und Identitätsmerkmale während des Samplings verstärkt, um die Stabilität bei Bewegung zu verbessern. Verfügbar mit WanVideo Comfy-Assets. Hugging Face: Kijai/WanVideo_comfy
Wan 2.1 VAE. Video VAE, das die Referenzframe(s) in Latents kodiert und generierte Samples zurück zu Bildern dekodiert. Hugging Face: Kijai/WanVideo_comfy
UM-T5 Text-Encoder. Wird von WanVideo verwendet, um Text-Eingaben zu interpretieren, die die Szenenbeschreibung und den Stil lenken, während die Identität intakt bleibt. Hugging Face: google/umt5-xxl
Wav2Vec 2.0 Sprachrepräsentationen. Liefert robuste Sprachmerkmale, die Lippen- und Kieferbewegungen über MultiTalk-Einbettungen antreiben. Hintergrundpapier: wav2vec 2.0. arXiv und eine kompatible Modellvariante: Hugging Face: TencentGameMate/chinese-wav2vec2-base
MelBandRoFormer Vokaltrenner. Optionale Vokal-Musik-Trennung, damit das Lippen-Synchronisationsmodul ein saubereres Sprachsignal erhält. Hugging Face: Kijai/MelBandRoFormer_comfy

So verwenden Sie den Comfyui LongCat Avatar in ComfyUI-Workflow

Der Workflow hat drei Hauptphasen: Modelle und Einstellungen, Audio zu Bewegungshinweisen und Referenzbild zu Video mit fensterbasierter Erweiterung. Er rendert mit einer festen Rate, die für audiogesteuerte Bewegungen ausgelegt ist, und fügt dann Fenster zu einem nahtlosen Clip zusammen.

Modelle
- Der WanVideoModelLoader (#122) lädt den LongCat-Avatar-Checkpoint und das LongCat distill LoRA, während WanVideoVAELoader (#129) das Video VAE bereitstellt. Der WanVideoSchedulerv2 (#325) bereitet den Sampler-Plan vor, der während der Diffusion verwendet wird. Diese Komponenten definieren die Treue, die Identitätsbewahrung und das allgemeine Aussehen. Sobald sie festgelegt sind, dienen sie als Rückgrat für alle nachfolgenden Sampling-Schritte.
Audio
- Laden Sie eine Sprachspur mit LoadAudio (#125), optional trimmen mit TrimAudioDuration (#317), und trennen Sie Vokale mit MelBandRoFormerSampler (#302), um Hintergrundbleeding zu reduzieren. MultiTalkWav2VecEmbeds (#194) wandelt die gereinigte Sprache in Einbettungen um, die Mundbewegungen und subtile Kopfdynamiken antreiben. Die effektive Frame-Anzahl wird aus der Audiodauer abgeleitet, sodass längeres Audio zu längeren Sequenzen führt. Der Audiostream wird später mit Bildern in der Video-Kombinationsphase multiplexiert.
Eingabebild
- Fügen Sie Ihr Charakterbild mit LoadImage (#284) hinzu. ImageResizeKJv2 (#281) passt es für das Modell an, und WanVideoEncode (#312) verwandelt es in ein ref_latent, das die Identität über alle Frames hinweg verankert. Dieses Latent ist die feste Referenz, die die LongCat Avatar in ComfyUI-Pipeline wiederverwendet, während zeitvariable Bewegungen aus Audio und Eingaben injiziert werden.
Fenster 1 erweitern
- WanVideoLongCatAvatarExtendEmbeds (#345) fusioniert das ref_latent mit Audio-Einbettungen, um Bildeinbettungen für das erste Fenster zu erstellen. WanVideoSamplerv2 (#324) entstört dann Latents in einen kurzen Clip. WanVideoDecode (#313) wandelt diese in Bilder zur Vorschau und den ersten Videoexport mit VHS_VideoCombine (#320) um. Fenstergröße und Überlappung werden intern verfolgt, sodass das nächste Fenster ohne sichtbare Nähte ausgerichtet werden kann.
Fenster 2 erweitern
- Die zweite Erweiterungsgruppe wiederholt dieselbe Idee, um die Sequenz fortzusetzen. WanVideoLongCatAvatarExtendEmbeds (#346, #461) berechnet Einbettungen, die auf den vorherigen Latents konditioniert sind, eingerahmt durch die aktuelle Überlappung. WanVideoSamplerv2 (#327, #456) generiert das nächste Stück, das dekodiert und mit ImageBatchExtendWithOverlap (#341, #460) zusammengeführt wird, um die Kontinuität zu wahren. Zusätzliche Fenster-Schritte können für längere Ergebnisse wiederholt werden, und jede Phase kann mit VHS_VideoCombine (#386, #453) exportiert werden.

Wichtige Knoten im Comfyui LongCat Avatar in ComfyUI-Workflow

WanVideoModelLoader (#122)
- Lädt den LongCat-Avatar-Checkpoint und hängt das LongCat distill LoRA an, definiert Identitätstreue und Bewegungsverhalten. Wenn Sie größere Instanzen ausführen, wechseln Sie die Attention-Implementierung für besseren Durchsatz, wie im WanVideo-Wrapper empfohlen. Repository zur Referenz: github.com/kijai/ComfyUI-WanVideoWrapper.
MultiTalkWav2VecEmbeds (#194)
- Erzeugt audiogesteuerte Einbettungen aus Sprache, die Lippen-, Kiefer- und subtile Kopfdynamiken leiten. Für stärkere Artikulation erhöhen Sie den Spracheinfluss und ziehen eine zusätzliche Durchlauf für engere Synchronisation in Betracht, wenn Ihr Audio sehr klar ist. Hintergrundmodellinfo: arXiv: wav2vec 2.0.
WanVideoLongCatAvatarExtendEmbeds (#346)
- Kern des LongCat Avatar in ComfyUI, dieser Knoten erweitert Bildeinbettungen über die Zeit, während er an das Referenz-Latent verankert bleibt. Passen Sie die Fensterlänge und Überlappung an, um Glätte, Laufzeit und Stabilität bei längeren Clips auszugleichen.
WanVideoSamplerv2 (#327)
- Führt den Diffusionsprozess mit dem Modell, Planer, Textführung und Bildeinbettungen durch. Passen Sie die Führungsstärke an, um den Ausgleich zwischen Eingaben-Treue und Variation zu beeinflussen; kleine Änderungen können sichtbare Auswirkungen auf die Identitätsstarre und Bewegung haben.
VHS_VideoCombine (#320)
- Muxes gerenderte Frames mit dem Original-Audio in ein mp4 zur einfachen Betrachtung. Verwenden Sie die eingebaute Trim-Option, wenn Sie möchten, dass die Visuals genau mit dem Audio enden oder nur das neueste Fenster exportieren.

Optionale Extras

Stellen Sie sicher, dass die Audiodauer alle geplanten Erweiterungsfenster abdeckt, um zu vermeiden, dass die Sprache mitten in der Sequenz ausgeht.
Für lange Clips, erhöhen Sie die Fenstergröße moderat und halten Sie etwas Überlappung, damit Übergänge glatt bleiben; zu wenig Überlappung kann Knackgeräusche einführen, zu viel kann das Rendering verlangsamen.
Die Pipeline arbeitet mit einer festen Bildrate, die an den sprachgesteuerten Schritt gebunden ist, was die Lipsynchronisation während des Exports beibehält.
Wenn Sie einen großen Maschinentyp verwenden, setzen Sie die Attention-Implementierung im Modell-Lader auf eine speichereffiziente Option für bessere Geschwindigkeit.
Mischen Sie keine inkompatiblen Modellformate; halten Sie das Hauptmodell und alle Sprachekomponenten in passenden Familien, wie in den WanVideo Comfy-Veröffentlichungen bereitgestellt. Hilfreiche Modellhubs: Kijai/WanVideo_comfy und GGUF-Varianten wie city96/Wan2.1-I2V-14B-480P-gguf.

Danksagungen

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Kijai für ComfyUI-WanVideoWrapper (LongCatAvatar-Workflow) und @Benji’s AI Playground, dem Ersteller des referenzierten YouTube-Videos, für ihre Beiträge und Pflege. Für autoritative Details verweisen Sie bitte auf die ursprüngliche Dokumentation und die unten verlinkten Repositories.

Ressourcen

YouTube/Video-Tutorial
- Docs / Release Notes: Benji’s AI Playground YouTube-Video
Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
- GitHub: kijai/ComfyUI-WanVideoWrapper
- Docs / Release Notes: LongCatAvatar_testing_wip.json (branch longcat_avatar)

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen ihrer Autoren und Betreuer.

Want More ComfyUI Workflows?

Wan 2.1 | Revolutionäre Videogenerierung

Erstellen Sie unglaubliche Videos aus Text oder Bildern mit bahnbrechender KI, die auf alltäglichen CPUs läuft.

Wan 2.1 LoRA

Verbessern Sie die Wan 2.1 Videoerstellung mit LoRA-Modellen für verbesserten Stil und Anpassung.

Wan 2.1 Control LoRA | Tiefe und Kachel

Verbessern Sie die Wan 2.1-Videoerzeugung mit leichten Tiefen- und Kachel-LoRAs für verbesserte Struktur und Detailgenauigkeit.

Janus-Pro | T2I + I2T Modell

Janus-Pro: Fortschrittliche Text-zu-Bild- und Bild-zu-Text-Generierung.

Wan FusionX | T2V+I2V+VACE Komplett

Die bisher leistungsstärkste Videogenerierungslösung! Kinoqualität im Detail, Ihr persönliches Filmstudio.

Wan2.2 Fun Inp | Kinoreifer Video-Generator

Von 2 Bildern zu beeindruckenden Videos mit fließenden, steuerbaren Übergängen.

Flux & 10 In-Context LoRA-Modelle

Entdecken Sie Flux und 10 vielseitige In-Context LoRA-Modelle für die Bildgenerierung.

HiDream E1.1 | AI Bildbearbeitung

Bilder mit natürlicher Sprache mit dem HiDream E1.1-Modell bearbeiten

Support

Ressourcen

Rechtliches

RunComfy

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI Models, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.

LongCat Avatar in ComfyUI | Identitätskonsistente Avatar-Animation

LongCat Avatar in ComfyUI: Einzelbild zu sprechendem Avatar-Video

Wichtige Modelle im Comfyui LongCat Avatar in ComfyUI-Workflow

So verwenden Sie den Comfyui LongCat Avatar in ComfyUI-Workflow

Wichtige Knoten im Comfyui LongCat Avatar in ComfyUI-Workflow

Optionale Extras

Danksagungen

Ressourcen

Want More ComfyUI Workflows?

Wan 2.1 | Revolutionäre Videogenerierung

Wan 2.1 LoRA

Wan 2.1 Control LoRA | Tiefe und Kachel

Janus-Pro | T2I + I2T Modell

Wan FusionX | T2V+I2V+VACE Komplett

Wan2.2 Fun Inp | Kinoreifer Video-Generator

Flux & 10 In-Context LoRA-Modelle

HiDream E1.1 | AI Bildbearbeitung