LongCat Avatar in ComfyUI: Einzelbild zu sprechendem Avatar-Video
Der LongCat Avatar in ComfyUI verwandelt ein einzelnes Referenzbild in ein identitätsstabiles, audiogesteuertes Avatar-Video. Basierend auf kija’s WanVideo-Wrapper konzentriert es sich auf Gesichtskohärenz, fließende Bewegungsfortsetzung und natürliche Lippenbewegungen ohne per-Charakter-Feinabstimmung. Sie stellen ein Charakterbild und eine Audiospur bereit; der Workflow rendert eine zeitlich konsistente Leistung, geeignet für sprechende Kopfclips, stilisierte Charakterdarstellungen und schnelle Avatar-Bewegungstests.
Kreative, die schnelle Iterationen wünschen, finden den LongCat Avatar in ComfyUI pragmatisch und zuverlässig. Der Workflow nutzt LongCats identitätsbewahrendes Modell und ein fensterbasiertes Generierungsschema, um Sequenzen zu verlängern, während die Ausdrücke stabil bleiben. Die Ausgaben werden mit dem Quellaudio zu einem Video zusammengefügt, um eine einfache Überprüfung oder Veröffentlichung zu ermöglichen.
Hinweis: Auf 2XL- oder größeren Maschinen bitte das Attention-Backend auf "sdpa" im WanVideo Model Loader-Knoten setzen. Das Standard-segeattn-Backend kann auf High-End-GPUs Kompatibilitätsprobleme verursachen.
Wichtige Modelle im Comfyui LongCat Avatar in ComfyUI-Workflow
- LongCat-Avatar-Modell für WanVideo. Identitätsfokussierte Bild-zu-Video-Generierung, angepasst für ComfyUI, bietet starke Charakterbewahrung über die Frames hinweg. Siehe die WanVideo Comfy-Veröffentlichungen von kijai auf Hugging Face für Checkpoints und Anmerkungen. Hugging Face: Kijai/WanVideo_comfy
- LongCat distill LoRA. Ein destilliertes LoRA, das die Gesichtsstruktur und Identitätsmerkmale während des Samplings verstärkt, um die Stabilität bei Bewegung zu verbessern. Verfügbar mit WanVideo Comfy-Assets. Hugging Face: Kijai/WanVideo_comfy
- Wan 2.1 VAE. Video VAE, das die Referenzframe(s) in Latents kodiert und generierte Samples zurück zu Bildern dekodiert. Hugging Face: Kijai/WanVideo_comfy
- UM-T5 Text-Encoder. Wird von WanVideo verwendet, um Text-Eingaben zu interpretieren, die die Szenenbeschreibung und den Stil lenken, während die Identität intakt bleibt. Hugging Face: google/umt5-xxl
- Wav2Vec 2.0 Sprachrepräsentationen. Liefert robuste Sprachmerkmale, die Lippen- und Kieferbewegungen über MultiTalk-Einbettungen antreiben. Hintergrundpapier: wav2vec 2.0. arXiv und eine kompatible Modellvariante: Hugging Face: TencentGameMate/chinese-wav2vec2-base
- MelBandRoFormer Vokaltrenner. Optionale Vokal-Musik-Trennung, damit das Lippen-Synchronisationsmodul ein saubereres Sprachsignal erhält. Hugging Face: Kijai/MelBandRoFormer_comfy
So verwenden Sie den Comfyui LongCat Avatar in ComfyUI-Workflow
Der Workflow hat drei Hauptphasen: Modelle und Einstellungen, Audio zu Bewegungshinweisen und Referenzbild zu Video mit fensterbasierter Erweiterung. Er rendert mit einer festen Rate, die für audiogesteuerte Bewegungen ausgelegt ist, und fügt dann Fenster zu einem nahtlosen Clip zusammen.
- Modelle
- Der
WanVideoModelLoader(#122) lädt den LongCat-Avatar-Checkpoint und das LongCat distill LoRA, währendWanVideoVAELoader(#129) das Video VAE bereitstellt. DerWanVideoSchedulerv2(#325) bereitet den Sampler-Plan vor, der während der Diffusion verwendet wird. Diese Komponenten definieren die Treue, die Identitätsbewahrung und das allgemeine Aussehen. Sobald sie festgelegt sind, dienen sie als Rückgrat für alle nachfolgenden Sampling-Schritte.
- Der
- Audio
- Laden Sie eine Sprachspur mit
LoadAudio(#125), optional trimmen mitTrimAudioDuration(#317), und trennen Sie Vokale mitMelBandRoFormerSampler(#302), um Hintergrundbleeding zu reduzieren.MultiTalkWav2VecEmbeds(#194) wandelt die gereinigte Sprache in Einbettungen um, die Mundbewegungen und subtile Kopfdynamiken antreiben. Die effektive Frame-Anzahl wird aus der Audiodauer abgeleitet, sodass längeres Audio zu längeren Sequenzen führt. Der Audiostream wird später mit Bildern in der Video-Kombinationsphase multiplexiert.
- Laden Sie eine Sprachspur mit
- Eingabebild
- Fügen Sie Ihr Charakterbild mit
LoadImage(#284) hinzu.ImageResizeKJv2(#281) passt es für das Modell an, undWanVideoEncode(#312) verwandelt es in einref_latent, das die Identität über alle Frames hinweg verankert. Dieses Latent ist die feste Referenz, die die LongCat Avatar in ComfyUI-Pipeline wiederverwendet, während zeitvariable Bewegungen aus Audio und Eingaben injiziert werden.
- Fügen Sie Ihr Charakterbild mit
- Fenster 1 erweitern
WanVideoLongCatAvatarExtendEmbeds(#345) fusioniert dasref_latentmit Audio-Einbettungen, um Bildeinbettungen für das erste Fenster zu erstellen.WanVideoSamplerv2(#324) entstört dann Latents in einen kurzen Clip.WanVideoDecode(#313) wandelt diese in Bilder zur Vorschau und den ersten Videoexport mitVHS_VideoCombine(#320) um. Fenstergröße und Überlappung werden intern verfolgt, sodass das nächste Fenster ohne sichtbare Nähte ausgerichtet werden kann.
- Fenster 2 erweitern
- Die zweite Erweiterungsgruppe wiederholt dieselbe Idee, um die Sequenz fortzusetzen.
WanVideoLongCatAvatarExtendEmbeds(#346, #461) berechnet Einbettungen, die auf den vorherigen Latents konditioniert sind, eingerahmt durch die aktuelle Überlappung.WanVideoSamplerv2(#327, #456) generiert das nächste Stück, das dekodiert und mitImageBatchExtendWithOverlap(#341, #460) zusammengeführt wird, um die Kontinuität zu wahren. Zusätzliche Fenster-Schritte können für längere Ergebnisse wiederholt werden, und jede Phase kann mitVHS_VideoCombine(#386, #453) exportiert werden.
- Die zweite Erweiterungsgruppe wiederholt dieselbe Idee, um die Sequenz fortzusetzen.
Wichtige Knoten im Comfyui LongCat Avatar in ComfyUI-Workflow
WanVideoModelLoader(#122)- Lädt den LongCat-Avatar-Checkpoint und hängt das LongCat distill LoRA an, definiert Identitätstreue und Bewegungsverhalten. Wenn Sie größere Instanzen ausführen, wechseln Sie die Attention-Implementierung für besseren Durchsatz, wie im WanVideo-Wrapper empfohlen. Repository zur Referenz: github.com/kijai/ComfyUI-WanVideoWrapper.
MultiTalkWav2VecEmbeds(#194)- Erzeugt audiogesteuerte Einbettungen aus Sprache, die Lippen-, Kiefer- und subtile Kopfdynamiken leiten. Für stärkere Artikulation erhöhen Sie den Spracheinfluss und ziehen eine zusätzliche Durchlauf für engere Synchronisation in Betracht, wenn Ihr Audio sehr klar ist. Hintergrundmodellinfo: arXiv: wav2vec 2.0.
WanVideoLongCatAvatarExtendEmbeds(#346)- Kern des LongCat Avatar in ComfyUI, dieser Knoten erweitert Bildeinbettungen über die Zeit, während er an das Referenz-Latent verankert bleibt. Passen Sie die Fensterlänge und Überlappung an, um Glätte, Laufzeit und Stabilität bei längeren Clips auszugleichen.
WanVideoSamplerv2(#327)- Führt den Diffusionsprozess mit dem Modell, Planer, Textführung und Bildeinbettungen durch. Passen Sie die Führungsstärke an, um den Ausgleich zwischen Eingaben-Treue und Variation zu beeinflussen; kleine Änderungen können sichtbare Auswirkungen auf die Identitätsstarre und Bewegung haben.
VHS_VideoCombine(#320)- Muxes gerenderte Frames mit dem Original-Audio in ein mp4 zur einfachen Betrachtung. Verwenden Sie die eingebaute Trim-Option, wenn Sie möchten, dass die Visuals genau mit dem Audio enden oder nur das neueste Fenster exportieren.
Optionale Extras
- Stellen Sie sicher, dass die Audiodauer alle geplanten Erweiterungsfenster abdeckt, um zu vermeiden, dass die Sprache mitten in der Sequenz ausgeht.
- Für lange Clips, erhöhen Sie die Fenstergröße moderat und halten Sie etwas Überlappung, damit Übergänge glatt bleiben; zu wenig Überlappung kann Knackgeräusche einführen, zu viel kann das Rendering verlangsamen.
- Die Pipeline arbeitet mit einer festen Bildrate, die an den sprachgesteuerten Schritt gebunden ist, was die Lipsynchronisation während des Exports beibehält.
- Wenn Sie einen großen Maschinentyp verwenden, setzen Sie die Attention-Implementierung im Modell-Lader auf eine speichereffiziente Option für bessere Geschwindigkeit.
- Mischen Sie keine inkompatiblen Modellformate; halten Sie das Hauptmodell und alle Sprachekomponenten in passenden Familien, wie in den WanVideo Comfy-Veröffentlichungen bereitgestellt. Hilfreiche Modellhubs: Kijai/WanVideo_comfy und GGUF-Varianten wie city96/Wan2.1-I2V-14B-480P-gguf.
Danksagungen
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Kijai für ComfyUI-WanVideoWrapper (LongCatAvatar-Workflow) und @Benji’s AI Playground, dem Ersteller des referenzierten YouTube-Videos, für ihre Beiträge und Pflege. Für autoritative Details verweisen Sie bitte auf die ursprüngliche Dokumentation und die unten verlinkten Repositories.
Ressourcen
- YouTube/Video-Tutorial
- Docs / Release Notes: Benji’s AI Playground YouTube-Video
- Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
- GitHub: kijai/ComfyUI-WanVideoWrapper
- Docs / Release Notes: LongCatAvatar_testing_wip.json (branch longcat_avatar)
Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen ihrer Autoren und Betreuer.


