SCAIL posengeführte Charakteranimation in ComfyUI
Dieser Workflow bringt SCAIL zu ComfyUI für posengeführte, referenzbasierte Charakteranimation. Durch die Kombination eines einzelnen Referenzbildes mit extrahierten menschlichen Posen bewahrt SCAIL die Identität des Subjekts, die Körperstruktur und kohärente Bewegungen über Frames hinweg, während Sie den Stil mit Eingabeaufforderungen steuern. Es unterstützt entweder ein Eingabevideo für die Bewegungsübertragung oder Bilder plus gerenderte Posen für die Choreographie und gibt dann Mehrbildvideos mit optionalem Audio-Passthrough aus.
Verwenden Sie diesen SCAIL-Workflow für Tanz- und Aktionsbewegungsübertragungen, stilisierte Charakteranimationen und konsistente Mehrfachaufnahmen, bei denen zeitliche Stabilität und präzise Posen wichtig sind. Im Hintergrund läuft es auf WanVideo für Diffusions-Transformator-Videoerzeugung, verstärkt Identität über CLIP Vision und treibt Struktur mit NLF und ViTPose/DWPose-Pose-Signalen an, alle für effizientes Langsequenztuning verdrahtet.
Hinweis: Aufgrund von Kompatibilitätsbeschränkungen kann die 2XL-Maschine nicht mit dem aktuellen ComfyUI-Workflow verwendet werden.
Schlüsselmodelle im ComfyUI SCAIL-Workflow
- SCAIL: Studio-Grade Charakteranimation über vollständige Kontextpose-Injektion und eine 3D-konsistente Posendarstellung; der Kern dieser Workflow-Identitätsbewahrung und Posen-Treue. GitHub, arXiv
- Wan 2.x Image-to-Video-Rückgrat: Große Video-Diffusionsmodelle, die hier als Sampler-Rückgrat für SCAIL-konditionierte Erzeugung verwendet werden; unterstützt hochwertige I2V- und Animation-Aufgaben. Beispiele: Wan-AI/Wan2.1-I2V-14B-480P, Wan-AI/Wan2.2-Animate-14B
- UMT5-XXL Text-Encoder: Mehrsprachige T5-Variante, die von Wan-Pipelines verwendet wird, um Eingabeaufforderungen in Konditionierungsembeddings zu verwandeln. Hugging Face
- CLIP ViT-H/14 Vision-Encoder: Extrahiert robuste Referenzbildmerkmale zur Verankerung der Identität während der Videosynthese. GitHub
- ViTPose (Whole-Body): Hochwertiger 2D-Menschenposenschätzer, der dichte Schlüsselstellen für Körper, Hände und Gesicht liefert, die von SCAILs Ausrichtungs- und Zeichenprogrammen verwendet werden. GitHub
- DWPose: Ganzkörper-Schlüsselpunktformat und Modelle, die für optionale Gesichts-/Handdetails und Posen-Ausrichtung genutzt werden. GitHub
- NLF (Neural Localizer Fields): Sagt kontinuierliche menschliche Pose-/Formhinweise voraus, die in die SCAIL 3D-bewussten Posebilder gerendert werden, die für starke strukturelle Kontrolle verwendet werden. GitHub
- YOLOv10: Schneller Detektor, der in der Pose-Vorverarbeitungskette zur Personenlokalisierung verwendet wird. GitHub
Verwendung des ComfyUI SCAIL-Workflows
Gesamtfluss: Laden Sie ein Referenzbild und ein optionales Steuerungsvideo; extrahieren und rendern Sie Posen; kodieren Sie die Referenz mit CLIP Vision; fügen Sie SCAIL-Referenz- und SCAIL-Pose-Embeddings hinzu; montieren Sie Textkonditionierung; sampeln Sie Frames mit WanVideo; dekodieren und exportieren Sie das Video. Der Graph enthält öffentliche "Set_"-Variablen, sodass Breite, Höhe, CFG und Frameanzahl automatisch propagiert werden.
-
Eingaben und Größenanpassung
- Laden Sie ein Referenzcharakterbild oder ein Video zur Bewegungsübertragung. Der Workflow passt die Referenz auf die Erzeugungsgröße an und stellt sicher, dass die Zielabmessungen durch 32 teilbar sind. Wenn Sie ein Video laden, steht dessen Audio für den Passthrough zum finalen Export zur Verfügung.
- Setzen Sie Breite, Höhe und Frameanzahl einmal fest; die Werte speisen den Sampler, Dekoder und Exporteur über gemeinsame Getter und Setter. Halten Sie das Seitenverhältnis zwischen Referenz und Ausgabe konsistent, um Dehnungsartefakte zu minimieren.
-
Pose-Extraktion (Gruppe: Pose-Extraktion)
- Die Eingabevideo-Frames oder Bilder werden zur Analyse umdimensioniert und an einen NLF-Pose-Prädiktor und einen ViTPose-Detektor übergeben. Die ViTPose-Ausgabe wird in das DWPose-Format konvertiert, um optionale Gesichts-/Handdetails hinzuzufügen und die globale Pose am Referenzsubjekt auszurichten.
- Gerenderte SCAIL-Posebilder werden intern auf halber Generationsauflösung zur Effizienz produziert und dann auf die Zielgröße zusammengesetzt, wobei Tiefenhinweise und Verdeckungen erhalten bleiben. Gesichts-/Handzeichnungen können umgeschaltet werden, während die Ausrichtung weiterhin verwendet wird; trennen Sie DWPose, wenn Sie die Pose-Ausrichtung deaktivieren möchten.
-
Referenz-Identitätskodierung
- Das Referenzbild wird mit CLIP ViT-H/14 kodiert und in WanVideo-Bild-Embeddings umgewandelt. Diese Embeddings erfassen Farbe, Textur und lokale Struktur, sodass SCAIL den Charakter durch herausfordernde Bewegungen konsistent halten kann.
- Wenn die Identität in langen oder stilisierten Aufnahmen abdriftet, behalten Sie eine saubere, frontale Referenz bei und vermeiden Sie starke Beschnitte; dies stärkt das CLIP-Signal, das nachgelagert verwendet wird.
-
SCAIL-Pose-Konditionierung
- Die SCAIL-Pose-Renderings werden als zusätzliche Bild-Embeddings injiziert. Sie dienen als starke strukturelle Führung, die die Gliedmaßenplatzierung, Tiefenordnung und Silhouettenstabilität über Frames hinweg erzwingt.
- Sie können die Steuerquelle in diesem Stadium austauschen: Verwenden Sie extrahierte Posen aus einem Video zur Bewegungsübertragung oder füttern Sie vorgerenderte SCAIL-Posebilder, um Sequenzen ohne Treiber zu choreographieren.
-
Text-Prompt-Konditionierung
- Prompts werden zu Texteingabe-Embeddings kodiert, die Stil, Garderobe, Beleuchtung und Umgebung beeinflussen. Verwenden Sie prägnante Beschreibungen, die das Referenzbild ergänzen; negativer Text kann Übersättigung, Artefakte oder Unordnung reduzieren.
- Prompts sind optional, wenn Sie möchten, dass die Ausgabe dem Referenzlook unter SCAIL-Kontrolle genau folgt.
-
Sampling und Planung
- Der WanVideo-Sampler läuft den Diffusions-Transformator mit Modell, Scheduler, Bild-Embeddings (Referenz + SCAIL-Pose), Text-Embeddings und CFG-Leitfaden. Ein Kontextoptionsknoten kann lange Sequenzen für speicherfreundliche Erzeugung fenstern, während die zeitliche Kontinuität erhalten bleibt.
- Wenn Sie Flimmern oder weiche Kanten bemerken, ziehen Sie einen langsameren Scheduler oder einen etwas stärkeren CFG in Betracht; wenn sich die Bewegung zu stark eingeschränkt anfühlt, reduzieren Sie die Gesamtführung, sodass SCAIL-Struktur und Erscheinungshinweise sich natürlich ausbalancieren.
-
Dekodieren und Exportieren
- Latents werden mit dem Wan VAE zu Frames dekodiert und das Video wird mit Ihrer gewählten Bildrate und Dateinamenpräfix geschrieben. Der Workflow kann visuelle A/B-Slices zusammenfügen und Audio durchlassen, wenn es verbunden ist.
- Überprüfen Sie die Ausgabe; wenn Arme oder Beine bei schnellen Drehungen abschneiden, überprüfen Sie die Qualität der Pose-Extraktion oder die Ausrichtungseingaben, dann wiederholen Sie mit den gleichen Seeds für kontrollierte Iteration.
Schlüsselnoten im ComfyUI SCAIL-Workflow
-
WanVideoAddSCAILReferenceEmbeds (#350)
- Fügt Identitäts- und Erscheinungsbedingung aus dem Referenzbild in den Bild-Embedding-Strom hinzu. Erhöhen Sie seinen Einfluss, wenn das Gesicht oder die Kleidung des Charakters abdriften; verringern Sie es, wenn das Modell sich weigert, große Körperdrehungen oder dramatische Beleuchtung anzupassen.
-
WanVideoAddSCAILPoseEmbeds (#324)
- Integriert gerenderte SCAIL-Posebilder als strukturelle Führung. Erhöhen Sie seinen Einfluss für strengere Gliedmaßenplatzierung und Silhouettenstabilität; verringern Sie es, wenn die Bewegung zu starr aussieht oder wenn Sie mehr Freiheit für Stil-Prompts wünschen, um die Pose leicht zu biegen.
-
RenderNLFPoses (#362)
- Rendert kontinuierliche NLF-Vorhersagen in SCAIL-Stil-Posebilder, überlagert optional DWPose-Gesichts-/Handdetails und führt Pose-zu-Referenz-Ausrichtung durch. Halten Sie die interne Pose-Renderauflösung auf der halben Zielauflösung, um SCAILs Design zu entsprechen und Aliasing zu vermeiden; trennen Sie DWPose, um die Ausrichtung zu entfernen.
-
WanVideoSamplerv2 (#348)
- Treibt das Haupt-Diffusionssampling mit Modell, Bild-/Text-Embeddings, Scheduler, zusätzlichen Argumenten und
cfg. Wenn Sie zeitliches Wackeln sehen, verwenden Sie einen stabileren Scheduler oder mehr Schritte; wenn Details die Referenz überschießen, reduzieren Sie cfg, damit SCAILs Identitätshinweise führen.
-
WanVideoSchedulerv2 (#349)
- Steuert das Verhalten des Denoising-Zeitplans. Wählen Sie Zeitpläne, die Detail und Stabilität ausbalancieren; langsamere Zeitpläne verbessern oft die zeitliche Konsistenz für weite Bewegungen und lange Sequenzen.
-
WanVideoClipVisionEncode (#327)
- Kodiert das Referenzbild mit ViT-H/14 und gibt CLIP-Bild-Embeddings für Identität aus. Verwenden Sie hochwertige, gut beleuchtete Referenzen; Frontale oder 3/4 Ansichten verankern Gesichter und Haare besser.
- Die Abmessungen müssen durch 32 teilbar sein. Halten Sie die Seitenverhältnisse von Referenz und Ausgabe übereinstimmend, um Verzerrungen zu vermeiden.
- SCAIL erwartet Posenrenderings bei halber Generationsauflösung; dieser Workflow berechnet es automatisch, sodass Sie es nicht manuell verwalten müssen.
- Für präzise Hände und Ausdrücke halten Sie DWPose verbunden, um Gesichts-/Handhinweise zu aktivieren; um nur die Ausrichtung zu deaktivieren, trennen Sie den DWPose-Link, aber behalten Sie die gerenderten Posebilder.
- Lange Sequenzen: Verwenden Sie den Kontextoptionsknoten, um die Erzeugung für Speichereffizienz zu fenstern, während Sie Überlappungen für sanfte Übergänge beibehalten.
- Wenn Sie SCAIL-Vorschaugewichte verwenden, die für ComfyUI neu verpackt sind, holen Sie sie aus den Community-Distributionen, wenn nötig. Beispielvorschau-Paket: Kijai/WanVideo_comfy SCAIL und Kijai/WanVideo_comfy_fp8_scaled SCAIL.
Danksagungen
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Ai Verse Z.ai (zai-org) für SCAIL (offizielle Implementierung) und teal024 für die SCAIL-Projektseite für ihre Beiträge und Wartung. Für autoritative Details verweisen Sie bitte auf die originale Dokumentation und Repositories, die unten verlinkt sind.
Ressourcen
- zai-org/SCAIL
- teal024/SCAIL-Projektseite
Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und des Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.