SCAIL 2 Multi-role Reference Action Transfer: Mehrcharakter-, identitätsbewahrender Bewegungstransfer für ComfyUI#
Dieser Workflow liefert SCAIL 2 Multi-role Reference Action Transfer: Er nimmt ein führendes Video und überträgt die Aktionen auf einen oder mehrere Referenzcharaktere, während er die visuelle Identität jedes Subjekts bewahrt. Er unterstützt Bewegungstransfer und vollständigen Charakteraustausch, verarbeitet Multi-Image-Identitätsreferenzen und erzeugt kohärente, mehrrollenfähige Szenen, die für Storytelling, Dialog und Gruppenaufführungen geeignet sind.
Aufgebaut um Wan 2.1 Video-Generierung mit SCAIL_2-Embeddings, CLIP Vision-Leitfaden und segmentierungsgetriebenen Rollmasken, konzentriert sich die Pipeline auf konsistente Identität, natürliche Bewegung und kontrollierbare Interaktionen über einen gesamten Clip hinweg.
Schlüsselmodelle im ComfyUI SCAIL 2 Multi-role Reference Action Transfer-Workflow#
- Wan 2.1 Video-Rückgrat über ComfyUI-WanVideoWrapper. Der Generator synthetisiert Videoframes aus SCAIL_2-Bild-Embeddings, visueller Konditionierung und Prompt-Text und verarbeitet dabei lange Kontexte und effiziente Speichernutzung. GitHub
- CLIP Vision-Encoder. Bietet robuste visuelle Embeddings aus dem primären Referenzbild oder der Collage, um Identität und Erscheinung während der Generierung zu steuern. Siehe das CLIP-Papier für Hintergrundinformationen zum Lernen von Bild-Text-Darstellungen. arXiv
- mT5-Familie Text-Encoder. Kodiert die positiven und negativen Prompts, die verwendet werden, um Inhalte in Richtung der gewünschten Subjekte und Aktionen über die Frames hinweg zu lenken. arXiv
- Segment Anything–Stil-Segmentierung für Video-Objekt-Tracking. Der Workflow verwendet einen SAM-Familien-Checkpoint, um Subjekte zu erkennen und zu verfolgen und pro-Rollen-Masken zu erzeugen, die den mehrcharakterigen Aktionstransfer antreiben. Hintergrund zur SAM-Segmentierung: GitHub
- LoRA-Adapter. Optionale Adapter spezialisieren den Generator für Identitätserhaltung und Aktionsgenauigkeit ohne vollständiges Modelltraining. Hintergrund zur LoRA-Abstimmung: arXiv
- FeiHou Toolbox-Dienstprogramme. Collage- und Masken-Dienstprogramme erleichtern Multi-Image-Identitätsreferenzen und farbige, rollenbewusste Masken für SCAIL 2. GitHub
- KJNodes-Bilddienstprogramme. Hochwertige Größenanpassung passt Eingaben und Masken an Videodimensionen für stabiles Sampling an. GitHub
Verwendung des ComfyUI SCAIL 2 Multi-role Reference Action Transfer-Workflows#
Der Workflow hat vier Hauptphasen: Laden von Assets und dem Generator, Aufbau von Mehrrollen-Referenzen und Masken, Kompilierung von SCAIL_2-Embeddings und dann das Sampeln und Exportieren des endgültigen Videos. Gruppen laufen von oben nach unten, mit hilfreichen Vorschauen in jedem Schritt.
Modell-Ladebereich#
Dieser Bereich bereitet das Wan 2.1-Rückgrat und sein VAE vor. Verwenden Sie WanAnimatePlus ModelLoader (#37), um das Basismodell und die Präzision auszuwählen, und WanAnimatePlus VAELoader (#71) für das passende VAE. Wenn Sie planen, Identität oder Bewegung weiter zu beeinflussen, fügen Sie Adapter mit WanAnimatePlus LoraSelectMulti (#66) hinzu und wenden Sie sie über WanAnimatePlus SetLoRAs (#69) auf das Modell an. Optionale WanVideoTorchCompileSettings (#72) können die Latenz durch Kompilieren von Aufmerksamkeitsblöcken senken.
Einzelbild-Laden#
Stellen Sie ein primäres Identitätsbild mit LoadImage in der Einzelbild-Ladegruppe bereit. Dieses Bild verankert das Aussehen Ihres Hauptsubjekts. Wenn Sie eine Collage aus mehreren Identitäten oder Rollen erstellen möchten, wechseln Sie in der Quick Toggle-Gruppe, um den Weg vom Collage-Eingang anstelle des Einzelbilds zu gehen.
Collage-Eingang#
Verwenden Sie AutoRefCollage (#370), um bis zu mehreren Referenzbildern in einem Layout zusammenzustellen, Personen automatisch zu erkennen und Ausschnitte in eine saubere Leinwand zu platzieren. Die Collage fungiert als Mehrrollen-Identitätstafel: Jedes Subjekt trägt Erscheinungshinweise für die SCAIL 2 Multi-role Reference Action Transfer-Phase bei. Ein Vorschaunode zeigt die zusammengefügte Collage, damit Sie das Framing überprüfen können, bevor Sie fortfahren.
Mehrbild-Referenz#
Hier können Sie auch drei oder mehr kuratierte Porträts mit LoadImage laden und sie mit ImageBatchMulti (#331) verpacken. ImageResizeKJv2 passt ihre Größe an, um der beabsichtigten Videoauflösung zu entsprechen. Dieser Pfad ist hilfreich, wenn Sie engere Kontrolle darüber wünschen, welche Identitäten und Winkel das Erscheinungsmodell informieren.
Video-Laden#
VHS_LoadVideo (#297) bringt das führende Video und Audio herein. Sie können eine Zielbildrate erzwingen, um eine flüssigere Bewegung zu erzielen, die Gesamtbilder begrenzen, um die Dauer zu begrenzen, ein Einführungssegment überspringen oder jedes n-te Bild für schnellere Iteration sampeln. Eine separate „Referenzvideovorschau“-Sub-Pipeline kombiniert und spielt die geladenen Frames ab, damit Sie bestätigen können, dass der Clip korrekt aussieht, bevor Sie mit dem Tracking beginnen.
Maskenbereich#
Der Workflow erkennt und verfolgt Subjekte, um die rollenbewussten Masken zu erstellen, die SCAIL 2 Multi-role Reference Action Transfer antreiben. Drei SAM3_VideoTrack-Knoten (#315, #316, #306) verfolgen Objekte im führenden Video, Referenzbildern und optionalen Präfix-Frames. SCAIL2ColoredMaskV2 (#354) fusioniert diese Tracks in drei Ausgaben: eine Pose-Videomaske, eine farbige Referenzbildmaske und eine Präfixmaske für warme Starts. Vorschauen für Einrollen- und Mehrrollenmasken helfen Ihnen, zu überprüfen, dass jede Farbe dem richtigen Charakter entspricht, bevor Sie sampeln.
Bewegungstransfer - Einbettungsprozess#
WanAnimatePlus SCAIL_2 Embeds (#342) verwandelt Ihre Eingaben in SCAIL_2-Bild-Embeddings, die vom Generator verwendet werden. Es kombiniert VAE-Funktionen, CLIP Vision-Embeddings, Ihr Referenzbild oder Ihre Collage, den Hintergrundaustausch (optional), die verfolgten Pose-Frames und die farbigen Masken. Sie können in zwei Modi arbeiten: Bewegungstransfer (verwenden Sie das Referenzerscheinungsbild mit der führenden Bewegung) oder Charakteraustausch (ersetzen Sie die Person im Eingabevideo durch Ihre Referenz). Es gibt auch Optionen, um den Hauptreferenzhintergrund zu bewahren und Präfix-Frames für lange oder hochauflösende Läufe zu beschneiden oder zu kacheln.
Sampling-Bereich#
WanVideoTextEncodeCached kodiert Prompts, und WanVideoContextOptions (#290) steuert temporale Fenster über die Frames hinweg. WanAnimatePlus SamplerSettings (#332) sammelt das Modell, SCAIL_2-Bild-Embeddings und Text-Embeddings zusammen mit Sampling-Hyperparametern und Zeitplan; WanAnimatePlus SamplerFromSettings (#311) führt die Generierung durch. WanAnimatePlus Decode (#267) verwandelt Latents in Frames; Sie können hier VAE-Kachelung aktivieren, wenn Sie auf Speichergrenzen stoßen. Video wird über VHS_VideoCombine abgeschlossen und aus dem Vorschau-Bereich exportiert; ein Begleit-Combine kann einen reinen Maskenclip für schnelles Debugging exportieren.
Quick Toggle und Videodimensionen#
Der Schalter „true = Character Replacement | false = Motion Transfer“ (#341) ändert sofort, wie Rollen downstream gehandhabt werden. Breiten- und Höhenkonstanten speisen alle Größenanpassungs- und Maskenknoten, um Formen ausgerichtet zu halten. Ein FastGroupsBypassSwitch (#351) lässt Sie zwischen einem Einzelbild- und einem Collage-Eingang wechseln, ohne neu zu verdrahten.
Schlüsselknoten im ComfyUI SCAIL 2 Multi-role Reference Action Transfer-Workflow#
SCAIL2ColoredMaskV2 (#354)#
Erzeugt rollenbewusste Masken durch Verschmelzen von Objekttracks aus dem führenden Video, Referenzbildern und optionalen Präfix-Frames. Verwenden Sie object_indices, um auszuwählen, welche verfolgten IDs Rollen werden, und den prefix_mask_mode, um ein Einzelbild-, Mehrfarb-Layout anzugeben, wenn Sie mehrere Charaktere gleichzeitig antreiben. Halten Sie den replacement_mode mit dem globalen Schalter konsistent, damit die Maskensemantik mit der Einbettungsphase übereinstimmt.
WanAnimatePlus SCAIL_2 Embeds (#342)#
Verschmilzt VAE, CLIP Vision, Mehrbild-Referenzen, Pose-Frames und Masken zu SCAIL_2-Embeddings für den Generator. Erhöhen Sie ref_strength, wenn die Identität abweicht; erhöhen Sie pose_strength, wenn die Bewegungsgenauigkeit gering ist. Für Szenen, die einen Referenzhintergrund behalten sollen, aktivieren Sie die Hintergrundbewahrung; wenn Sie von einem einzelnen Präfix-Frame aus starten, aktivieren Sie die Einzelbild-Präfix-Kodierung.
SAM3_VideoTrack (#315, #316, #306)#
Erkennt und verfolgt Subjekte über Frames hinweg, um den Maskengenerator zu füttern. Wenn Sie Charaktere untererkennen, senken Sie den detection_threshold oder erlauben Sie mehr max_objects; wenn das Tracking laut ist, erhöhen Sie das detect_interval, um das Jitter bei der Neudetektion zu reduzieren. Überprüfen Sie immer die farbige Maskenvorschau, um sicherzustellen, dass jede Rolle über die Zeit stabil bleibt.
VHS_LoadVideo (#297)#
Steuert den führenden Clip. force_rate setzt die Arbeits-FPS, frame_load_cap begrenzt die Dauer, skip_first_frames schneidet Intros ab und select_every_nth lässt Sie Frames für schnellere Tests subsampeln. Diese Steuerungen beeinflussen direkt Kontextfenster und Speicher, also passen Sie sie vor dem Sampling an.
WanAnimatePlus SamplerSettings (#332)#
Hält die Kern-Generierungseinstellungen. steps, scheduler und cfg steuern Detail, Glätte und Einhaltung der Prompts; denoise_strength bestimmt, wie stark die SCAIL_2-Leitfäden Frames umformen können. Verwenden Sie den seed-Eingang für Reproduzierbarkeit, wenn Sie mehrcharakterige Szenen verfeinern.
WanAnimatePlus BlockSwap (#67)#
Optionale Speicherersparnis, die Rechenblöcke während des Samplings austauscht. Bei knappen VRAM-Budgets oder langen Frameranges erhöhen Sie das Swapping, um Out-of-Memory-Fehler zu verhindern; bei GPUs mit hohem VRAM reduzieren oder deaktivieren Sie es für Geschwindigkeit.
WanAnimatePlus Decode (#267)#
Dekodiert Latents zu RGB-Frames. Wenn Ihre Auflösung oder Clip-Länge hoch ist und Decode OOMs, aktivieren Sie die Kachelung des VAE und setzen Sie geeignete Kachelgrößen und -schritte, damit sich Kacheln sauber überlappen.
Optionale Extras#
- Für mehrcharakterige Clips geben Sie jeder Rolle mindestens ein sauberes, frontales Porträt und halten Sie die Beleuchtung in der Collage konsistent.
- Beginnen Sie mit dem Bewegungstransfer-Modus, um Masken und Bewegungsqualität zu validieren, und wechseln Sie dann zum Charakteraustausch, wenn Sie den Darsteller vollständig austauschen müssen.
- Verwenden Sie die Masken-Only-Video-Vorschau, um Rollenzuweisungen und Farbkonstanz zu bestätigen, bevor Sie eine lange Wiedergabe durchführen.
- Halten Sie alle Eingaben auf die gleiche Breite und Höhe ausgerichtet; verwenden Sie die bereitgestellten Größenanpassungsknoten anstelle externer Werkzeuge, um subtile Formmismatches zu vermeiden.
- Wenn die Ergebnisse überstilisiert oder nicht identitätsgetreu erscheinen, senken Sie die Prompt-Stärke und erhöhen Sie den Referenzschwerpunkt in der Einbettungsphase; passen Sie den LoRA-Mix an, wenn Sie Adapter aktiviert haben.
- Lange Clips profitieren von größeren Kontextfenstern in
WanVideoContextOptions; balancieren Sie dies mit dem Speicher, indem Sie die VAE-Kachelung und, wenn nötig, einen moderaten Blocktausch aktivieren.
Dieser SCAIL 2 Multi-role Reference Action Transfer-Workflow ist darauf ausgelegt, den Mehrrollen-Bewegungstransfer wiederholbar und vorhersehbar zu machen: Bereiten Sie klare Referenzen vor, überprüfen Sie Masken und sampeln Sie dann mit stabilen Einstellungen für identitätsgetreue, natürliche Bewegung über Charaktere hinweg.
Danksagungen#
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken SCAIL 2 für SCAIL 2 Multi-role Reference Action Transfer Workflow Source für ihre Beiträge und Wartung. Für verbindliche Details verweisen wir auf die Originaldokumentation und die unten verlinkten Repositories.
Ressourcen#
- SCAIL 2/SCAIL 2 Multi-role Reference Action Transfer Workflow Source
- Docs / Release Notes: SCAIL 2 Multi-role Reference Action Transfer Workflow Source
Hinweis: Die Verwendung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen der Autoren und Betreuer.



