ComfyUI>Workflows>Wan Alpha | Generator für transparente Videos

Wan Alpha | Generator für transparente Videos

Workflow Name: RunComfy/Wan-Alpha

Workflow ID: 0000...1295

Dieser Workflow hilft Ihnen, hochwertige Videoclips mit eingebauter Transparenz zu erzeugen, wodurch die Notwendigkeit für manuelles Maskieren oder Green-Screen-Entfernung entfällt. Sie können Charaktere, Objekte oder animierte Elemente problemlos über jeden Hintergrund Ihrer Wahl platzieren. Sein Output ist hochflexibel und somit perfekt für VFX, Motion Graphics und Compositing-Arbeiten geeignet. Sie sparen Zeit und vereinfachen Ihren kreativen Prozess, indem Sie mit gebrauchsfertigen transparenten Video-Assets arbeiten. Für Profis entwickelt, gewährleistet er nahtlose Integration in bestehende Design-Pipelines. Basierend auf dem Wan 2.1-Modell liefert er mit jedem Rendern Treue und Präzision.

Wan Alpha: transparentes Text-zu-Video für professionelles Compositing

Wan Alpha ist ein speziell entwickelter ComfyUI-Workflow, der Videos mit einem nativen Alpha-Kanal unter Verwendung der Wan 2.1-Familie erzeugt. Es produziert gemeinsam RGB und Alpha, sodass Charaktere, Requisiten und Effekte direkt in Timelines eingefügt werden können, ohne dass Keying oder Rotoscoping erforderlich ist. Für VFX, Motion Graphics und interaktive Apps liefert Wan Alpha saubere Kanten, halbtransparente Effekte und frame-genaue Masken, die bereit für die Produktion sind.

Basierend auf Wan2.1‑T2V‑14B und einem Alpha-bewussten VAE-Paar balanciert Wan Alpha Treue und Geschwindigkeit. Die optionale LightX2V LoRA-Beschleunigung verkürzt das Sampling bei gleichzeitiger Erhaltung der Details, und der Workflow exportiert RGBA-Frame-Sequenzen plus eine animierte WebP-Vorschau zur schnellen Überprüfung.

Schlüsselmodelle im Comfyui Wan Alpha-Workflow

Wan2.1‑T2V‑14B. Grundlegendes Text-zu-Video-Modell, das die Szenenstruktur, Bewegung und Renderqualität steuert. Offizielle Gewichte und Code werden in der Wan-Video-Organisation auf GitHub gepflegt. Wan-Video/Wan2.1
UMT5‑XXL-Text-Encoder. Multilingualer Encoder, der verwendet wird, um Eingabeaufforderungen für Wan-Modelle zu tokenisieren und einzubetten und reichhaltige Eingabephrasierungen in mehreren Sprachen zu ermöglichen. google/umt5-xxl und UMT5 docs
Wan‑Alpha VAE-Paar. Ein VAE-Design, das RGB und Alpha gemeinsam lernt, sodass dekodiertes Alpha pixelgenau mit RGB übereinstimmt und feine Kanten und Halbtransparenz unterstützt. Siehe den technischen Bericht zu Wan‑Alpha für Hintergrundinformationen. Wan‑Alpha (arXiv)
LightX2V LoRA. Optionale Beschleunigungs-LoRA, die lange Sampler auf wenige Schritte destilliert, um schnelleres Text-zu-Video zu ermöglichen und gleichzeitig die wahrgenommene Qualität zu erhalten. ModelTC/LightX2V

Verwendung des Comfyui Wan Alpha-Workflows

Dieser ComfyUI-Graph folgt einem einfachen Pfad von der Eingabeaufforderung zu RGBA-Frames: Modelle laden, Text codieren, ein Video-Latent zuweisen, sampeln, RGB und Alpha im Gleichschritt dekodieren und dann speichern.

Model- und LoRA-Laden

Beginnen Sie mit Load Wan 2.1 t2v 14B (#37), um das Basismodell zu laden. Wenn Sie Beschleunigung oder Stilverfeinerungen verwenden, wenden Sie diese in der Reihenfolge mit LoraLoaderModelOnly (#59) und LoraLoaderModelOnly (#65) an. Das Modell durchläuft dann ModelSamplingSD3 (#48), das einen mit dem geladenen Checkpoint kompatiblen Sampler konfiguriert. Dieser Stack definiert den Bewegungsprior und den Renderstil, den Wan Alpha in späteren Schritten verfeinern wird.

Eingabeaufforderungscodierung

Load Text Encoder (#38) lädt den UMT5‑XXL-Text-Encoder. Geben Sie Ihre Beschreibung in CLIP Text Encode (Positive Prompt) (#6) ein; halten Sie Ihr Thema, Aktion, Kameraführung und den Ausdruck "transparenter Hintergrund" prägnant. Verwenden Sie CLIP Text Encode (Negative Prompt) Useless s (#7), um gegebenenfalls Halos oder Hintergrundgeräusche zu vermeiden. Diese Codierungen bedingen sowohl die RGB- als auch die Alpha-Generierung, sodass Kanten und Transparenzhinweise Ihrer Absicht folgen.

Videoleinwand-Setup

Verwenden Sie EmptyHunyuanLatentVideo (#40), um die latente Videoleinwand zu definieren. Stellen Sie width, height, frames und fps ein, um Ihren Shot anzupassen; höhere Auflösungen oder längere Clips erfordern mehr Speicher. Dieser Knoten weist ein zeitlich konsistentes latentes Volumen zu, das Wan Alpha mit Bewegung und Erscheinung füllen wird. Erwägen Sie, die Dauer und Bildrate an Ihren Schnitt anzupassen, um späteres Resampling zu vermeiden.

Erzeugung

Der KSampler (#3) führt die Diffusion auf dem latenten Video unter Verwendung Ihres Modellstapels und der Eingabeaufforderungskonditionierung durch. Passen Sie seed für Variationen an und wählen Sie einen sampler und scheduler, die Geschwindigkeit und Detail ausbalancieren. Wenn die LightX2V LoRA aktiv ist, können Sie weniger Schritte für schnellere Renderings verwenden, während die Stabilität erhalten bleibt. Der Output ist ein einzelner latenter Stream, der von der nächsten Dekodierungsstufe geteilt wird, um perfekte RGBA-Ausrichtung zu gewährleisten.

Dekodierung von RGB und Alpha

RGB VAE Decode (#8) arbeitet mit VAELoader (#39) zusammen, um RGB-Frames zu rekonstruieren. Parallel dazu arbeitet Alpha VAE Decode (#52) mit VAELoader (#51) zusammen, um den Alpha-Kanal zu rekonstruieren. Beide Decoder lesen das gleiche Latent, sodass die Matte genau mit den Farb-Pixeln übereinstimmt, eine Kernidee im Design von Wan‑Alpha für konsistente Transparenz. Dieses Zwei-Wege-Dekodieren macht Wan Alpha bereit für direktes Compositing.

Speichern und Vorschau

SavePNGZIP_and_Preview_RGBA_AnimatedWEBP (#73) schreibt zwei Ausgaben: ein Zip-Archiv von RGBA-PNG-Frames und eine kompakte animierte WebP-Vorschau. Die Frame-Sequenz ist produktionstauglich für NLEs und Compositoren, während die Vorschau die Überprüfungen beschleunigt. Benennen Sie Ihr Output-Set, wählen Sie eine Vorschau-Länge und -Qualität und führen Sie den Knoten aus, um Ihr Ergebnis zu verpacken.

Schlüsselnoten im Comfyui Wan Alpha-Workflow

EmptyHunyuanLatentVideo (#40)

Rolle: definiert die räumliche und zeitliche Auflösung des erzeugten Clips. Passen Sie width, height, frames und fps an die Auslieferung an. Größere Leinwände und längere Dauer erhöhen den VRAM-Bedarf; erwägen Sie kürzere Entwürfe für die Look-Entwicklung und skalieren Sie dann für die endgültigen Ergebnisse.

KSampler (#3)

Rolle: der Hauptdenoiser für Wan Alpha. Passen Sie seed für Erkundungen an, steps zum Abwägen von Geschwindigkeit und Detail, sampler und scheduler für Stabilität und cfg, um Eingabeaufforderungskonformität mit natürlicher Bewegung auszubalancieren. Mit LightX2V LoRA aktiv können Sie steps erheblich reduzieren, während die Qualität dank Schritt-Destillation erhalten bleibt. Siehe LightX2V für Kontext zu schnellem Sampling. ModelTC/LightX2V

LoraLoaderModelOnly (#59)

Rolle: lädt die LightX2V LoRA, die das Sampling von Wan2.1 beschleunigt. Verwenden Sie die strength-Steuerung, um ihren Effekt zu mischen, wenn Sie Überschärfung oder Tempoartefakte sehen. Halten Sie diese LoRA am nächsten zum Basismodell in der Kette, damit nachgelagerte LoRAs von ihren Geschwindigkeitsvorteilen profitieren.

LoraLoaderModelOnly (#65)

Rolle: lädt eine zusätzliche LoRA für Stil- oder Domänenverfeinerung. Moderieren Sie strength, um zu vermeiden, dass die Bewegungskoherenz übermächtig wird; kombinieren Sie sie mit Ihrer Eingabeaufforderung, anstatt sie zu ersetzen. Wenn Artefakte auftreten, senken Sie diese LoRA, bevor Sie den Sampler ändern.

VAELoader (#39) RGB

Rolle: stellt das RGB-VAE bereit, das von RGB VAE Decode (#8) verwendet wird. Halten Sie dies mit dem Wan‑Alpha-Alpha-VAE gepaart, um sicherzustellen, dass beide Decoder Latents kohärent interpretieren. Der Wechsel zu nicht verwandten VAEs kann Kanten falsch ausrichten oder Transparenz weicher machen. Hintergrundinformationen zum gemeinsamen RGB-Alpha-Design finden Sie im Wan‑Alpha-Bericht. Wan‑Alpha (arXiv)

VAELoader (#51) Alpha

Rolle: stellt das Alpha-VAE bereit, das von Alpha VAE Decode (#52) verwendet wird. Es rekonstruiert die Matte aus demselben latenten Raum wie RGB, sodass Transparenz Bewegung und Detail entspricht. Wenn Sie VAEs anpassen, testen Sie, ob RGB und Alpha weiterhin an subpixelgenauen Kanten wie Haaren ausgerichtet sind.

SavePNGZIP_and_Preview_RGBA_AnimatedWEBP (#73)

Rolle: exportiert Assets. Setzen Sie einen klaren output_name für die Versionierung, wählen Sie eine Vorschauqualität und Bildrate, die den erzeugten Clip widerspiegeln, und behalten Sie den PNG-Export als Ihr Master für verlustfreies Compositing. Vermeiden Sie das Ändern der Größe zwischen Dekodierung und Speichern, um die Kantentreue zu erhalten.

Optionale Extras

Starke Eingabeaufforderungen für Wan Alpha beschreiben explizit das Thema, die Aktion, die Kamera, die Beleuchtung und den "transparenten Hintergrund". Fügen Sie subtile Materialien wie "luftiges Haar" oder "Glas" hinzu, um die Alpha-Details zu nutzen.
Verwenden Sie für schnelle Iterationen kürzere Dauer oder niedrigere Bildraten und skalieren Sie dann die Einstellungen hoch, sobald Look und Bewegung festgelegt sind.
Wenn Sie Halos sehen, fügen Sie Negative wie "Hintergrund, Umriss, Green Screen, weißer Rand" hinzu und halten Sie die Beleuchtung in der Eingabeaufforderung konsistent.
Beim Kombinieren mehrerer LoRAs platzieren Sie Beschleunigungs-LoRAs früher und stilistische LoRAs später und halten die Stärken moderat, um die Bewegungsrealität zu bewahren.
Importieren Sie die RGBA-PNG-Sequenz direkt in Ihren Compositor; verwenden Sie das animierte WebP nur für Vorschauen, nicht als Master.

Verwendete Ressourcen in Wan Alpha

Wan2.1-Modellfamilie und Code: Wan-Video/Wan2.1
UMT5-Text-Encoder: google/umt5-xxl und UMT5 docs
Wan‑Alpha-Methodenübersicht: Wan‑Alpha (arXiv)
LightX2V-Beschleunigung: ModelTC/LightX2V

Danksagungen

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken WeChatCV für Wan-Alpha für ihre Beiträge und Wartung. Für autoritative Details verweisen wir auf die ursprüngliche Dokumentation und die unten verlinkten Repositories.

Ressourcen

WeChatCV/Wan-Alpha
- GitHub: WeChatCV/Wan-Alpha

Hinweis: Die Verwendung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen der Autoren und Verwalter.

Want More ComfyUI Workflows?

Wan 2.1 Control LoRA | Tiefe und Kachel

Verbessern Sie die Wan 2.1-Videoerzeugung mit leichten Tiefen- und Kachel-LoRAs für verbesserte Struktur und Detailgenauigkeit.

Wan 2.1 Video Restyle | Konsistente Video-Stiltransformation

Verwandle deinen Videostil, indem du den restylten ersten Frame mit dem Wan 2.1 Video Restyle Workflow anwendest.

Wan 2.1 LoRA

Verbessern Sie die Wan 2.1 Videoerstellung mit LoRA-Modellen für verbesserten Stil und Anpassung.

Wan 2.1 | Revolutionäre Videogenerierung

Erstellen Sie unglaubliche Videos aus Text oder Bildern mit bahnbrechender KI, die auf alltäglichen CPUs läuft.

PuLID Flux II | Konsistente Charaktererzeugung

Erzeugen Sie Bilder mit präziser Charakterkontrolle und bewahren Sie dabei den künstlerischen Stil.

ReActor | Schneller Gesichtsaustausch

Mit ComfyUI ReActor können Sie ganz einfach die Gesichter von einem oder mehreren Charakteren in Bildern oder Videos austauschen.

SeedVR2 V2.5 | KI-Video-Upscaling-Workflow

Videos schnell hochskalieren mit scharfen, geschmeidigen, filmischen Ergebnissen.

AnimateDiff + ControlNet | Marmorskulpturenstil

Verwandeln Sie Ihre Videos in zeitlose Marmorskulpturen und fangen Sie die Essenz klassischer Kunst ein.

Support

Ressourcen

Rechtliches

RunComfy

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI-Spielplatz, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.