Dieser Workflow verwandelt ein einzelnes Standbild in eine hochauflösende Fantasy-Porträt-Animation. Er integriert das Fantasy-AMAP FantasyPortrait-Modell mit ausdrucksverstärkten Diffusionstransformatoren und verpackt es in eine Wan Video 2.1 Bild-zu-Video-Pipeline, sodass Sie identitätsbewahrende, emotionsreiche Sprechaufnahmen mit minimalem Setup erzeugen können. Er ist für Kreative konzipiert, die filmische Fantasy-Porträt-Bewegungen aus einem einzigen Foto mit klaren Steuerungen für Framing, Dauer und Stil wünschen.
Die Pipeline ist vollautomatisiert: Porträt einfügen, Auflösung und Bildanzahl wählen, optional ein Prompt und LoRA hinzufügen und dann in MP4 rendern. Unter der Haube erkennt der Graph das Gesicht, kodiert Bild- und Textanweisungen, fusioniert Fantasy-Porträt-Identitätsembeddings in Wans I2V-Conditioner, sampelt ein Video und dekodiert die Frames, bevor der endgültige Clip gespeichert wird.
FantasyPortrait (Fantasy-AMAP)
Kernmodul für Identität und Ausdruck. Bietet ausdrucksverstärkte Embeddings, die Subjekteigenschaften bewahren und nuancierte Gesichtsbewegungen ermöglichen.
|
WanVideo 2.1 I2V (14B, 720p)
Video-Diffusions-Backbone, das für das Sampeln der Animation aus dem Porträt und der Text-/Bildkonditionierung verwendet wird. Quantisierte, Comfy-bereite Gewichte sind über Kijais Modellpaket verfügbar.
UMT5-XXL Encoder
Hochleistungs-Textencoder, der für die Prompt-Führung im Videosampler verwendet wird.
Beispielgewicht: umt5-xxl-enc-bf16.safetensors
in
Wan 2.1 VAE
Video-optimiertes VAE für das Kodieren/Dekodieren von Latenten.
Beispielgewicht: Wan2_1_VAE_bf16.safetensors
in
Der Workflow läuft von links nach rechts, von den Eingaben bis zum finalen Video. Sie richten hauptsächlich drei Dinge vorneweg ein: Bild, Dimensionen und Dauer. Dann können Sie mit einem kurzen Prompt oder einer LoRA verfeinern, wenn Sie möchten.
Laden Sie ein einzelnes Porträt in LoadImage
, dann wird es für die Verarbeitung angepasst. Zwei Größenanpassungsstufen sorgen dafür, dass das Bild mit Ihrer gewählten Breite
und Höhe
übereinstimmt und die Komposition beibehält. Verwenden Sie die Steuerungen Width
, Height
und Frames
, um die Ausgabegröße (Standard 720 × 720) und die Animationslänge zu definieren. Dies hält Ihr Fantasy-Porträt-Framing über die Pipeline hinweg konsistent.
FantasyPortraitModelLoader
lädt die FantasyPortrait-Gewichte, und FantasyPortraitFaceDetector
extrahiert identitäts- und ausdrucksbewusste Porträt-Embeddings aus Ihrem Bild. Die Kernidee ist, zu trennen, wer das Subjekt ist, von dem, wie es Emotionen ausdrückt, sodass die finale Animation die Identität bewahrt und gleichzeitig ausdrucksstarke Bewegungen ermöglicht. Sie müssen hier nichts anpassen, es sei denn, Sie wechseln die Modelle.
Für die Bildführung erzeugt CLIPVisionLoader
mit WanVideoClipVisionEncode
robuste visuelle Merkmale aus dem Porträt. Für die Textführung verwendet WanVideoTextEncodeCached
den UMT5-XXL-Encoder, um Ihre positiven und negativen Prompts in Videokondition-Embeddings zu verwandeln. Ein kurzer, einfacher Prompt wie „natürliches Studio-Nahaufnahme, sanftes Lächeln“ reicht oft für einen klaren Fantasy-Porträt-Look aus.
VHS_LoadVideo
wird als praktischer Frame-Zähler verwendet. Sie können den Platzhalterclip belassen oder eine Referenz mit Ihrer bevorzugten Dauer laden; die Bildanzahl speist WanVideoImageToVideoEncode
, das Ihr Startbild plus Bild-/Text-Embeddings in I2V-Konditionierung verwandelt. Wenn Sie eine feste Länge bevorzugen, setzen Sie Frames
einfach direkt und ignorieren Sie den Referenzlader.
WanVideoAddFantasyPortrait
fusioniert die I2V-Konditionierung mit den Porträt-Embeddings aus Schritt 2. Dies verleiht der finalen Fantasy-Porträt-Animation ihre starke Identitätsbewahrung und ausdrucksstarke Details. Keine zusätzlichen Eingaben sind erforderlich, sobald Ihr Bild geladen ist.
WanVideoModelLoader
lädt Wan 2.1, dann wendet WanVideoLoraSelect
optional eine leichte I2V-LoRA aus dem Kijai-Paket an, um Bewegung oder Ästhetik ohne Neutrainieren zu beeinflussen. Dies ist ein guter Ort, um zu experimentieren, wenn Sie ein etwas stilisierteres Fantasy-Porträt wünschen, während die Identität erhalten bleibt.
WanVideoSampler
erzeugt latente Frames mit den fusionierten Konditionen. Halten Sie die Prompts einfach, erhöhen Sie die Schritte moderat, wenn Sie mehr Details benötigen, und vermeiden Sie übermäßiges Einschränken mit langen Negativen. WanVideoDecode
konvertiert Latente zurück in Bilder, und der Workflow fügt Vorschauen zusammen, bevor VHS_VideoCombine
ein MP4 schreibt (Standard 16 fps, yuv420p). Der Präfix des Ausgabedateinamens ist der Bequemlichkeit halber festgelegt.
FantasyPortraitModelLoader
(#138)Lädt die FantasyPortrait-Gewichte. Tauschen Sie hier, wenn Sie eine neuere Fantasy-AMAP-Version testen. Keine Abstimmung erforderlich, aber halten Sie die Präzision konsistent mit Ihrem Wan-Modell und VAE.
FantasyPortraitFaceDetector
(#142)Extrahiert Porträt-Embeddings aus dem angepassten Bild. Gute Ergebnisse kommen von gut beleuchteten, frontalen Fotos mit minimalen Verdeckungen. Wenn die Bewegung seltsam aussieht, überprüfen Sie den Eingabeschnitt und versuchen Sie es mit einer saubereren Quelle.
WanVideoImageToVideoEncode
(#151)Erstellt Wans I2V-Konditionierung aus CLIP-Bildmerkmalen, Ihrem Startbild und der Dauer. Passen Sie width
, height
und num_frames
an, um den Render-Footprint und die Länge zu steuern. Längere Sequenzen benötigen mehr VRAM und Zeit.
WanVideoAddFantasyPortrait
(#150)Fusioniert Fantasy-Porträt-Identität/Ausdrücke in den I2V-Conditioner. Verwenden Sie dies, um das Subjekt über die Frames hinweg erkennbar gleich zu halten, während nuancierte Ausdrucksänderungen ermöglicht werden. Keine Parameter erfordern typischerweise Anpassungen.
WanVideoSampler
(#149)Erzeugt die Video-Latenten. Wenn Sie schärfere Details wünschen, erhöhen Sie die Schritte maßvoll. Wenn die Bewegung driftet, reduzieren Sie die Prompt-Komplexität oder versuchen Sie eine andere LoRA. Halten Sie die Führung kohärent statt ausführlich.
WanVideoTextEncodeCached
(#155)Kodiert positive/negative Prompts mit UMT5-XXL. Verwenden Sie kurze, beschreibende Phrasen. Zu starke negative Prompts (z.B. schwere „schlechte Qualität“-Stapel) können den Ausdruck unterdrücken.
Dieser Workflow nutzt das Fantasy-Porträt-Modell des Teams, integriert Expression-Augmented Diffusion Transformers in ComfyUI für eine vollautomatisierte, hochwertige Porträtanimations-Pipeline.
Besonderer Dank an kijai für die Erstellung und Integration des Wan Video Wrapper Node, der es ermöglicht, Porträtanimation nahtlos in einem Bild-zu-Video-Framework auszuführen.
Wir danken auch der breiteren ComfyUI-Gemeinschaft für ihre kontinuierlichen Beiträge zu offenen Kreativwerkzeugen.
Links:
RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI-Spielplatz, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.