DreamID-Omni in ComfyUI | Ein- und Zwei-Personen Video-Workflow

ComfyUI DreamID-Omni Workflow

DreamID-Omni in ComfyUI | Single & Dual Talking Video Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI DreamID-Omni Examples

DreamID-Omni Ein- und Zwei-Personen-Charakter sprechender Video-Workflow für ComfyUI#

Dieser Workflow verwandelt ein einzelnes Referenzfoto und einen Audioclip in ein identitätsbewahrendes sprechendes Kopf-Video. Angetrieben durch das DreamID-Omni-Modell, kombiniert es ein modernes Video-Rückgrat mit MMAudio-gesteuerter Lippenbewegung, sodass das Subjekt natürlich spricht, während es das Gesicht aus Ihrem Bild beibehält. Es unterstützt auch zwei Charaktere und ermöglicht nebeneinander liegende Gesprächsclips, die von zwei Stimmen gesteuert werden.

Entwickelt für Kreative, Produktteams und Forscher, ist der DreamID-Omni-Workflow in ComfyUI ideal für digitale Avatare, personalisierte Ankündigungen, Tutorial-Intros und AI-Dialog-Szenen. Sie liefern Fotos und Audio, beschreiben optional die Aufnahme in einem kurzen Prompt, und der Graph rendert ein poliertes Video, das bereit zum Teilen ist.

Wichtige Modelle im ComfyUI DreamID-Omni-Workflow#

DreamID-Omni. Das Kern-Identitätsmodul, das die Person in Ihrem Referenzbild über die Frames hinweg bewahrt, während es auf Audio für realistische Lippenbewegungen reagiert. Siehe das offizielle Repo und die Gewichte für Details: DreamID-Omni und DreamID-Omni auf Hugging Face.
Wan 2.2 Video-Generierung. Ein hochkapazitives Video-Diffusions-Rückgrat, das kohärente Bewegung, Beleuchtung und Shot-Komposition synthetisiert, während DreamID-Omni die Gesichtsidentität steuert.
MMAudio. Ein Audio-Darstellungsmodell, das die Mundformen und subtilen Gesichtshinweise mit der gelieferten Sprache ausrichtet und die Lippen-Synchronisation verbessert.

So verwenden Sie den ComfyUI DreamID-Omni-Workflow#

Dieser Graph hat zwei parallele Pfade. Der Ein-Personen-Pfad verwendet ein Bild und ein Audio. Der Zwei-Personen-Pfad verwendet zwei Bilder und zwei Audios, um einen Gesprächsclip zu erstellen. Ein geteilter DreamID-Omni-Loader initialisiert die Pipeline für beide.

Person Nr. 1#

Verwenden Sie Load Reference Image (Person 1) (#6), um ein klares, frontal ausgerichtetes Porträt mit gleichmäßiger Beleuchtung und minimaler Verdeckung auszuwählen. Verwenden Sie Load Reference Audio (Person 1) (#7), um die Rede bereitzustellen, die der Charakter sagen soll. Sauberer Audio sorgt für bessere Lippen-Synchronisation, daher bevorzugen Sie Sprache ohne Musik oder starken Hintergrundlärm. Dieses Paar füttert sowohl den Ein-Personen-Modus als auch, wenn aktiviert, das linke oder erste Subjekt im Zwei-Personen-Modus.

Person Nr. 2#

Verwenden Sie Load Reference Image (Person 2) (#9) und Load Reference Audio (Person 2) (#11), wenn Sie einen Dialog erstellen. Wählen Sie ein Foto, das dem Framing von Person 1 entspricht, um die Komposition ausgeglichen zu halten. Stellen Sie sicher, dass das zweite Audio in der Lautstärke dem ersten ähnlich ist, um abrupte Wahrnehmungsverschiebungen zu vermeiden. Wenn Sie nur einen Ein-Personen-Clip erstellen, können Sie diese Gruppe ignorieren.

1 Person Video#

Der Ein-Sprecher-Pfad wird von ComfyUI DreamID-Omni Sampler (#21) angetrieben. Es fusioniert die DreamID-Omni-Pipeline mit dem Foto und Audio von Person 1 und rendert dann einen Shot, der mit Ihrer kurzen Szenenbeschreibung im Prompt-Bereich des Knotens konsistent ist. Halten Sie Ihren Prompt prägnant und praktisch, zum Beispiel indem Sie Hintergrund, Kameradistanz und Verhalten beschreiben. Das Ergebnis wird von 💾 Save Video (Single Person) (#4) geschrieben, das die Datei für Sie benennt und exportiert.

2 Person Video#

Der Dialog-Pfad verwendet ComfyUI DreamID-Omni Sampler (#22), um zwei Identitäten in einem Frame zu komponieren und jeden Mund mit seinem gepaarten Audio zu steuern. Geben Sie einen kurzen Prompt, um die Umgebung und den Interaktionsstil festzulegen, wie z.B. einen Co-Working-Bereich, einen lässigen Ton oder wer zuerst spricht. Dies hilft, die Kameraplatzierung und Gesten zu stabilisieren, während DreamID-Omni und MMAudio Identität und Lippenausrichtung beibehalten. Der Clip wird von 💾 Save Video (Two Persons) (#5) exportiert.

Geteilte DreamID-Omni-Pipeline#

ComfyUI DreamID-Omni Loader (#23) initialisiert die DreamID-Omni-Komponenten, die von beiden Pfaden verwendet werden. Normalerweise müssen Sie hier nichts anpassen. Solange die Gewichte und der ComfyUI-Knoten verfügbar sind, bereitet der Loader die Pipeline vor, damit die Sampler rendern können.

Wichtige Knoten im ComfyUI DreamID-Omni-Workflow#

`ComfyUI DreamID-Omni Loader` (#23)#

Initialisiert die DreamID-Omni-Pipeline und macht ihre Gewichte für nachgelagerte Sampler verfügbar. Hier gibt es keine typischen Benutzereingaben. Wenn Sie mehrere Modellvarianten pflegen, bestätigen Sie, dass die richtigen Gewichte installiert sind, bevor Sie Renders in die Warteschlange stellen.

`ComfyUI DreamID-Omni Sampler` (#21)#

Ein-Personen-Rendering. Dieser Knoten kombiniert die Loader-Pipeline mit dem ersten Referenzbild und Audio, um einen identitätsbewahrenden sprechenden Kopf zu synthetisieren. Das Prompt-Feld ist der Ort, an dem Sie die Szene und das Verhalten definieren; der Seed steuert die Wiederholbarkeit; die Auflösung bestimmt das Framing und die Gesichtsdetaillierung; und die Schritte tauschen Geschwindigkeit gegen Treue ein. Für konsistente Ergebnisse über Takes hinweg, verwenden Sie denselben Seed und halten Sie Änderungen am Prompt minimal.

`ComfyUI DreamID-Omni Sampler` (#22)#

Zwei-Personen-Rendering. Diese Instanz akzeptiert zwei Fotos und zwei Audios, wobei jede Stimme ihrem Subjekt für synchronisierte Lippenbewegung zugeordnet wird. Der Prompt kann das Gespräch und das Kameralayout inszenieren. Passen Sie Seed und Auflösung so an, wie Sie es im Ein-Personen-Modus tun würden, und stellen Sie sicher, dass beide Audios auf das gewünschte Timing zugeschnitten sind, bevor Sie rendern.

`💾 Save Video (Single Person)` (#4)#

Schreibt die Ein-Sprecher-Ausgabe auf die Festplatte. Stellen Sie den Ordner oder den Basisnamen ein, um Versionen organisiert zu halten. Wenn verfügbar, lassen Sie Codec- und Framerate-Optionen auf automatisch, wenn Sie unsicher sind.

`💾 Save Video (Two Persons)` (#5)#

Schreibt die Dialogausgabe auf die Festplatte. Verwenden Sie einen eindeutigen Basisnamen, damit Ein- und Zwei-Personen-Clips leicht zu unterscheiden sind. Behalten Sie automatische Exporteinstellungen für Zuverlässigkeit bei, es sei denn, Sie haben eine spezielle Lieferanforderung.

Optionale Extras#

Halten Sie die Gesichter in den Referenzbildern groß genug, um einen bedeutenden Teil des Rahmens zu belegen, für eine stärkere Identitätssperre.
Verwenden Sie sauberes, gut ausgesteuertes Sprach-Audio. Schneiden Sie Stille am Anfang ab, um anfänglich eingefrorene Lippen zu vermeiden.
Für ein stabileres Aussehen, verwenden Sie denselben Seed, wenn Sie Prompts oder Outfits iterieren.
Wenn der Zwei-Personen-Abstand eng erscheint, formulieren Sie den Prompt um, um die Kamera zu erweitern oder den Schulterraum zu vergrößern, anstatt Gesichter zu beschneiden.
Für Assets und Updates siehe das offizielle Modell und den Knoten: DreamID-Omni, ComfyUI_RH_Dreamid-Omni, und DreamID-Omni weights.

Danksagungen#

Dieser Workflow implementiert und baut auf den folgenden Werken und Ressourcen auf. Wir danken Guoxu1233 für das DreamID-Omni-Modell/Workflow, HM-RunningHub für den DreamID-Omni ComfyUI-Knoten und XuGuo699 für die DreamID-Omni-Modellgewichte für ihre Beiträge und Pflege. Für autoritative Details, beziehen Sie sich bitte auf die originale Dokumentation und die unten verlinkten Repositories.

Ressourcen#

DreamID-Omni Offizielles Repository - https://github.com/Guoxu1233/DreamID-Omni
- GitHub: Guoxu1233/DreamID-Omni
DreamID-Omni ComfyUI Node (RunningHub) - https://github.com/HM-RunningHub/ComfyUI_RH_Dreamid-Omni
- GitHub: HM-RunningHub/ComfyUI_RH_Dreamid-Omni
DreamID-Omni Model Weights (Hugging Face) - https://huggingface.co/XuGuo699/DreamID-Omni
- Hugging Face: XuGuo699/DreamID-Omni

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen der Autoren und Pfleger.

Want More ComfyUI Workflows?

Wan2.2 S2V | Sound zu Video Generator

Verwandelt Ihren Audioclip in ein lebensechtes, synchronisiertes Video aus einem Bild

Pose Control LipSync S2V | Ausdrucksstarker Video-Generator

Verwandeln Sie Bilder in sprechende, bewegliche Charaktere mit Posen- und Audiokontrolle.

Multitalk | Realistischer Sprechender Video-Maker

Mit einem Klick mehrsprecher-lippen-synchronisierte Videos aus Porträts und Stimmen erstellen!

InfiniteTalk | Lippensynchronisierter Avatar-Generator

Foto + Stimme = Perfekt synchronisierter sprechender Avatar in Minuten

Character AI Ovi | Generator für sprechende Avatare

Verwandelt jedes Foto in lebensechte sprechende Avatare mit Emotionen und Stimme.

Vid2Vid Teil 2 | SDXL Style Transfer

Steigern Sie die Kreativität von Vid2Vid, indem Sie sich auf die Komposition und Maskierung Ihres Originalvideos konzentrieren.

ComfyUI FLUX | Eine neue Kunstbild-Generierung

Ein neues Bildgenerierungsmodell, entwickelt von Black Forest Labs

One to All Animation | Pose-basiertes Video-Erstellungstool

Erstellen Sie flüssige, posefolgende Videos mit beeindruckender Bewegungsbeständigkeit.

Support

Ressourcen

Rechtliches

RunComfy

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI Models, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.

DreamID-Omni | Foto zu sprechendem Video-Generator