logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
Loading...
ComfyUI>Workflows>IDM-VTON | Virtuelles Anprobieren

IDM-VTON | Virtuelles Anprobieren

Workflow Name: RunComfy/IDM-VTON
Workflow ID: 0000...1135
IDM-VTON, oder Improving Diffusion Models for Authentic Virtual Try-on in the Wild, ist ein bahnbrechendes Diffusionsmodell, das ein realistisches virtuelles Anprobieren von Kleidungsstücken ermöglicht. Durch die Bewahrung der einzigartigen Details und Identität von Kleidungsstücken erzeugt IDM-VTON unglaublich authentische Ergebnisse. Das Modell verwendet einen Bildprompt-Adapter (IP-Adapter), um hochgradige Kleidungssemantiken zu extrahieren, und ein paralleles UNet (GarmentNet), um niedriggradige Merkmale zu kodieren. In ComfyUI treibt der IDM-VTON-Knoten den virtuellen Anprobeprozess an und erfordert Eingaben wie ein menschliches Bild, eine Pose-Darstellung, eine Kleidungsmaske und ein Kleidungsbild.

ComfyUI IDM-VTON Workflow

ComfyUI Workflow: IDM-VTON for Virtual Clothing Try-on
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI IDM-VTON Examples

idm-vton-on-comfyui-realistic-virtual-clothing-try-on-1135

IDM-VTON, kurz für "Improving Diffusion Models for Authentic Virtual Try-on in the Wild", ist ein innovatives Diffusionsmodell, das es Ihnen ermöglicht, Kleidungsstücke realistisch virtuell anzuprobieren, indem Sie nur wenige Eingaben verwenden. Was IDM-VTON auszeichnet, ist seine Fähigkeit, die einzigartigen Details und die Identität der Kleidungsstücke zu bewahren und gleichzeitig virtuelle Anprobierergebnisse zu erzeugen, die unglaublich authentisch aussehen.

1. Verständnis von IDM-VTON

Im Kern ist IDM-VTON ein Diffusionsmodell, das speziell für das virtuelle Anprobieren entwickelt wurde. Um es zu verwenden, benötigen Sie lediglich eine Darstellung einer Person und ein Kleidungsstück, das Sie anprobieren möchten. IDM-VTON vollbringt dann seine Magie und erzeugt ein Ergebnis, das aussieht, als würde die Person das Kleidungsstück tatsächlich tragen. Es erreicht ein Maß an Kleidungsgenauigkeit und Authentizität, das frühere diffusionsbasierte virtuelle Anprobiermethoden übertrifft.

2. Die Funktionsweise von IDM-VTON

Wie gelingt es IDM-VTON, solch realistische virtuelle Anproben zu ermöglichen? Das Geheimnis liegt in seinen zwei Hauptmodulen, die zusammenarbeiten, um die Semantik der Kleidereingabe zu kodieren:

  1. Das erste ist ein Bildprompt-Adapter, oder kurz IP-Adapter. Diese clevere Komponente extrahiert die hochgradigen Semantiken des Kleidungsstücks - im Wesentlichen die Schlüsselmöglichkeiten, die sein Aussehen definieren. Diese Informationen werden dann in die Cross-Attention-Schicht des Haupt-UNet-Diffusionsmodells integriert.
  2. Das zweite Modul ist ein paralleles UNet namens GarmentNet. Seine Aufgabe ist es, die niedriggradigen Merkmale des Kleidungsstücks zu kodieren - die kleinen Details, die es einzigartig machen. Diese Merkmale werden dann in die Self-Attention-Schicht des Haupt-UNet integriert.

Aber das ist noch nicht alles! IDM-VTON nutzt auch detaillierte Textprompts für sowohl die Kleidungs- als auch die Personeneingaben. Diese Prompts bieten zusätzlichen Kontext, der die Authentizität des endgültigen virtuellen Anprobierergebnisses verbessert.

3. IDM-VTON in ComfyUI zum Einsatz bringen

3.1 Der Star der Show: Der IDM-VTON-Knoten

In ComfyUI ist der "IDM-VTON"-Knoten das Kraftpaket, das das IDM-VTON-Diffusionsmodell ausführt und die virtuelle Anprobierausgabe generiert.

Damit der IDM-VTON-Knoten seine Magie entfalten kann, benötigt er einige wichtige Eingaben:

  1. Pipeline: Dies ist die geladene IDM-VTON-Diffusionspipeline, die den gesamten virtuellen Anprobeprozess antreibt.
  2. Menschliche Eingabe: Ein Bild der Person, die das Kleidungsstück virtuell anprobieren wird.
  3. Pose-Eingabe: Eine vorverarbeitete DensePose-Darstellung der menschlichen Eingabe, die IDM-VTON hilft, die Pose und Körperform der Person zu verstehen.
  4. Masken-Eingabe: Eine binäre Maske, die anzeigt, welche Teile der menschlichen Eingabe Kleidung sind. Diese Maske muss in ein geeignetes Format umgewandelt werden.
  5. Kleidungs-Eingabe: Ein Bild des Kleidungsstücks, das virtuell anprobiert werden soll.

3.2 Alles vorbereiten

Um den IDM-VTON-Knoten in Betrieb zu nehmen, gibt es einige Vorbereitungsschritte:

  1. Laden des menschlichen Bildes: Ein LoadImage-Knoten wird verwendet, um das Bild der Person zu laden. IDM-VTON
  2. Erzeugen des Pose-Bildes: Das menschliche Bild wird durch einen DensePosePreprocessor-Knoten geleitet, der die benötigte DensePose-Darstellung berechnet, die IDM-VTON benötigt. IDM-VTON
  3. Erhalten des Maskenbildes: Es gibt zwei Möglichkeiten, die Kleidungsmaske zu erhalten: IDM-VTON

a. Manuelles Maskieren (empfohlen)

  • Rechtsklicken Sie auf das geladene menschliche Bild und wählen Sie "In Masken-Editor öffnen."
  • Maskieren Sie im Masken-Editor-UI manuell die Kleidungsbereiche.

b. Automatisches Maskieren

  • Verwenden Sie einen GroundingDinoSAMSegment-Knoten, um die Kleidung automatisch zu segmentieren.
  • Geben Sie dem Knoten eine Textbeschreibung des Kleidungsstücks (wie "T-Shirt").

Unabhängig von der gewählten Methode muss die erhaltene Maske in ein Bild umgewandelt werden, indem ein MaskToImage-Knoten verwendet wird, der dann mit dem "Maskenbild"-Eingang des IDM-VTON-Knotens verbunden wird.

  1. Laden des Kleidungsbildes: Es wird verwendet, um das Bild des Kleidungsstücks zu laden.
IDM-VTON

Für einen tieferen Einblick in das IDM-VTON-Modell sollten Sie das Originalpapier "Improving Diffusion Models for Authentic Virtual Try-on in the Wild" nicht verpassen. Und wenn Sie daran interessiert sind, IDM-VTON in ComfyUI zu verwenden, schauen Sie sich die dedizierten Knoten hier an. Ein großer Dank geht an die Forscher und Entwickler hinter diesen unglaublichen Ressourcen.

Want More ComfyUI Workflows?

Flux & 10 In-Context LoRA-Modelle

Flux & 10 In-Context LoRA-Modelle

Entdecken Sie Flux und 10 vielseitige In-Context LoRA-Modelle für die Bildgenerierung.

Wan 2.2 Lightning T2V I2V | 4-Schritt Ultra Schnell

Wan 2.2 jetzt 20x schneller! T2V + I2V in 4 Schritten.

InstantCharacter

Ein Foto, endlose Charaktere. Perfekte Identitätsbewahrung.

FramePack Wrapper | Effiziente lange Videogenerierung

Erstellen Sie stabile, über 60 Sekunden lange Videos mit minimalen Cloud-Ressourcen.

Flux TTP Upscale | 4K Gesichtswiederherstellung

Reparieren Sie verzerrte Gesichter und skalieren Sie Bilder auf 4K-Auflösung hoch.

Flux UltraRealistic LoRA V2

Flux UltraRealistic LoRA V2

Erstellen Sie atemberaubend lebensechte Bilder mit Flux UltraRealistic LoRA V2

HiDream-I1 | T2I

Hochwertige Bildgenerierung mit einem 17B Parameter Modell.

MMAudio | Video-to-Audio

MMAudio: Fortgeschrittenes Video-zu-Audio-Modell für hochwertige Audiogenerierung.

Folge uns
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Support
  • Discord
  • E-Mail
  • Systemstatus
  • Partner
Ressourcen
  • Kostenloses ComfyUI Online
  • ComfyUI Anleitungen
  • RunComfy API
  • ComfyUI Tutorials
  • ComfyUI Nodes
  • Erfahre mehr
Rechtliches
  • Nutzungsbedingungen
  • Datenschutzrichtlinie
  • Cookie-Richtlinie
RunComfy
Urheberrecht 2025 RunComfy. Alle Rechte vorbehalten.

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI-Spielplatz, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.