logo
RunComfy
  • Models
  • ComfyUI
  • TrainerNew
  • API
  • Pricing
discord logo
ComfyUI>Workflow>IDM-VTON | Prova Virtuale

IDM-VTON | Prova Virtuale

Workflow Name: RunComfy/IDM-VTON
Workflow ID: 0000...1135
IDM-VTON, o Miglioramento dei modelli di diffusione per la prova d'abbigliamento virtuale autentica nel mondo reale, è un modello di diffusione rivoluzionario che consente una prova d'abbigliamento virtuale realistica. Preservando i dettagli unici e l'identità dei capi, IDM-VTON genera risultati incredibilmente autentici. Il modello utilizza un adattatore di prompt immagine (IP-Adapter) per estrarre le semantiche dei capi di alto livello e un UNet parallelo (GarmentNet) per codificare le caratteristiche di basso livello. In ComfyUI, il nodo IDM-VTON alimenta il processo di prova virtuale, richiedendo input come un'immagine umana, una rappresentazione della posa, una maschera d'abbigliamento e un'immagine del capo.

IDM-VTON, abbreviazione di "Miglioramento dei modelli di diffusione per la prova d'abbigliamento virtuale autentica nel mondo reale," è un modello di diffusione innovativo che ti permette di provare realisticamente i capi virtualmente utilizzando solo pochi input. Ciò che distingue IDM-VTON è la sua capacità di preservare i dettagli unici e l'identità dei capi generando risultati di prova virtuali che sembrano incredibilmente autentici.

1. Comprendere IDM-VTON

Alla base, IDM-VTON è un modello di diffusione progettato specificamente per la prova virtuale. Per usarlo, hai semplicemente bisogno di una rappresentazione di una persona e di un capo che vuoi provare. IDM-VTON poi fa la sua magia, rendendo un risultato che sembra che la persona stia effettivamente indossando il capo. Raggiunge un livello di fedeltà e autenticità dei capi che supera i precedenti metodi di prova virtuale basati sulla diffusione.

2. Il funzionamento interno di IDM-VTON

Allora, come fa IDM-VTON a realizzare una prova virtuale così realistica? Il segreto sta nei suoi due moduli principali che lavorano insieme per codificare le semantiche dell'input del capo:

  1. Il primo è un adattatore di prompt immagine, o IP-Adapter in breve. Questo componente intelligente estrae le semantiche di alto livello del capo - essenzialmente, le caratteristiche chiave che definiscono il suo aspetto. Queste informazioni vengono poi fuse nel livello di attenzione incrociata del modello UNet principale di diffusione.
  2. Il secondo modulo è un UNet parallelo chiamato GarmentNet. Il suo compito è codificare le caratteristiche di basso livello del capo - i dettagli nitidi che lo rendono unico. Queste caratteristiche vengono poi fuse nel livello di autoattenzione del modello UNet principale.

Ma non è tutto! IDM-VTON utilizza anche prompt testuali dettagliati sia per il capo che per gli input della persona. Questi prompt forniscono un contesto aggiuntivo che migliora l'autenticità del risultato finale della prova virtuale.

3. Mettere al lavoro IDM-VTON in ComfyUI

3.1 La star dello spettacolo: Il nodo IDM-VTON

In ComfyUI, il nodo "IDM-VTON" è il motore che esegue il modello di diffusione IDM-VTON e genera l'output della prova virtuale.

Per far funzionare il nodo IDM-VTON, sono necessari alcuni input chiave:

  1. Pipeline: Questa è la pipeline di diffusione IDM-VTON caricata che alimenta l'intero processo di prova virtuale.
  2. Human Input: Un'immagine della persona che proverà virtualmente il capo.
  3. Pose Input: Una rappresentazione DensePose preprocessata dell'input umano, che aiuta IDM-VTON a comprendere la posa e la forma del corpo della persona.
  4. Mask Input: Una maschera binaria che indica quali parti dell'input umano sono abbigliamento. Questa maschera deve essere convertita in un formato appropriato.
  5. Garment Input: Un'immagine del capo da provare virtualmente.

3.2 Preparare tutto

Per far funzionare il nodo IDM-VTON, ci sono alcuni passaggi di preparazione:

  1. Caricamento dell'immagine umana: Si utilizza un nodo LoadImage per caricare l'immagine della persona. <img src="https://cdn.runcomfy.net/workflow_assets/1135/readme01.webp" alt="IDM-VTON" width="500" />
  2. Generazione dell'immagine della posa: L'immagine umana viene passata attraverso un nodo DensePosePreprocessor, che calcola la rappresentazione DensePose di cui IDM-VTON ha bisogno. <img src="https://cdn.runcomfy.net/workflow_assets/1135/readme02.webp" alt="IDM-VTON" width="500" />
  3. Ottenere l'immagine della maschera: Ci sono due modi per ottenere la maschera dell'abbigliamento: <img src="https://cdn.runcomfy.net/workflow_assets/1135/readme03.webp" alt="IDM-VTON" width="500" />

a. Mascheramento manuale (consigliato)

  • Fare clic con il tasto destro sull'immagine umana caricata e scegliere "Apri nell'editor di maschere."
  • Nell'interfaccia dell'editor di maschere, maschera manualmente le regioni dell'abbigliamento.

b. Mascheramento automatico

  • Utilizzare un nodo GroundingDinoSAMSegment per segmentare automaticamente l'abbigliamento.
  • Suggerire al nodo una descrizione testuale del capo (come "t-shirt").

Qualunque metodo tu scelga, la maschera ottenuta deve essere convertita in un'immagine utilizzando un nodo MaskToImage, che viene poi collegato all'input "Mask Image" del nodo IDM-VTON.

  1. Caricamento dell'immagine del capo: Viene utilizzata per caricare l'immagine del capo.
IDM-VTON

Per un approfondimento sul modello IDM-VTON, non perdere l'articolo originale, "Improving Diffusion Models for Authentic Virtual Try-on in the Wild". E se sei interessato a usare IDM-VTON in ComfyUI, assicurati di controllare i nodi dedicati qui. Un enorme grazie ai ricercatori e sviluppatori dietro queste incredibili risorse.

Want More ComfyUI Workflows?

Face to Many | 3D, Emoji, Pixel, Argilla, Giocattolo, Videogioco

utilizza modelli LoRA, ControlNet e InstantID per avanzate trasformazioni face-to-many

Flux Kontext Pulid | Generazione di Personaggi Consistenti

Crea personaggi consistenti utilizzando FLUX Kontext con un'unica immagine di riferimento del volto.

Qwen-Image | Generatore di Poster Multi-Testo in HD

Qwen-Image | Generatore di Poster Multi-Testo in HD

Nuova Era della Generazione di Testo nelle Immagini!

Wan 2.1 Control LoRA | Profondità e Tile

Avanza la generazione video Wan 2.1 con LoRA di profondità e tile leggeri per una struttura e dettagli migliorati.

Portrait Master | Da testo a ritratto

Portrait Master | Da testo a ritratto

Usa Portrait Master per un maggiore controllo sulla creazione di ritratti senza affidarti a prompt complessi.

Stile Argilla con Unsampling

Converti il tuo video in stile argilla usando il metodo Unsampling.

FLUX Kontext Preset | Controllo della Scena

Padroneggia la creazione di scene con preset AI curati e accessibili con un solo clic.

ByteDance USO | Generatore unificato di stile e soggetto

ByteDance USO rende la fusione di soggetto e stile semplice e potente.

Seguici
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Supporto
  • Discord
  • Email
  • Stato del Sistema
  • affiliato
Risorse
  • ComfyUI Online Gratuito
  • Guide di ComfyUI
  • RunComfy API
  • Tutorial ComfyUI
  • Nodi ComfyUI
  • Scopri di Più
Legale
  • Termini di Servizio
  • Informativa sulla Privacy
  • Informativa sui Cookie
RunComfy
Copyright 2026 RunComfy. Tutti i Diritti Riservati.

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.