logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>Workflow>IDM-VTON | Prova Virtuale

IDM-VTON | Prova Virtuale

Workflow Name: RunComfy/IDM-VTON
Workflow ID: 0000...1135
IDM-VTON, o Miglioramento dei modelli di diffusione per la prova d'abbigliamento virtuale autentica nel mondo reale, è un modello di diffusione rivoluzionario che consente una prova d'abbigliamento virtuale realistica. Preservando i dettagli unici e l'identità dei capi, IDM-VTON genera risultati incredibilmente autentici. Il modello utilizza un adattatore di prompt immagine (IP-Adapter) per estrarre le semantiche dei capi di alto livello e un UNet parallelo (GarmentNet) per codificare le caratteristiche di basso livello. In ComfyUI, il nodo IDM-VTON alimenta il processo di prova virtuale, richiedendo input come un'immagine umana, una rappresentazione della posa, una maschera d'abbigliamento e un'immagine del capo.

IDM-VTON, abbreviazione di "Miglioramento dei modelli di diffusione per la prova d'abbigliamento virtuale autentica nel mondo reale," è un modello di diffusione innovativo che ti permette di provare realisticamente i capi virtualmente utilizzando solo pochi input. Ciò che distingue IDM-VTON è la sua capacità di preservare i dettagli unici e l'identità dei capi generando risultati di prova virtuali che sembrano incredibilmente autentici.

1. Comprendere IDM-VTON

Alla base, IDM-VTON è un modello di diffusione progettato specificamente per la prova virtuale. Per usarlo, hai semplicemente bisogno di una rappresentazione di una persona e di un capo che vuoi provare. IDM-VTON poi fa la sua magia, rendendo un risultato che sembra che la persona stia effettivamente indossando il capo. Raggiunge un livello di fedeltà e autenticità dei capi che supera i precedenti metodi di prova virtuale basati sulla diffusione.

2. Il funzionamento interno di IDM-VTON

Allora, come fa IDM-VTON a realizzare una prova virtuale così realistica? Il segreto sta nei suoi due moduli principali che lavorano insieme per codificare le semantiche dell'input del capo:

  1. Il primo è un adattatore di prompt immagine, o IP-Adapter in breve. Questo componente intelligente estrae le semantiche di alto livello del capo - essenzialmente, le caratteristiche chiave che definiscono il suo aspetto. Queste informazioni vengono poi fuse nel livello di attenzione incrociata del modello UNet principale di diffusione.
  2. Il secondo modulo è un UNet parallelo chiamato GarmentNet. Il suo compito è codificare le caratteristiche di basso livello del capo - i dettagli nitidi che lo rendono unico. Queste caratteristiche vengono poi fuse nel livello di autoattenzione del modello UNet principale.

Ma non è tutto! IDM-VTON utilizza anche prompt testuali dettagliati sia per il capo che per gli input della persona. Questi prompt forniscono un contesto aggiuntivo che migliora l'autenticità del risultato finale della prova virtuale.

3. Mettere al lavoro IDM-VTON in ComfyUI

3.1 La star dello spettacolo: Il nodo IDM-VTON

In ComfyUI, il nodo "IDM-VTON" è il motore che esegue il modello di diffusione IDM-VTON e genera l'output della prova virtuale.

Per far funzionare il nodo IDM-VTON, sono necessari alcuni input chiave:

  1. Pipeline: Questa è la pipeline di diffusione IDM-VTON caricata che alimenta l'intero processo di prova virtuale.
  2. Human Input: Un'immagine della persona che proverà virtualmente il capo.
  3. Pose Input: Una rappresentazione DensePose preprocessata dell'input umano, che aiuta IDM-VTON a comprendere la posa e la forma del corpo della persona.
  4. Mask Input: Una maschera binaria che indica quali parti dell'input umano sono abbigliamento. Questa maschera deve essere convertita in un formato appropriato.
  5. Garment Input: Un'immagine del capo da provare virtualmente.

3.2 Preparare tutto

Per far funzionare il nodo IDM-VTON, ci sono alcuni passaggi di preparazione:

  1. Caricamento dell'immagine umana: Si utilizza un nodo LoadImage per caricare l'immagine della persona. <img src="https://cdn.runcomfy.net/workflow_assets/1135/readme01.webp" alt="IDM-VTON" width="500" />
  2. Generazione dell'immagine della posa: L'immagine umana viene passata attraverso un nodo DensePosePreprocessor, che calcola la rappresentazione DensePose di cui IDM-VTON ha bisogno. <img src="https://cdn.runcomfy.net/workflow_assets/1135/readme02.webp" alt="IDM-VTON" width="500" />
  3. Ottenere l'immagine della maschera: Ci sono due modi per ottenere la maschera dell'abbigliamento: <img src="https://cdn.runcomfy.net/workflow_assets/1135/readme03.webp" alt="IDM-VTON" width="500" />

a. Mascheramento manuale (consigliato)

  • Fare clic con il tasto destro sull'immagine umana caricata e scegliere "Apri nell'editor di maschere."
  • Nell'interfaccia dell'editor di maschere, maschera manualmente le regioni dell'abbigliamento.

b. Mascheramento automatico

  • Utilizzare un nodo GroundingDinoSAMSegment per segmentare automaticamente l'abbigliamento.
  • Suggerire al nodo una descrizione testuale del capo (come "t-shirt").

Qualunque metodo tu scelga, la maschera ottenuta deve essere convertita in un'immagine utilizzando un nodo MaskToImage, che viene poi collegato all'input "Mask Image" del nodo IDM-VTON.

  1. Caricamento dell'immagine del capo: Viene utilizzata per caricare l'immagine del capo.
IDM-VTON

Per un approfondimento sul modello IDM-VTON, non perdere l'articolo originale, "Improving Diffusion Models for Authentic Virtual Try-on in the Wild". E se sei interessato a usare IDM-VTON in ComfyUI, assicurati di controllare i nodi dedicati qui. Un enorme grazie ai ricercatori e sviluppatori dietro queste incredibili risorse.

Want More ComfyUI Workflows?

Hunyuan3D | ComfyUI 3D Pack

Crea prima immagini RGB da più viste, quindi trasformale in asset 3D.

Stable Cascade | Da testo a immagine

Stable Cascade | Da testo a immagine

Stable Cascade, un modello text-to-image che eccelle nell'allineamento del prompt e nell'estetica.

LBM Relighting | I2I

Illumina nuovamente i soggetti utilizzando input di illuminazione basati su immagini con LBM.

ComfyUI Grounding | Workflow di Tracciamento Oggetti

Traccia qualsiasi soggetto con precisione pixel-perfetta per risultati VFX straordinari.

AnimateDiff + Prompt Dinamici | Da Testo a Video

Utilizza i Prompt Dinamici (Wildcards), Animatediff e IP-Adapter per generare animazioni o GIF dinamiche.

LivePortrait | Animate Portraits | Vid2Vid

Aggiornato 16/06/2025: Versione di ComfyUI aggiornata alla v0.3.39 per una migliore stabilità e compatibilità. Trasferisci espressioni facciali e movimenti da un video di guida a un video sorgente

Z Image ControlNet | Generatore di Immagini di Precisione

Controllo totale su pose, bordi e layout di profondità delle immagini.

SVD (Stable Video Diffusion) + SD | Da testo a video

Integra Stable Diffusion e Stable Video Diffusion per convertire il testo direttamente in video.

Seguici
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Supporto
  • Discord
  • Email
  • Stato del Sistema
  • affiliato
Risorse
  • ComfyUI Online Gratuito
  • Guide di ComfyUI
  • RunComfy API
  • Tutorial ComfyUI
  • Nodi ComfyUI
  • Scopri di Più
Legale
  • Termini di Servizio
  • Informativa sulla Privacy
  • Informativa sui Cookie
RunComfy
Copyright 2026 RunComfy. Tutti i Diritti Riservati.

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.