logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>ワークフロー>IDM-VTON | バーチャル試着

IDM-VTON | バーチャル試着

Workflow Name: RunComfy/IDM-VTON
Workflow ID: 0000...1135
IDM-VTON、またはImproving Diffusion Models for Authentic Virtual Try-on in the Wildは、リアルなバーチャル衣装試着を可能にする画期的な拡散モデルです。衣服の独自のディテールとアイデンティティを保持することで、IDM-VTONは非常に本格的な結果を生成します。このモデルは、衣服の高次元のセマンティクスを抽出するImage Prompt Adapter (IP-Adapter)と、低次元の特徴をエンコードするParallel UNet (GarmentNet)を利用しています。ComfyUIでは、IDM-VTONノードが仮想試着プロセスを駆動し、人の画像、ポーズ表現、衣服マスク、衣服画像などの入力を必要とします。

IDM-VTONは、"Improving Diffusion Models for Authentic Virtual Try-on in the Wild"の略で、わずかな入力で衣服をリアルにバーチャル試着できる革新的な拡散モデルです。IDM-VTONの特徴は、衣服の独自のディテールとアイデンティティを保持しながら、非常に本格的なバーチャル試着結果を生成する能力にあります。

1. IDM-VTONの理解

IDM-VTONは、バーチャル試着用に特別に設計された拡散モデルです。使用するには、人の表現と試着したい衣服を用意するだけです。IDM-VTONはその魔法を発揮し、人が実際に衣服を着ているように見える結果を描写します。衣服の忠実性と本物らしさのレベルは、以前の拡散ベースのバーチャル試着方法を超えています。

2. IDM-VTONの内部構造

IDM-VTONはどのようにしてリアルなバーチャル試着を実現するのでしょうか?その秘密は、衣服の入力のセマンティクスをエンコードする2つの主要なモジュールにあります。

  1. 最初のモジュールはイメージプロンプトアダプタ、略してIP-Adapterです。この賢いコンポーネントは、衣服の高次元のセマンティクス、つまり外見を定義する主要な特性を抽出します。そして、この情報をメインのUNet拡散モデルのクロスアテンション層に融合させます。
  2. 二つ目のモジュールはGarmentNetと呼ばれるParallel UNetです。これは衣服の低次元の特徴、つまりそれをユニークにする細かいディテールをエンコードする役割を持っています。これらの特徴は、メインのUNetのセルフアテンション層に融合されます。

しかし、それだけではありません!IDM-VTONは、衣服と人の入力のための詳細なテキストプロンプトも利用します。これらのプロンプトは、最終的なバーチャル試着結果の本物らしさを高めるための追加のコンテキストを提供します。

3. ComfyUIでのIDM-VTONの活用

3.1 主役: IDM-VTONノード

ComfyUIでは、"IDM-VTON"ノードがIDM-VTON拡散モデルを実行し、バーチャル試着の出力を生成するパワーハウスです。

IDM-VTONノードがその魔法を発揮するには、いくつかの重要な入力が必要です:

  1. Pipeline: 仮想試着プロセス全体を駆動する読み込まれたIDM-VTON拡散パイプライン。
  2. Human Input: 衣服をバーチャルに試着する人の画像。
  3. Pose Input: IDM-VTONが人のポーズと体型を理解するのに役立つ、前処理されたDensePose表現。
  4. Mask Input: 人の入力のうち、衣服である部分を示すバイナリマスク。このマスクは適切な形式に変換する必要があります。
  5. Garment Input: バーチャルに試着する衣服の画像。

3.2 準備を整える

IDM-VTONノードを稼働させるためには、いくつかの準備ステップがあります:

  1. 人の画像の読み込み: LoadImageノードを使用して人の画像を読み込みます。 IDM-VTON
  2. ポーズ画像の生成: 人の画像をDensePosePreprocessorノードに通し、IDM-VTONが必要とするDensePose表現を計算します。 IDM-VTON
  3. マスク画像の取得: 衣服マスクを取得する方法は2つあります: IDM-VTON

a. 手動マスキング (推奨)

  • 読み込まれた人の画像を右クリックし、"Open in Mask Editor"を選択します。
  • マスクエディタUIで、衣服の領域を手動でマスクします。

b. 自動マスキング

  • GroundingDinoSAMSegmentノードを使用して衣服を自動的にセグメントします。
  • ノードに衣服のテキスト説明 ("t-shirt"など) をプロンプトします。

どちらの方法を選んでも、取得したマスクはMaskToImageノードを使用して画像に変換し、IDM-VTONノードの"Mask Image"入力に接続する必要があります。

  1. 衣服画像の読み込み: 衣服の画像を読み込むために使用されます。
IDM-VTON

IDM-VTONモデルをより深く理解するために、オリジナルペーパー"Improving Diffusion Models for Authentic Virtual Try-on in the Wild"をお見逃しなく。そして、ComfyUIでIDM-VTONを使用することに興味がある方は、専用ノードをこちらでチェックしてください。これらの素晴らしいリソースを提供してくださった研究者と開発者の皆様に心より感謝いたします。

Want More ComfyUI Workflows?

Stable Cascade | テキストから画像へ

Stable Cascade | テキストから画像へ

Stable Cascadeは、プロンプトの整合性と美的品質に優れたテキスト・ツー・イメージモデルです。

Segment Anything V2 (SAM2) | 動画セグメンテーション

比類のない精度での動画のオブジェクトセグメンテーション。

AnimateDiff + ControlNet | アニメーションスタイル

ビデオを活気あるアニメーションに変換して、遊び心のあるひねりを加えましょう。

CogVideoX Tora | 画像から動画へのモデル

CogVideoXのための主題軌道ビデオデモ

Blender + ComfyUI | AIレンダリング3Dアニメーション

Blenderを使用して3Dシーンを設定し、画像シーケンスを生成し、その後ComfyUIを使用してAIレンダリングを行います。

InstantID | 肖像をアートに

InstantID | 肖像をアートに

InstantIDは、スタイルと美的魅力を備えた肖像画を正確に強調し、変換します。

CogVideoX-5B | 高度なテキストからビデオへのモデル

CogVideoX-5B:高品質なビデオ生成のための高度なテキストからビデオへのモデル。

ComfyUI + TouchDesigner | オーディオリアクティブビジュアル

ComfyUIでビジュアルをレンダリングし、TouchDesignerでオーディオを同期させて、ダイナミックなオーディオリアクティブ動画を作成します。

フォローする
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
サポート
  • Discord
  • メール
  • システムステータス
  • アフィリエイト
リソース
  • 無料のComfyUIオンライン
  • ComfyUIガイド
  • RunComfy API
  • ComfyUIチュートリアル
  • ComfyUIノード
  • 詳細を見る
法的情報
  • 利用規約
  • プライバシーポリシー
  • Cookieポリシー
RunComfy
著作権 2025 RunComfy. All Rights Reserved.

RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Playground, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。