ComfyUI Grounding: プロンプトによる検出、ピクセル精度のセグメンテーション、ビデオオーバーレイ
このワークフローは、ComfyUI Grounding を画像バッチ、単一画像、ビデオの3つの実用的なパスにパッケージ化しています。自然言語のプロンプトをオブジェクトのバウンディングボックスと高品質マスクに変換し、RGBA合成をプレビューしたり、音声を保持した注釈付きビデオを書き出します。アーティスト、エディター、VFXジェネラリストは、被写体を迅速に分離し、背景をノックアウトし、クリーンなオーバーレイを生成して合成できます。
オープン語彙検出と最新のセグメンテーションに基づいて構築された ComfyUI Grounding は、さまざまな被写体とシーンに対して信頼性があります。短いプロンプトで選択を駆動し、セグメンテーションで洗練し、ビデオをラウンドトリップするときにフレームタイミングを保持します。
Comfyui ComfyUI Grounding ワークフローの主要モデル
- Microsoft Florence-2 Large。自然言語のプロンプトからのオープン語彙検出をサポートするビジョンラングエージモデルで、任意のオブジェクトに対する柔軟なボックス提案を可能にします。Model card
- Segment Anything 2 (SAM 2)。ポイントやボックスを鮮明なマスクに変換するセグメンテーション基盤モデルで、ここでは Florence-2 の検出をピクセル単位の選択に洗練します。Repository
Comfyui ComfyUI Grounding ワークフローの使い方
ワークフローは4つの自己完結型グループを含んでいます。タスクに合ったパスを選択し、それぞれを独立して実行できます。
バッチ - ノーマル
このパスは、画像のフォルダを処理し、RGBA合成を出力します。LoadImagesFromFolderKJ (#9) がバッチを読み込み、GroundingModelLoader (#3) が Florence-2 を取り込みます。GroundingDetector (#1) に短いプロンプトを提供してターゲットの周りにボックスを提案し、見逃しや誤検出がある場合は信頼度を調整します。DownLoadSAM2Model (#12) が SAM 2 をロードし、Sam2Segment (#11) がボックスをクリーンなマスクに変換します。選択をInvertMask (#15) で反転し、JoinImageWithAlpha (#14) と PreviewImage (#17) を使用してアルファ付きで切り抜きをプレビューすることもできます。
ノーマル - 画像
単一フレームでのクイックプロンプトチェックに使用します。LoadImage (#24) が画像を取り込み、GroundingDetector (#25) がテキストプロンプトに基づいてラベル付きボックスを描画します。PreviewImage (#26) が注釈付き結果を表示するので、バッチまたはビデオ作業の前に文言を調整できます。
セグメント - マスク
このパスは、テキスト駆動のセグメンテーションオーバーレイをワンステップで作成します。GroundingMaskModelLoader (#21) がマスクモデルをロードし、LoadImage (#18) がフレームを提供します。GroundingMaskDetector (#22) に説明的な指示を入力して、直接マスクとオーバーレイプレビューを取得します。PreviewImage (#20) がコンポジットを表示し、PreviewAny (#19) が解決された指示文字列を表示します。個別の検出と洗練がない場合に、迅速なセマンティック選択を行いたいときに最適です。
ノーマル - ビデオ
このパスは、ビデオフレームに検出をオーバーレイし、同期されたクリップを再エンコードします。VHS_LoadVideo (#32) がフレームとオーディオをインポートし、GroundingModelLoader (#30) が Florence-2 を提供します。GroundingDetector (#28) に「faces」などのプロンプトを設定し、フレームごとにボックスを描画します。VHS_VideoInfo (#40) が読み込まれたフレームレートをVHS_VideoCombine (#39) に転送し、元のオーディオと一致するタイミングでMP4を書き出します。結果はレビューやショットプランニング用の注釈付きビデオですぐに共有できます。
Comfyui ComfyUI Grounding ワークフローの主要ノード
GroundingDetector (#1)
テキストプロンプトをバウンディングボックスに変換するコアディテクター。誤検出を減らすためにスコア閾値を上げます。ターゲットが小さいか部分的に隠れている場合は下げます。プロンプトは短く具体的に保ち、「赤い傘」のようにします。このノードを使用して、下流のセグメンテーションと視覚化ステージを駆動します。
Sam2Segment (#11)
粗いボックスを SAM 2 を使用して鮮明なマスクに精緻化します。GroundingDetector からボックスを入力し、境界に追加のガイダンスが必要な場合は、いくつかの正または負のポイントを追加します。被写体と背景が反転した場合は、InvertMask と組み合わせて意図した切り抜きを作成します。アルファマットが必要な場所で結果を使用します。
GroundingMaskDetector (#22)
自然言語の指示からセマンティックマスクを直接生成します。検出からセグメンテーションへのチェーンを組み立てることなく、ワンクリックで選択を行いたい場合に最適です。複数の領域が選択されている場合はテキストを締め、信頼度を上げます。対象を見逃した場合は文言を広げてバリエーションを含めます。
JoinImageWithAlpha (#14)
元の画像をマスクと合成し、下流エディター用のRGBA出力を作成します。透明な背景、選択的な効果、またはレイヤー化された合成作業が必要な場合に使用します。InvertMask と組み合わせて被写体の分離と切り抜きを切り替えます。
VHS_LoadVideo (#32)
ビデオをフレームに分割し、オーディオを抽出して処理します。ソースに可変フレームレートがある場合は、一貫したタイミングを保つために報告されるフレームレートに依存します。このノードは、クリップ全体でのフレームごとの検出またはセグメンテーションのエントリーポイントです。
VHS_VideoCombine (#39)
処理済みフレームをMP4に再エンコードし、オーディオを保持します。フレームレートを上流で報告された値に一致させ、時間のずれを避けます。出力フォルダに異なる実行を整理するためにファイル名プレフィックスを使用します。
オプションのエクストラ
- ComfyUI Grounding のプロンプトを短く名詞中心に保ち、必要に応じて1つまたは2つの属性を追加します。たとえば、「黄色のショベルカー」や「眼鏡をかけたリードシンガー」などです。
- 賑やかなシーンでは、ディテクターの信頼度を上げ、最大ボックス数を減らして結果を安定させてから、SAM 2 にボックスを送ります。
- ビデオを準備する際は、インポート時にトリムまたはサブサンプルして高速な反復を行い、最終レンダリングのためにフルフレーム数に戻します。
- 主にボックスコントロールなしでセマンティックマスクが必要な場合は、セグメント - マスク パスを実行します。それ以外の場合は、精密なエッジを得るためにディテクターと SAM 2 ルートを好みます。
- ノードは ComfyUI Grounding 拡張から来ています。プロジェクトを参照して更新とサポートされているモデルを確認してください。Repository
謝辞
このワークフローは、以下の作品とリソースを実装し、構築しています。ComfyUI-Grounding に対する PozzettiAndrea の貢献と保守に心から感謝します。権威ある詳細については、以下にリンクされたオリジナルのドキュメントとリポジトリを参照してください。
リソース
- PozzettiAndrea/ComfyUI-Grounding
- GitHub: ComfyUI-Grounding
注: 参照されているモデル、データセット、およびコードの使用は、著者およびメンテナーによって提供されるそれぞれのライセンスと条件に従います。

