このワークフローは、ComfyUI Grounding を画像バッチ、単一画像、ビデオの3つの実用的なパスにパッケージ化しています。自然言語のプロンプトをオブジェクトのバウンディングボックスと高品質マスクに変換し、RGBA合成をプレビューしたり、音声を保持した注釈付きビデオを書き出します。アーティスト、エディター、VFXジェネラリストは、被写体を迅速に分離し、背景をノックアウトし、クリーンなオーバーレイを生成して合成できます。
オープン語彙検出と最新のセグメンテーションに基づいて構築された ComfyUI Grounding は、さまざまな被写体とシーンに対して信頼性があります。短いプロンプトで選択を駆動し、セグメンテーションで洗練し、ビデオをラウンドトリップするときにフレームタイミングを保持します。
ワークフローは4つの自己完結型グループを含んでいます。タスクに合ったパスを選択し、それぞれを独立して実行できます。
このパスは、画像のフォルダを処理し、RGBA合成を出力します。LoadImagesFromFolderKJ (#9) がバッチを読み込み、GroundingModelLoader (#3) が Florence-2 を取り込みます。GroundingDetector (#1) に短いプロンプトを提供してターゲットの周りにボックスを提案し、見逃しや誤検出がある場合は信頼度を調整します。DownLoadSAM2Model (#12) が SAM 2 をロードし、Sam2Segment (#11) がボックスをクリーンなマスクに変換します。選択をInvertMask (#15) で反転し、JoinImageWithAlpha (#14) と PreviewImage (#17) を使用してアルファ付きで切り抜きをプレビューすることもできます。
単一フレームでのクイックプロンプトチェックに使用します。LoadImage (#24) が画像を取り込み、GroundingDetector (#25) がテキストプロンプトに基づいてラベル付きボックスを描画します。PreviewImage (#26) が注釈付き結果を表示するので、バッチまたはビデオ作業の前に文言を調整できます。
このパスは、テキスト駆動のセグメンテーションオーバーレイをワンステップで作成します。GroundingMaskModelLoader (#21) がマスクモデルをロードし、LoadImage (#18) がフレームを提供します。GroundingMaskDetector (#22) に説明的な指示を入力して、直接マスクとオーバーレイプレビューを取得します。PreviewImage (#20) がコンポジットを表示し、PreviewAny (#19) が解決された指示文字列を表示します。個別の検出と洗練がない場合に、迅速なセマンティック選択を行いたいときに最適です。
このパスは、ビデオフレームに検出をオーバーレイし、同期されたクリップを再エンコードします。VHS_LoadVideo (#32) がフレームとオーディオをインポートし、GroundingModelLoader (#30) が Florence-2 を提供します。GroundingDetector (#28) に「faces」などのプロンプトを設定し、フレームごとにボックスを描画します。VHS_VideoInfo (#40) が読み込まれたフレームレートをVHS_VideoCombine (#39) に転送し、元のオーディオと一致するタイミングでMP4を書き出します。結果はレビューやショットプランニング用の注釈付きビデオですぐに共有できます。
GroundingDetector (#1)テキストプロンプトをバウンディングボックスに変換するコアディテクター。誤検出を減らすためにスコア閾値を上げます。ターゲットが小さいか部分的に隠れている場合は下げます。プロンプトは短く具体的に保ち、「赤い傘」のようにします。このノードを使用して、下流のセグメンテーションと視覚化ステージを駆動します。
Sam2Segment (#11)粗いボックスを SAM 2 を使用して鮮明なマスクに精緻化します。GroundingDetector からボックスを入力し、境界に追加のガイダンスが必要な場合は、いくつかの正または負のポイントを追加します。被写体と背景が反転した場合は、InvertMask と組み合わせて意図した切り抜きを作成します。アルファマットが必要な場所で結果を使用します。
GroundingMaskDetector (#22)自然言語の指示からセマンティックマスクを直接生成します。検出からセグメンテーションへのチェーンを組み立てることなく、ワンクリックで選択を行いたい場合に最適です。複数の領域が選択されている場合はテキストを締め、信頼度を上げます。対象を見逃した場合は文言を広げてバリエーションを含めます。
JoinImageWithAlpha (#14)元の画像をマスクと合成し、下流エディター用のRGBA出力を作成します。透明な背景、選択的な効果、またはレイヤー化された合成作業が必要な場合に使用します。InvertMask と組み合わせて被写体の分離と切り抜きを切り替えます。
VHS_LoadVideo (#32)ビデオをフレームに分割し、オーディオを抽出して処理します。ソースに可変フレームレートがある場合は、一貫したタイミングを保つために報告されるフレームレートに依存します。このノードは、クリップ全体でのフレームごとの検出またはセグメンテーションのエントリーポイントです。
VHS_VideoCombine (#39)処理済みフレームをMP4に再エンコードし、オーディオを保持します。フレームレートを上流で報告された値に一致させ、時間のずれを避けます。出力フォルダに異なる実行を整理するためにファイル名プレフィックスを使用します。
このワークフローは、以下の作品とリソースを実装し、構築しています。ComfyUI-Grounding に対する PozzettiAndrea の貢献と保守に心から感謝します。権威ある詳細については、以下にリンクされたオリジナルのドキュメントとリポジトリを参照してください。
注: 参照されているモデル、データセット、およびコードの使用は、著者およびメンテナーによって提供されるそれぞれのライセンスと条件に従います。
RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Playground, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。