このワークフローは、SAM 3をComfyUIに導入し、画像とビデオの両方で高速かつ正確なオブジェクト検出とセグメンテーションを実現します。VFX、ロトスコーピング、合成、AI支援編集のために信頼できるマスクを必要とするアーティストや技術ユーザー向けに設計されています。テキストプロンプト、ボックス選択、フレーム間の伝播を使用して、SAM 3は複雑なシーンでも一貫したマスクを提供します。
グラフには2つの画像パイプラインと1つのビデオパイプラインが含まれています。ターゲットをテキストで説明するか、周囲にボックスを描くか、最初のビデオフレームで初期化し、SAM 3がクリップ全体を通じてマスクを伝播させるかでセグメント化できます。ワークフローは結果をインラインでプレビューし、ビジュアライゼーションオーバーレイとマスクのみの出力を保存します。
一目でわかるように、ワークフローには3つのレーンがあります:セマンティックテキストプロンプトを使用した画像、ボックスプロンプトを使用した画像、初期化および伝播を伴うビデオ。すべてのレーンは同じSAM 3の重みを使用し、プレビューと保存で収束します。
画像グループはLoadImage (#4)で画像をロードし、LoadSAM3Model (#1)でSAM 3の重みをロードします。そこから、画像は2つの代替SAM 3セグメンテーションブランチに流れ、クリーンなマスクを得るための最速の方法を選択できます。各ブランチは迅速なQCのためのビジュアライゼーションオーバーレイと下流作業のためのバイナリマスクを返します。高品質なSAM 3マスクをすぐに必要とする場合は、画像レーンを使用してください。
このパスは言語の手がかりでセグメント化します。DeepTranslatorTextNode (#16)を使用して、希望する言語で自然言語の説明を入力し、それがSAM3Segmentation (#82)にルーティングされます。SAM 3はテキストを解釈し、マスクとカラー化されたオーバーレイを返します。これをSaveImage (#23)を介して保存し、MaskPreview (#15)で確認できます。最良の結果を得るためには、短く具体的な名詞を使用し、複数のオブジェクトが一致する場合は、より具体的にすることで精度を高めます。
このパスは関心領域ボックスでセグメント化します。SAM3BBoxCollector (#84)を使用して、望むものの周囲に1つ以上のボックスを描き、SAM3Segmentation (#81)を実行して、それらのボックスに基づいてマスクを計算します。近くの気を散らすものを抑制するために除外ボックスを追加し、よりタイトなSAM 3マスクを得ることができます。結果はPreviewImage (#65)とMaskPreview (#66)でプレビューされ、コンプ作業のためにエクスポートできます。
ビデオグループはVHS_LoadVideo (#75)を使用してVideo Helper Suiteからクリップをロードし、SAM3VideoModelLoader (#69)でモデルを初期化します。SAM3VideoSegmentation (#78)を使用して、最初のフレームで初期選択を設定します。必要に応じてSAM3PointCollector (#79)やボックスを使用して支援します。その後、SAM3Propagate (#77)がクリップを通じて前後にSAM 3を駆動し、動きや遮蔽がある場合でも一貫したマスクを維持します。SAM3VideoOutput (#76)はオーバーレイビジュアライゼーションとフレームごとのマスクを生成し、CreateVideo (#70, #74)でMP4に変換し、SaveVideo (#71, #72)で保存します。編集や合成のためにクリーンで時間的に安定したSAM 3マスクが必要な場合は、このレーンを使用してください。
LoadSAM3Model (#1)
画像タスクのためにSAM 3の重みをロードします。重みを交換する場合は、画像レーンを一貫させて、プレビューと保存が同じSAM 3バックボーンを反映するようにしてください。
SAM3Segmentation (#82)
テキスト駆動の画像セグメンテーション。ターゲットクラスを説明する明確なテキストプロンプトを提供します。複数のオブジェクトが検出された場合は、説明をより具体的にするか、複数回実行して別々のSAM 3マスクを収集します。
SAM3Segmentation (#81)
ボックス駆動の画像セグメンテーション。オブジェクトの周囲に1つ以上のタイトなボックスを描きます。マスクが流出する場合は、隣接する領域を除外するために追加のボックスを使用し、その後再実行してSAM 3の出力を精緻化します。
SAM3VideoModelLoader (#69)
クリップレーンのためにSAM 3ビデオモデルを初期化します。静止画と映像の外観を一致させる場合は、画像モデルの選択と一貫させてください。
SAM3VideoSegmentation (#78)
テキスト、ポイント、またはボックスを使用して最初のフレームで初期選択を設定します。最もシンプルな手がかりで、被写体をクリーンに分離することから始めます。最初のフレームのマスクが完璧であれば、残りのビデオ全体での伝播が簡単かつ迅速になります。
SAM3Propagate (#77)
シーケンスを通じて初期マスクを伝播します。被写体が高速で動いたり、スケールが変わったり、一部が遮蔽されたりする場合に、その動作を調整します。シーンの変更やカット後にドリフトが発生した場合は、カット付近で再初期化し、再度伝播してSAM 3の結果を安定させます。
SAM3VideoOutput (#76)
伝播されたSAM 3マスクとビジュアライゼーションオーバーレイをパッケージ化します。オーバーレイMP4を使用して、各フレームの品質を確認し、マスクのみのMP4をコンプまたは編集に直接取り込むために使用します。
SAM3BBoxCollector (#84)
画像選択のためのインタラクティブボックストール。タイトなポジティブボックスとオプションのネガティブボックスを描いて、SAM 3を正確な境界に導き、プレビューして反復します。
SAM3PointCollector (#79)
ビデオ初期化のためのインタラクティブポイントツール。最初のフレームで、テキストやボックスだけではあいまいな場合に、いくつかの適切に配置されたポジティブおよびネガティブクリックを追加します。
VHS_LoadVideo (#75)
Video Helper Suite Kosinkadink/ComfyUI-VideoHelperSuiteからのビデオ取り込み。クリップをロードし、フレームを確認し、SAM 3ビデオノードに画像を手渡して初期化と伝播を行います。
このワークフローは、以下の作品やリソースを実装および構築しています。PozzettiAndreaのComfyUI-SAM3に対する貢献とメンテナンスに感謝します。権威ある詳細については、以下にリンクされた元のドキュメントおよびリポジトリを参照してください。
注意: 参照されているモデル、データセット、およびコードの使用は、それぞれの著者および管理者によって提供されたライセンスおよび条件に従います。
RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Playground, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。