SAM 3.1 ComfyUI-Workflow für promptgesteuerte Segmentierung, Begrenzungsrahmen-Vorschau und Videoverfolgung#
Dieser SAM 3.1 ComfyUI-Workflow bietet native, promptfähige Bildsegmentierung mit sofortiger Begrenzungsrahmen-Visualisierung und frame-genauer Video-Objektverfolgung mit Maskenextraktion. Er verwendet die eingebauten comfy-core SAM 3.1-Knoten, sodass Sie erstklassige Leistung und Stabilität ohne benutzerdefinierte Drittanbieter-Knoten erhalten. Das Ergebnis sind schnelle, wiederverwendbare Masken für Komposition, Isolierung oder nachgelagerte Bearbeitung in Standbildern und vollständigen Videos.
Entworfen für Künstler, Editoren und Pipeline-Ingenieure, ermöglicht SAM 3.1 ComfyUI den einfachen Start mit einem Text-Hinweis oder einem Begrenzungsrahmen, validiert die Auswahl an Ort und Stelle und propagiert dann eine saubere Maske durch einen gesamten Clip. Im Hintergrund lädt es das sam3.1_multiplex_fp16-Checkpoint und führt die offiziellen SAM3_Detect, SAM3_VideoTrack, SAM3_TrackToMask und SAM3_TrackPreview-Knoten aus, die als native Unterstützung zu ComfyUI hinzugefügt wurden. Siehe die Modellsammlungen auf Hugging Face und die ComfyUI-Pull-Anfrage für Hintergrundinformationen: Comfy-Org/sam3.1, ComfyUI PR #13408.
Schlüsselmodelle im Comfyui SAM 3.1 ComfyUI-Workflow#
- Comfy-Org SAM 3.1 Multiplex FP16 Checkpoint. Die sam3.1_multiplex_fp16-Gewichte ermöglichen promptfähige Bildsegmentierung und den Tracker, der von den SAM 3.1-Knoten verwendet wird. Laden Sie es mit
CheckpointLoaderSimpleund es liefert das Modell und die Text-Konditionierung, die im gesamten Workflow verwendet werden. Quelle: Comfy-Org/sam3.1.
So verwenden Sie den Comfyui SAM 3.1 ComfyUI-Workflow#
Der Graph hat zwei unabhängige Bahnen. Image Masking ermöglicht es Ihnen, ein Standbild zu segmentieren und Begrenzungsrahmen für eine schnelle Qualitätsprüfung anzuzeigen. Video Masking initialisiert eine Maske auf einem Referenzframe, verfolgt das Objekt über den Clip, zeigt die Verfolgungsvorschau an und exportiert Masken zur Bearbeitung oder Komposition.
Image Masking#
Diese Bahn ist ideal für einzelne Frames oder zum Prototyping Ihres Prompts, bevor Sie die Verfolgung durchführen. Beginnen Sie mit dem Laden eines Bildes mit LoadImage (#4) und schreiben Sie einen kurzen Text-Hinweis in CLIPTextEncode (#3), zum Beispiel "ein Vogel" oder "rotes Auto". Die Textkonditionierung und das Bild werden an SAM3_Detect (#1) übergeben, das sowohl eine Maske als auch automatische Begrenzungsrahmen um das erkannte Subjekt zurückgibt. Verwenden Sie MaskPreview+ (#5), um die Maske visuell zu inspizieren, und DrawBBoxes (#6) plus PreviewImage (#7), um die Platzierung des Rahmens zu bestätigen. Wenn die Auswahl mehrdeutig ist, verfeinern Sie den Text, fügen Sie positive oder negative Punkte hinzu oder geben Sie einen engeren Rahmen an, um SAM 3.1 ComfyUI auf das beabsichtigte Objekt zu lenken.
Video Masking#
Diese Bahn skaliert die gleiche promptfähige Segmentierung auf vollständige Clips. Laden Sie ein Video in VHS_LoadVideoPath (#12); es liefert Frames und Metadaten an den Rest des Graphen. Ein Referenzframe wird mit ImageFromBatch (#15) ausgewählt und textuell über CLIPTextEncode (#14) beschrieben. SAM3_Detect (#13) erzeugt die anfängliche Maske auf diesem Frame, die als Ausgangspunkt für SAM3_VideoTrack (#8) dient, um das Objekt in den verbleibenden Frames mit demselben Modell und derselben Textkonditionierung zu verfolgen. Konvertieren Sie die resultierende Verfolgung in Frame-genaue Masken mit SAM3_TrackToMask (#9). Für eine schnelle binäre Vorschau oder um Vordergrund/Hintergrund zu invertieren, gehen die Masken durch InvertMask (#19) und MaskToImage (#16), dann kann VHS_VideoCombine (#17) ein einfaches Masken-Video rendern. Für einen interaktiven Blick auf das Ergebnis über die Original-Frames spielt SAM3_TrackPreview (#10) die Überlagerung in der von VHS_VideoInfoLoaded (#18) bereitgestellten Quell-Bildrate ab. Passen Sie den Startframe oder den Prompt an, wenn Sie Drift bemerken, und führen Sie dann erneut aus, um die Verfolgung zu sperren, bevor Sie exportieren.
Schlüssel-Knoten im Comfyui SAM 3.1 ComfyUI-Workflow#
SAM3_Detect (#1)#
Erzeugt eine Objektmaske und Begrenzungsrahmen für ein Standbild basierend auf Ihrem Prompt und optionalen Punkten oder Rahmen. Verwenden Sie es, um Ihre Subjektauswahl schnell in SAM 3.1 ComfyUI zu validieren. Wenn die Maske zu breit erscheint oder Ähnlichkeiten einschließt, verfeinern Sie die textuelle Beschreibung oder zeichnen Sie einen präziseren Rahmen, um die Trennung zu verbessern.
SAM3_Detect (#13)#
Initialisiert den Video-Tracker, indem es eine saubere Maske auf einem ausgewählten Referenzframe erzeugt. Die Verfolgungsqualität in SAM 3.1 ComfyUI hängt stark von diesem Ausgangspunkt ab, daher wählen Sie einen Frame, in dem das Ziel sichtbar und minimal verdeckt ist. Wenn sich das Subjekt später im Aussehen ändert, beginnen Sie von einem anderen Frame neu und kombinieren Sie die Ergebnisse in Ihrem Editor.
SAM3_VideoTrack (#8)#
Überträgt die anfängliche Maske durch den Clip mit demselben Modell und Text-Hinweis. Halten Sie die Konditionierung konsistent mit dem Ausgangspunkt, um das Anhaften an ähnliche Objekte zu vermeiden. Bei der Verfolgung eines kleinen oder schnell bewegten Subjekts beginnen Sie mit einem Frame mit einem sicheren Ausgangspunkt und erwägen Sie, das Segment zu verkürzen, wenn sich Beleuchtung oder Maßstab stark ändern.
SAM3_TrackToMask (#9)#
Konvertiert die Tracker-Ausgabe in eine Maskensequenz zum Exportieren. Sie können alle Frames ausgeben oder eine Teilmenge durch Eingabe von Indizes oder einfachen Bereichen auswählen. Dies ist der Übergabepunkt, um entweder eine Video-Vorschau zu schreiben oder eine PNG-Sequenz zum Komponieren in Ihrem bevorzugten Tool zu speichern.
SAM3_TrackPreview (#10)#
Spielt das verfolgte Ergebnis über den Original-Frames zur sofortigen Qualitätskontrolle ab. Die Vorschau verwendet die von VHS_VideoInfoLoaded (#18) gemeldete Quell-Bildrate, sodass das Timing Ihrem Clip entspricht. Verwenden Sie es, um Drift, Verdeckungsfehler oder Identitätswechsel zu erkennen, bevor Sie sich zu einem vollständigen Export entscheiden.
Optionale Extras#
- Verwenden Sie Begrenzungsrahmen, um zu unterscheiden, wenn Ihr Text-Hinweis mehreren Subjekten im Frame entspricht.
- Wenn sich das Ziel in Maßstab oder Beleuchtung im Clip ändert, teilen Sie das Video in logische Segmente und initialisieren Sie
SAM3_Detect(#13) pro Segment neu für stabilere Verfolgung. - Für Masken-Exporte als Bildsequenz leiten Sie
SAM3_TrackToMask(#9) an einenSaveImage-Knoten anstelle vonVHS_VideoCombine(#17). - Halten Sie Prompts kurz und spezifisch. In SAM 3.1 ComfyUI übertreffen prägnante Nomen mit einem Schlüsselattribut oft lange Prosa.
- Wenn Sie nur eine Standbildmaske aus einem bestimmten Frame benötigen, führen Sie das Image Masking direkt auf diesem Frame aus, um die Verfolgung zu umgehen und Zeit zu sparen.
Danksagungen#
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Innovate Futures @ Benji für den ComfyUI mit SAM 3.1 Segmentierungs-Workflow, Comfy-Org für die SAM 3.1 Modell-Dateien und Comfy-Org für die Native ComfyUI SAM 3.1 Support PR für ihre Beiträge und Wartung. Für autoritative Details verweisen wir auf die originale Dokumentation und die unten verlinkten Repositories.
Ressourcen#
- Innovate Futures @ Benji/Workflow-Quelle
- Comfy-Org/SAM 3.1 Modell-Dateien
- GitHub: facebookresearch/sam3
- Hugging Face: Comfy-Org/sam3.1
- arXiv: SAM 3: Segment Anything with Concepts (2511.16719)
- Docs / Release Notes: RELEASE_SAM3p1.md
- Comfy-Org/Native ComfyUI SAM 3.1 Support PR
- GitHub: Comfy-Org/ComfyUI#13408
Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.
