Dieser Workflow bündelt ComfyUI Grounding in drei praktische Pfade für Bildstapel, einzelne Bilder und Videos. Er verwandelt natürliche Sprachaufforderungen in Objektbegrenzungsrahmen und hochwertige Masken, zeigt dann RGBA-Komposite an oder schreibt annotierte Videos mit erhaltenem Audio. Künstler, Editoren und VFX-Generalisten können schnell Objekte isolieren, Hintergründe entfernen und saubere Overlays für die Komposition erstellen.
Basierend auf offener Vokabularerkennung und moderner Segmentierung ist ComfyUI Grounding zuverlässig für verschiedene Objekte und Szenen. Sie können die Auswahl mit kurzen Aufforderungen steuern, mit Segmentierung verfeinern und die Bildzeit beibehalten, wenn Sie Videos runden.
Der Workflow enthält vier eigenständige Gruppen. Wählen Sie den Pfad, der zu Ihrer Aufgabe passt; jeder kann unabhängig ausgeführt werden.
Dieser Pfad verarbeitet einen Ordner mit Bildern und gibt RGBA-Komposite aus. LoadImagesFromFolderKJ (#9) liest Ihren Stapel, während GroundingModelLoader (#3) Florence-2 einbringt. Geben Sie eine kurze Aufforderung in GroundingDetector (#1) ein, um Boxen um Ihr Ziel vorzuschlagen; passen Sie das Vertrauen an, wenn Sie Fehler oder falsche Positive sehen. DownLoadSAM2Model (#12) lädt SAM 2 und Sam2Segment (#11) konvertiert die Boxen in eine saubere Maske. Optional kehren Sie die Auswahl mit InvertMask (#15) um und zeigen Sie den Ausschnitt mit Alpha mit JoinImageWithAlpha (#14) und PreviewImage (#17) an.
Verwenden Sie dies für schnelle Aufforderungsprüfungen auf einem Einzelbild. LoadImage (#24) bringt Ihr Bild ein und GroundingDetector (#25) zeichnet beschriftete Boxen basierend auf Ihrer Textaufforderung. PreviewImage (#26) zeigt das annotierte Ergebnis, damit Sie die Formulierung vor der Stapel- oder Videobearbeitung iterieren können.
Dieser Pfad erstellt ein einstufiges, textgesteuertes Segmentierungs-Overlay. GroundingMaskModelLoader (#21) lädt das Maskenmodell und LoadImage (#18) liefert den Rahmen. Geben Sie eine beschreibende Anweisung in GroundingMaskDetector (#22) ein, um direkt eine Maske und eine überlagerte Vorschau zu erhalten; PreviewImage (#20) zeigt das Komposit an, während PreviewAny (#19) die aufgelöste Anweisungszeichenfolge anzeigt. Es ist ideal, wenn Sie eine schnelle semantische Auswahl ohne separate Erkennung und Verfeinerung wünschen.
Dieser Pfad überlagert Erkennungen auf Videobildern und kodiert einen synchronisierten Clip neu. VHS_LoadVideo (#32) importiert Bilder und Audio, und GroundingModelLoader (#30) liefert Florence-2. Setzen Sie eine Aufforderung wie "Gesichter" in GroundingDetector (#28), um Boxen pro Bild zu zeichnen. VHS_VideoInfo (#40) leitet die geladene Bildrate an VHS_VideoCombine (#39) weiter, das ein MP4 mit dem Originalaudio und der abgestimmten Zeitachse schreibt. Das Ergebnis ist ein gebrauchsfertiges annotiertes Video zur Überprüfung oder Shot-Planung.
GroundingDetector (#1)Kerndetektor, der Ihre Textaufforderung in Begrenzungsrahmen verwandelt. Erhöhen Sie die Punkteschwelle für weniger falsche Positive; senken Sie sie, wenn das Ziel klein oder teilweise verdeckt ist. Halten Sie Aufforderungen kurz und spezifisch, zum Beispiel "roter Regenschirm" statt langer Sätze. Verwenden Sie diesen Knoten, um sowohl die Segmentierungs- als auch die Visualisierungsstufen im Downstream zu steuern.
Sam2Segment (#11)Verfeinert grobe Boxen in scharfe Masken mit SAM 2. Füttern Sie es mit Boxen von GroundingDetector; fügen Sie nur dann ein paar positive oder negative Punkte hinzu, wenn die Grenze zusätzliche Führung benötigt. Wenn sich das Thema und der Hintergrund umkehren, paaren Sie es mit InvertMask für den beabsichtigten Ausschnitt. Verwenden Sie das Ergebnis überall dort, wo eine Alphamaskierung erforderlich ist.
GroundingMaskDetector (#22)Erzeugt eine semantische Maske direkt aus einer natürlichen Sprachaufforderung. Dies ist am besten, wenn Sie eine Ein-Klick-Auswahl ohne Zusammenstellung einer Erkennungs-zu-Segmentierungs-Kette wünschen. Straffen Sie den Text und erhöhen Sie das Vertrauen, wenn mehrere Regionen aufgenommen werden; erweitern Sie die Formulierung, um Variationen einzuschließen, wenn das Thema verpasst wird.
JoinImageWithAlpha (#14)Komponiert das Originalbild mit der Maske zu einem RGBA-Output für Downstream-Editoren. Verwenden Sie es, wenn Sie transparente Hintergründe, selektive Effekte oder geschichtete Kompositionsarbeiten benötigen. Kombinieren Sie es mit InvertMask, um zwischen der Isolation des Objekts und dem Ausschneiden des Objekts zu wechseln.
VHS_LoadVideo (#32)Teilt ein Video in Bilder auf und extrahiert Audio zur Verarbeitung. Wenn Ihre Quelle eine variable Bildrate hat, verlassen Sie sich auf die geladene Bildrate, die es meldet, um die Zeitkonsistenz zu bewahren. Dieser Knoten ist der Einstiegspunkt für jede bildweise Erkennung oder Segmentierung über einen Clip hinweg.
VHS_VideoCombine (#39)Kodiert verarbeitete Bilder erneut in ein MP4, während Audio erhalten bleibt. Passen Sie die Bildrate an den Wert an, der im Upstream gemeldet wird, um Zeitverschiebungen zu vermeiden. Verwenden Sie das Dateinamenpräfix, um verschiedene Durchläufe in Ihrem Ausgabeverzeichnis organisiert zu halten.
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken PozzettiAndrea für ComfyUI-Grounding für ihre Beiträge und Wartung. Für autoritative Details verweisen wir auf die Originaldokumentation und die unten verlinkten Repositories.
Hinweis: Die Verwendung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen der jeweiligen Autoren und Betreuer.
RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI-Spielplatz, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.