ComfyUI Grounding: Angeregte Erkennung, pixelgenaue Segmentierung und Video-Overlays
Dieser Workflow bündelt ComfyUI Grounding in drei praktische Pfade für Bildstapel, einzelne Bilder und Videos. Er verwandelt natürliche Sprachaufforderungen in Objektbegrenzungsrahmen und hochwertige Masken, zeigt dann RGBA-Komposite an oder schreibt annotierte Videos mit erhaltenem Audio. Künstler, Editoren und VFX-Generalisten können schnell Objekte isolieren, Hintergründe entfernen und saubere Overlays für die Komposition erstellen.
Basierend auf offener Vokabularerkennung und moderner Segmentierung ist ComfyUI Grounding zuverlässig für verschiedene Objekte und Szenen. Sie können die Auswahl mit kurzen Aufforderungen steuern, mit Segmentierung verfeinern und die Bildzeit beibehalten, wenn Sie Videos runden.
Wichtige Modelle im Comfyui ComfyUI Grounding-Workflow
- Microsoft Florence-2 Large. Ein Vision-Language-Modell, das offene Vokabularerkennung aus natürlichen Sprachaufforderungen unterstützt und flexible Box-Vorschläge für beliebige Objekte ermöglicht. Model card
- Segment Anything 2 (SAM 2). Ein Segmentierungsmodell, das Punkte oder Boxen in scharfe Masken verwandelt; hier verfeinert es Florence-2-Erkennungen in pixelgenaue Auswahl. Repository
So verwenden Sie den Comfyui ComfyUI Grounding-Workflow
Der Workflow enthält vier eigenständige Gruppen. Wählen Sie den Pfad, der zu Ihrer Aufgabe passt; jeder kann unabhängig ausgeführt werden.
Batch - Normal
Dieser Pfad verarbeitet einen Ordner mit Bildern und gibt RGBA-Komposite aus. LoadImagesFromFolderKJ (#9) liest Ihren Stapel, während GroundingModelLoader (#3) Florence-2 einbringt. Geben Sie eine kurze Aufforderung in GroundingDetector (#1) ein, um Boxen um Ihr Ziel vorzuschlagen; passen Sie das Vertrauen an, wenn Sie Fehler oder falsche Positive sehen. DownLoadSAM2Model (#12) lädt SAM 2 und Sam2Segment (#11) konvertiert die Boxen in eine saubere Maske. Optional kehren Sie die Auswahl mit InvertMask (#15) um und zeigen Sie den Ausschnitt mit Alpha mit JoinImageWithAlpha (#14) und PreviewImage (#17) an.
Normal - Bild
Verwenden Sie dies für schnelle Aufforderungsprüfungen auf einem Einzelbild. LoadImage (#24) bringt Ihr Bild ein und GroundingDetector (#25) zeichnet beschriftete Boxen basierend auf Ihrer Textaufforderung. PreviewImage (#26) zeigt das annotierte Ergebnis, damit Sie die Formulierung vor der Stapel- oder Videobearbeitung iterieren können.
Segment - Maske
Dieser Pfad erstellt ein einstufiges, textgesteuertes Segmentierungs-Overlay. GroundingMaskModelLoader (#21) lädt das Maskenmodell und LoadImage (#18) liefert den Rahmen. Geben Sie eine beschreibende Anweisung in GroundingMaskDetector (#22) ein, um direkt eine Maske und eine überlagerte Vorschau zu erhalten; PreviewImage (#20) zeigt das Komposit an, während PreviewAny (#19) die aufgelöste Anweisungszeichenfolge anzeigt. Es ist ideal, wenn Sie eine schnelle semantische Auswahl ohne separate Erkennung und Verfeinerung wünschen.
Normal - Video
Dieser Pfad überlagert Erkennungen auf Videobildern und kodiert einen synchronisierten Clip neu. VHS_LoadVideo (#32) importiert Bilder und Audio, und GroundingModelLoader (#30) liefert Florence-2. Setzen Sie eine Aufforderung wie "Gesichter" in GroundingDetector (#28), um Boxen pro Bild zu zeichnen. VHS_VideoInfo (#40) leitet die geladene Bildrate an VHS_VideoCombine (#39) weiter, das ein MP4 mit dem Originalaudio und der abgestimmten Zeitachse schreibt. Das Ergebnis ist ein gebrauchsfertiges annotiertes Video zur Überprüfung oder Shot-Planung.
Wichtige Knoten im Comfyui ComfyUI Grounding-Workflow
GroundingDetector (#1)
Kerndetektor, der Ihre Textaufforderung in Begrenzungsrahmen verwandelt. Erhöhen Sie die Punkteschwelle für weniger falsche Positive; senken Sie sie, wenn das Ziel klein oder teilweise verdeckt ist. Halten Sie Aufforderungen kurz und spezifisch, zum Beispiel "roter Regenschirm" statt langer Sätze. Verwenden Sie diesen Knoten, um sowohl die Segmentierungs- als auch die Visualisierungsstufen im Downstream zu steuern.
Sam2Segment (#11)
Verfeinert grobe Boxen in scharfe Masken mit SAM 2. Füttern Sie es mit Boxen von GroundingDetector; fügen Sie nur dann ein paar positive oder negative Punkte hinzu, wenn die Grenze zusätzliche Führung benötigt. Wenn sich das Thema und der Hintergrund umkehren, paaren Sie es mit InvertMask für den beabsichtigten Ausschnitt. Verwenden Sie das Ergebnis überall dort, wo eine Alphamaskierung erforderlich ist.
GroundingMaskDetector (#22)
Erzeugt eine semantische Maske direkt aus einer natürlichen Sprachaufforderung. Dies ist am besten, wenn Sie eine Ein-Klick-Auswahl ohne Zusammenstellung einer Erkennungs-zu-Segmentierungs-Kette wünschen. Straffen Sie den Text und erhöhen Sie das Vertrauen, wenn mehrere Regionen aufgenommen werden; erweitern Sie die Formulierung, um Variationen einzuschließen, wenn das Thema verpasst wird.
JoinImageWithAlpha (#14)
Komponiert das Originalbild mit der Maske zu einem RGBA-Output für Downstream-Editoren. Verwenden Sie es, wenn Sie transparente Hintergründe, selektive Effekte oder geschichtete Kompositionsarbeiten benötigen. Kombinieren Sie es mit InvertMask, um zwischen der Isolation des Objekts und dem Ausschneiden des Objekts zu wechseln.
VHS_LoadVideo (#32)
Teilt ein Video in Bilder auf und extrahiert Audio zur Verarbeitung. Wenn Ihre Quelle eine variable Bildrate hat, verlassen Sie sich auf die geladene Bildrate, die es meldet, um die Zeitkonsistenz zu bewahren. Dieser Knoten ist der Einstiegspunkt für jede bildweise Erkennung oder Segmentierung über einen Clip hinweg.
VHS_VideoCombine (#39)
Kodiert verarbeitete Bilder erneut in ein MP4, während Audio erhalten bleibt. Passen Sie die Bildrate an den Wert an, der im Upstream gemeldet wird, um Zeitverschiebungen zu vermeiden. Verwenden Sie das Dateinamenpräfix, um verschiedene Durchläufe in Ihrem Ausgabeverzeichnis organisiert zu halten.
Optionale Extras
- Halten Sie ComfyUI Grounding-Aufforderungen kurz und substantivorientiert; fügen Sie bei Bedarf ein oder zwei Attribute hinzu, zum Beispiel "gelber Bagger" oder "Leadsänger mit Brille".
- Bei geschäftigen Szenen erhöhen Sie das Detektorvertrauen und reduzieren Sie die maximale Boxanzahl, um Ergebnisse zu stabilisieren, bevor Sie Boxen an SAM 2 senden.
- Beim Vorbereiten von Videos schneiden oder subsampeln Sie beim Import für schnellere Iterationen, dann wechseln Sie zurück zu vollständigen Bildzahlen für endgültige Renderings.
- Wenn Sie hauptsächlich semantische Masken ohne Boxensteuerung benötigen, führen Sie den Segment-Masken-Pfad aus; andernfalls bevorzugen Sie die Detektor-plus-SAM 2-Route für präzise Kanten.
- Die Knoten stammen aus der ComfyUI Grounding-Erweiterung; siehe das Projekt für Updates und unterstützte Modelle. Repository
Danksagungen
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken PozzettiAndrea für ComfyUI-Grounding für ihre Beiträge und Wartung. Für autoritative Details verweisen wir auf die Originaldokumentation und die unten verlinkten Repositories.
Ressourcen
- PozzettiAndrea/ComfyUI-Grounding
- GitHub: ComfyUI-Grounding
Hinweis: Die Verwendung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen der jeweiligen Autoren und Betreuer.
