logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Workflows>ComfyUI Grounding | Objektverfolgungs-Workflow

ComfyUI Grounding | Objektverfolgungs-Workflow

Workflow Name: RunComfy/ComfyUI-Grounding
Workflow ID: 0000...1310
Dieser Workflow hilft Ihnen, Objekte über Videobilder hinweg mit Pixelgenauigkeit zu isolieren und zu verfolgen. Er ermöglicht es Ihnen, saubere, konsistente Masken und Bewegungsdaten für Komposition und fortgeschrittene VFX-Aufgaben zu erstellen. Ob Sie Charakterisolation, Hintergrundbereinigung oder gezielte Bearbeitungen benötigen, er bietet jedes Mal zuverlässige Verfolgung. Sie können den Prozess mit Textanweisungen oder visuellen Referenzen steuern. Perfekt für Kreative, die präzise, bildkonsistente Segmentierung für visuelle Effekte und KI-gesteuerte Bearbeitung suchen.

ComfyUI Grounding: Angeregte Erkennung, pixelgenaue Segmentierung und Video-Overlays

Dieser Workflow bündelt ComfyUI Grounding in drei praktische Pfade für Bildstapel, einzelne Bilder und Videos. Er verwandelt natürliche Sprachaufforderungen in Objektbegrenzungsrahmen und hochwertige Masken, zeigt dann RGBA-Komposite an oder schreibt annotierte Videos mit erhaltenem Audio. Künstler, Editoren und VFX-Generalisten können schnell Objekte isolieren, Hintergründe entfernen und saubere Overlays für die Komposition erstellen.

Basierend auf offener Vokabularerkennung und moderner Segmentierung ist ComfyUI Grounding zuverlässig für verschiedene Objekte und Szenen. Sie können die Auswahl mit kurzen Aufforderungen steuern, mit Segmentierung verfeinern und die Bildzeit beibehalten, wenn Sie Videos runden.

Wichtige Modelle im Comfyui ComfyUI Grounding-Workflow

  • Microsoft Florence-2 Large. Ein Vision-Language-Modell, das offene Vokabularerkennung aus natürlichen Sprachaufforderungen unterstützt und flexible Box-Vorschläge für beliebige Objekte ermöglicht. Model card
  • Segment Anything 2 (SAM 2). Ein Segmentierungsmodell, das Punkte oder Boxen in scharfe Masken verwandelt; hier verfeinert es Florence-2-Erkennungen in pixelgenaue Auswahl. Repository

So verwenden Sie den Comfyui ComfyUI Grounding-Workflow

Der Workflow enthält vier eigenständige Gruppen. Wählen Sie den Pfad, der zu Ihrer Aufgabe passt; jeder kann unabhängig ausgeführt werden.

Batch - Normal

Dieser Pfad verarbeitet einen Ordner mit Bildern und gibt RGBA-Komposite aus. LoadImagesFromFolderKJ (#9) liest Ihren Stapel, während GroundingModelLoader (#3) Florence-2 einbringt. Geben Sie eine kurze Aufforderung in GroundingDetector (#1) ein, um Boxen um Ihr Ziel vorzuschlagen; passen Sie das Vertrauen an, wenn Sie Fehler oder falsche Positive sehen. DownLoadSAM2Model (#12) lädt SAM 2 und Sam2Segment (#11) konvertiert die Boxen in eine saubere Maske. Optional kehren Sie die Auswahl mit InvertMask (#15) um und zeigen Sie den Ausschnitt mit Alpha mit JoinImageWithAlpha (#14) und PreviewImage (#17) an.

Normal - Bild

Verwenden Sie dies für schnelle Aufforderungsprüfungen auf einem Einzelbild. LoadImage (#24) bringt Ihr Bild ein und GroundingDetector (#25) zeichnet beschriftete Boxen basierend auf Ihrer Textaufforderung. PreviewImage (#26) zeigt das annotierte Ergebnis, damit Sie die Formulierung vor der Stapel- oder Videobearbeitung iterieren können.

Segment - Maske

Dieser Pfad erstellt ein einstufiges, textgesteuertes Segmentierungs-Overlay. GroundingMaskModelLoader (#21) lädt das Maskenmodell und LoadImage (#18) liefert den Rahmen. Geben Sie eine beschreibende Anweisung in GroundingMaskDetector (#22) ein, um direkt eine Maske und eine überlagerte Vorschau zu erhalten; PreviewImage (#20) zeigt das Komposit an, während PreviewAny (#19) die aufgelöste Anweisungszeichenfolge anzeigt. Es ist ideal, wenn Sie eine schnelle semantische Auswahl ohne separate Erkennung und Verfeinerung wünschen.

Normal - Video

Dieser Pfad überlagert Erkennungen auf Videobildern und kodiert einen synchronisierten Clip neu. VHS_LoadVideo (#32) importiert Bilder und Audio, und GroundingModelLoader (#30) liefert Florence-2. Setzen Sie eine Aufforderung wie "Gesichter" in GroundingDetector (#28), um Boxen pro Bild zu zeichnen. VHS_VideoInfo (#40) leitet die geladene Bildrate an VHS_VideoCombine (#39) weiter, das ein MP4 mit dem Originalaudio und der abgestimmten Zeitachse schreibt. Das Ergebnis ist ein gebrauchsfertiges annotiertes Video zur Überprüfung oder Shot-Planung.

Wichtige Knoten im Comfyui ComfyUI Grounding-Workflow

GroundingDetector (#1)

Kerndetektor, der Ihre Textaufforderung in Begrenzungsrahmen verwandelt. Erhöhen Sie die Punkteschwelle für weniger falsche Positive; senken Sie sie, wenn das Ziel klein oder teilweise verdeckt ist. Halten Sie Aufforderungen kurz und spezifisch, zum Beispiel "roter Regenschirm" statt langer Sätze. Verwenden Sie diesen Knoten, um sowohl die Segmentierungs- als auch die Visualisierungsstufen im Downstream zu steuern.

Sam2Segment (#11)

Verfeinert grobe Boxen in scharfe Masken mit SAM 2. Füttern Sie es mit Boxen von GroundingDetector; fügen Sie nur dann ein paar positive oder negative Punkte hinzu, wenn die Grenze zusätzliche Führung benötigt. Wenn sich das Thema und der Hintergrund umkehren, paaren Sie es mit InvertMask für den beabsichtigten Ausschnitt. Verwenden Sie das Ergebnis überall dort, wo eine Alphamaskierung erforderlich ist.

GroundingMaskDetector (#22)

Erzeugt eine semantische Maske direkt aus einer natürlichen Sprachaufforderung. Dies ist am besten, wenn Sie eine Ein-Klick-Auswahl ohne Zusammenstellung einer Erkennungs-zu-Segmentierungs-Kette wünschen. Straffen Sie den Text und erhöhen Sie das Vertrauen, wenn mehrere Regionen aufgenommen werden; erweitern Sie die Formulierung, um Variationen einzuschließen, wenn das Thema verpasst wird.

JoinImageWithAlpha (#14)

Komponiert das Originalbild mit der Maske zu einem RGBA-Output für Downstream-Editoren. Verwenden Sie es, wenn Sie transparente Hintergründe, selektive Effekte oder geschichtete Kompositionsarbeiten benötigen. Kombinieren Sie es mit InvertMask, um zwischen der Isolation des Objekts und dem Ausschneiden des Objekts zu wechseln.

VHS_LoadVideo (#32)

Teilt ein Video in Bilder auf und extrahiert Audio zur Verarbeitung. Wenn Ihre Quelle eine variable Bildrate hat, verlassen Sie sich auf die geladene Bildrate, die es meldet, um die Zeitkonsistenz zu bewahren. Dieser Knoten ist der Einstiegspunkt für jede bildweise Erkennung oder Segmentierung über einen Clip hinweg.

VHS_VideoCombine (#39)

Kodiert verarbeitete Bilder erneut in ein MP4, während Audio erhalten bleibt. Passen Sie die Bildrate an den Wert an, der im Upstream gemeldet wird, um Zeitverschiebungen zu vermeiden. Verwenden Sie das Dateinamenpräfix, um verschiedene Durchläufe in Ihrem Ausgabeverzeichnis organisiert zu halten.

Optionale Extras

  • Halten Sie ComfyUI Grounding-Aufforderungen kurz und substantivorientiert; fügen Sie bei Bedarf ein oder zwei Attribute hinzu, zum Beispiel "gelber Bagger" oder "Leadsänger mit Brille".
  • Bei geschäftigen Szenen erhöhen Sie das Detektorvertrauen und reduzieren Sie die maximale Boxanzahl, um Ergebnisse zu stabilisieren, bevor Sie Boxen an SAM 2 senden.
  • Beim Vorbereiten von Videos schneiden oder subsampeln Sie beim Import für schnellere Iterationen, dann wechseln Sie zurück zu vollständigen Bildzahlen für endgültige Renderings.
  • Wenn Sie hauptsächlich semantische Masken ohne Boxensteuerung benötigen, führen Sie den Segment-Masken-Pfad aus; andernfalls bevorzugen Sie die Detektor-plus-SAM 2-Route für präzise Kanten.
  • Die Knoten stammen aus der ComfyUI Grounding-Erweiterung; siehe das Projekt für Updates und unterstützte Modelle. Repository

Danksagungen

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken PozzettiAndrea für ComfyUI-Grounding für ihre Beiträge und Wartung. Für autoritative Details verweisen wir auf die Originaldokumentation und die unten verlinkten Repositories.

Ressourcen

  • PozzettiAndrea/ComfyUI-Grounding
    • GitHub: ComfyUI-Grounding

Hinweis: Die Verwendung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen der jeweiligen Autoren und Betreuer.

Want More ComfyUI Workflows?

Pergament-Stil mit Unsampling

Verwandeln Sie Ihr Video in Animationen im Pergamentstil mit der Unsampling-Methode.

Clay-Stil mit Unsampling

Konvertieren Sie Ihr Video in Clay-Stil mit der Unsampling-Methode.

Motion Graphics Animationseffekte | Vid2Vid

Erzielen Sie Animationseffekte für Motion Graphics ausgehend von einem vorhandenen Video.

Konsistenter Stiltransfer mit Unsampling

Die Steuerung von latentem Rauschen mit Unsampling hilft, die Konsistenz beim Video-Stiltransfer dramatisch zu erhöhen.

DiffuEraser | Video-Inpainting

Entfernen Sie Objekte aus Videos mit automatischem Maskieren und realistischer Rekonstruktion.

AnimateDiff + QR Code ControlNet | Visuelle Effekte (VFX)

Erstellen Sie fesselnde visuelle Effekte mit AnimateDiff und ControlNet (mit QRCode Monster und Lineart).

IDM-VTON | Virtuelles Anprobieren

IDM-VTON | Virtuelles Anprobieren

Virtuelles Anprobieren, das realistische Ergebnisse erzeugt, indem es Kleidungsdetails und Stil erfasst.

Portrait Master | Text zu Porträt

Portrait Master | Text zu Porträt

Verwenden Sie den Portrait Master für eine größere Kontrolle über Porträtkreationen, ohne sich auf komplexe Prompts verlassen zu müssen.

Folge uns
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Support
  • Discord
  • E-Mail
  • Systemstatus
  • Partner
Ressourcen
  • Kostenloses ComfyUI Online
  • ComfyUI Anleitungen
  • RunComfy API
  • ComfyUI Tutorials
  • ComfyUI Nodes
  • Erfahre mehr
Rechtliches
  • Nutzungsbedingungen
  • Datenschutzrichtlinie
  • Cookie-Richtlinie
RunComfy
Urheberrecht 2025 RunComfy. Alle Rechte vorbehalten.

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI-Spielplatz, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.