Questo workflow confeziona ComfyUI Grounding in tre percorsi pratici per lotti di immagini, immagini singole e video. Trasforma i suggerimenti in linguaggio naturale in riquadri di delimitazione degli oggetti e maschere di alta qualità, quindi visualizza in anteprima compositi RGBA o scrive video annotati con audio preservato. Artisti, editor e generalisti VFX possono rapidamente isolare i soggetti, eliminare sfondi e generare sovrapposizioni pulite per il compositing.
Basato su rilevamento a vocabolario aperto e segmentazione moderna, ComfyUI Grounding è affidabile per soggetti e scene variati. Puoi guidare la selezione con brevi suggerimenti, perfezionare con la segmentazione e mantenere intatto il timing dei fotogrammi durante il round-trip video.
Il workflow contiene quattro gruppi autonomi. Scegli il percorso che corrisponde al tuo compito; ognuno può essere eseguito indipendentemente.
Questo percorso elabora una cartella di immagini e produce compositi RGBA. LoadImagesFromFolderKJ (#9) legge il tuo lotto, mentre GroundingModelLoader (#3) porta in Florence-2. Fornisci un breve suggerimento in GroundingDetector (#1) per proporre riquadri intorno al tuo obiettivo; regola la fiducia se vedi mancanze o falsi positivi. DownLoadSAM2Model (#12) carica SAM 2 e Sam2Segment (#11) converte i riquadri in una maschera pulita. Facoltativamente inverti la selezione con InvertMask (#15) e visualizza in anteprima il ritaglio con alfa usando JoinImageWithAlpha (#14) e PreviewImage (#17).
Usa questo per controlli rapidi dei suggerimenti su un singolo fotogramma. LoadImage (#24) porta nella tua immagine e GroundingDetector (#25) disegna riquadri etichettati basati sul tuo suggerimento testuale. PreviewImage (#26) mostra il risultato annotato in modo da poter iterare sulla formulazione prima del lavoro in batch o video.
Questo percorso crea una sovrapposizione di segmentazione guidata dal testo in un solo passaggio. GroundingMaskModelLoader (#21) carica il modello di maschera e LoadImage (#18) fornisce il fotogramma. Digita un'istruzione descrittiva in GroundingMaskDetector (#22) per ottenere direttamente una maschera e un'anteprima sovrapposta; PreviewImage (#20) visualizza il composito, mentre PreviewAny (#19) mostra la stringa di istruzione risolta. È ideale quando desideri una selezione semantica rapida senza rilevamento e perfezionamento separati.
Questo percorso sovrappone rilevamenti sui fotogrammi video e ricodifica una clip sincronizzata. VHS_LoadVideo (#32) importa fotogrammi e audio, e GroundingModelLoader (#30) fornisce Florence-2. Imposta un suggerimento come "faces" in GroundingDetector (#28) per disegnare riquadri per fotogramma. VHS_VideoInfo (#40) inoltra il frame rate caricato a VHS_VideoCombine (#39), che scrive un MP4 con l'audio originale e il timing corrispondente. Il risultato è un video annotato pronto per essere condiviso per la revisione o la pianificazione delle riprese.
GroundingDetector (#1)Rilevatore principale che trasforma il tuo suggerimento testuale in riquadri di delimitazione. Alza la soglia del punteggio per meno falsi positivi; abbassala se l'obiettivo è piccolo o parzialmente occultato. Mantieni i suggerimenti brevi e specifici, ad esempio "ombrello rosso" piuttosto che frasi lunghe. Usa questo nodo per guidare sia le fasi di segmentazione che di visualizzazione a valle.
Sam2Segment (#11)Affina i riquadri grezzi in maschere nitide usando SAM 2. Alimentalo con riquadri da GroundingDetector; aggiungi alcuni punti positivi o negativi solo quando il confine necessita di guida extra. Se il soggetto e lo sfondo si invertiscono, abbina con InvertMask per il ritaglio desiderato. Usa il risultato ovunque sia richiesto un alfa matte.
GroundingMaskDetector (#22)Genera una maschera semantica direttamente da un'istruzione in linguaggio naturale. Questo è il migliore quando desideri una selezione con un solo clic senza assemblare una catena di rilevamento-segmentazione. Stringi il testo e aumenta la fiducia se vengono raccolte più regioni; amplia la formulazione per includere variazioni quando il soggetto viene perso.
JoinImageWithAlpha (#14)Composita l'immagine originale con la maschera in un output RGBA per editor a valle. Usalo quando hai bisogno di sfondi trasparenti, effetti selettivi o lavori di composizione a strati. Combina con InvertMask per passare tra isolare il soggetto e ritagliare il soggetto.
VHS_LoadVideo (#32)Divide un video in fotogrammi ed estrae l'audio per l'elaborazione. Se la tua sorgente ha un frame rate variabile, affidati al frame rate caricato che segnala per mantenere il timing coerente. Questo nodo è il punto di ingresso per qualsiasi rilevamento o segmentazione fotogramma per fotogramma su una clip.
VHS_VideoCombine (#39)Ricodifica i fotogrammi elaborati in un MP4 preservando l'audio. Abbina il frame rate al valore riportato a monte per evitare derive temporali. Usa il prefisso del nome file per mantenere organizzate le diverse esecuzioni nella tua cartella di output.
Questo workflow implementa e si basa sui seguenti lavori e risorse. Riconosciamo con gratitudine PozzettiAndrea per ComfyUI-Grounding per i loro contributi e la manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.
Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.
RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Playground, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.