ComfyUI Grounding Workflow | Seguimiento y Segmentación Precisa de Objetos

ComfyUI Grounding: Detección con indicaciones, segmentación precisa y superposiciones de video

Este flujo de trabajo empaqueta ComfyUI Grounding en tres caminos prácticos para lotes de imágenes, imágenes individuales y videos. Convierte indicaciones en lenguaje natural en cuadros delimitadores de objetos y máscaras de alta calidad, luego previsualiza composiciones RGBA o escribe videos anotados con audio preservado. Artistas, editores y generalistas de VFX pueden aislar rápidamente sujetos, eliminar fondos y generar superposiciones limpias para la composición.

Construido sobre detección de vocabulario abierto y segmentación moderna, ComfyUI Grounding es confiable para sujetos y escenas variados. Puede impulsar la selección con indicaciones cortas, refinar con segmentación y mantener el tiempo de fotogramas intacto al procesar videos.

Modelos clave en el flujo de trabajo de Comfyui ComfyUI Grounding

Microsoft Florence-2 Large. Un modelo de visión-lenguaje que admite detección de vocabulario abierto a partir de indicaciones en lenguaje natural, permitiendo propuestas de cuadros flexibles para objetos arbitrarios. Model card
Segment Anything 2 (SAM 2). Un modelo de segmentación que convierte puntos o cuadros en máscaras nítidas; aquí refina las detecciones de Florence-2 en selecciones precisas a nivel de píxel. Repository

Cómo usar el flujo de trabajo de Comfyui ComfyUI Grounding

El flujo de trabajo contiene cuatro grupos autónomos. Elija el camino que coincida con su tarea; cada uno puede ejecutarse de forma independiente.

Lote - Normal

Este camino procesa una carpeta de imágenes y genera composiciones RGBA. LoadImagesFromFolderKJ (#9) lee su lote, mientras que GroundingModelLoader (#3) incorpora Florence-2. Proporcione una breve indicación en GroundingDetector (#1) para proponer cuadros alrededor de su objetivo; ajuste la confianza si observa fallos o falsos positivos. DownLoadSAM2Model (#12) carga SAM 2 y Sam2Segment (#11) convierte los cuadros en una máscara limpia. Opcionalmente invierta la selección con InvertMask (#15) y previsualice el recorte con alfa usando JoinImageWithAlpha (#14) y PreviewImage (#17).

Normal - Imagen

Utilice esto para verificar rápidamente indicaciones en un solo fotograma. LoadImage (#24) trae su imagen y GroundingDetector (#25) dibuja cuadros etiquetados según su indicación de texto. PreviewImage (#26) muestra el resultado anotado para que pueda iterar en la redacción antes de trabajar en lotes o videos.

Segmento - Máscara

Este camino crea una superposición de segmentación impulsada por texto en un solo paso. GroundingMaskModelLoader (#21) carga el modelo de máscara y LoadImage (#18) suministra el fotograma. Escriba una instrucción descriptiva en GroundingMaskDetector (#22) para obtener directamente una máscara y una previsualización superpuesta; PreviewImage (#20) muestra la composición, mientras que PreviewAny (#19) muestra la cadena de instrucciones resuelta. Es ideal cuando desea una selección semántica rápida sin detección y refinamiento separados.

Normal - Video

Este camino superpone detecciones en fotogramas de video y re-codifica un clip sincronizado. VHS_LoadVideo (#32) importa fotogramas y audio, y GroundingModelLoader (#30) proporciona Florence-2. Establezca una indicación como "caras" en GroundingDetector (#28) para dibujar cuadros por fotograma. VHS_VideoInfo (#40) reenvía la tasa de fotogramas cargada a VHS_VideoCombine (#39), que escribe un MP4 con el audio original y el tiempo coincidente. El resultado es un video anotado listo para compartir para revisión o planificación de tomas.

Nodos clave en el flujo de trabajo de Comfyui ComfyUI Grounding

`GroundingDetector` (#1)

Detector central que convierte su indicación de texto en cuadros delimitadores. Aumente el umbral de puntuación para menos falsos positivos; bájelo si el objetivo es pequeño o está parcialmente ocluido. Mantenga las indicaciones cortas y específicas, por ejemplo, "paraguas rojo" en lugar de oraciones largas. Use este nodo para impulsar tanto las etapas de segmentación como de visualización.

`Sam2Segment` (#11)

Refina cuadros toscos en máscaras nítidas usando SAM 2. Aliméntelo con cuadros de GroundingDetector; agregue algunos puntos positivos o negativos solo cuando el límite necesite orientación adicional. Si el sujeto y el fondo se invierten, combine con InvertMask para el recorte deseado. Use el resultado donde sea necesario un mate alfa.

`GroundingMaskDetector` (#22)

Genera una máscara semántica directamente desde una instrucción en lenguaje natural. Esto es mejor cuando desea una selección de un clic sin ensamblar una cadena de detección a segmentación. Ajuste el texto e incremente la confianza si se están seleccionando múltiples regiones; amplíe la redacción para incluir variaciones cuando se pierda el sujeto.

`JoinImageWithAlpha` (#14)

Compone la imagen original con la máscara en una salida RGBA para editores posteriores. Úselo cuando necesite fondos transparentes, efectos selectivos o trabajo compuesto en capas. Combine con InvertMask para alternar entre aislar el sujeto y recortar el sujeto.

`VHS_LoadVideo` (#32)

Divide un video en fotogramas y extrae audio para procesamiento. Si su fuente tiene una tasa de fotogramas variable, confíe en la tasa de fotogramas cargada que informa para mantener el tiempo consistente. Este nodo es el punto de entrada para cualquier detección o segmentación fotograma por fotograma a través de un clip.

`VHS_VideoCombine` (#39)

Re-codifica fotogramas procesados en un MP4 mientras preserva el audio. Haga coincidir la tasa de fotogramas con el valor informado aguas arriba para evitar el desajuste de tiempo. Use el prefijo del nombre de archivo para mantener organizadas diferentes ejecuciones en su carpeta de salida.

Extras opcionales

Mantenga las indicaciones de ComfyUI Grounding cortas y centradas en sustantivos; agregue uno o dos atributos cuando sea necesario, por ejemplo, "excavadora amarilla" o "cantante principal con gafas".
Para escenas concurridas, aumente la confianza del detector y reduzca el recuento máximo de cuadros para estabilizar los resultados antes de enviar cuadros a SAM 2.
Al preparar video, recorte o subsample en la importación para iteraciones más rápidas, luego cambie a recuentos de fotogramas completos para renderizados finales.
Si principalmente necesita máscaras semánticas sin control de cuadros, ejecute el camino de Segmento - Máscara; de lo contrario, prefiera la ruta de detector más SAM 2 para bordes precisos.
Los nodos provienen de la extensión ComfyUI Grounding; vea el proyecto para actualizaciones y modelos compatibles. Repository

Agradecimientos

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos sinceramente a PozzettiAndrea por ComfyUI-Grounding por sus contribuciones y mantenimiento. Para detalles autorizados, consulte la documentación original y los repositorios vinculados a continuación.

Recursos

PozzettiAndrea/ComfyUI-Grounding
- GitHub: ComfyUI-Grounding

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Estilo Pergamino con Unsampling

Convierte tu video en animaciones estilo pergamino usando el método de Unsampling.

Estilo de Arcilla con Unsampling

Convierte tu video al estilo de arcilla usando el método Unsampling.

Efectos de Animación de Gráficos en Movimiento | Vid2Vid

Logra efectos de animación de gráficos en movimiento a partir de una entrada de video preexistente.

Transferencia de Estilo Consistente con Unsampling

Controlar el ruido latente con Unsampling ayuda a aumentar dramáticamente la consistencia en la transferencia de estilo de video.

DiffuEraser | Pintado de Video

Elimine objetos de videos con auto-mascaramiento y reconstrucción realista.

AnimateDiff + Programación de indicaciones por lotes | Texto a video

La programación de indicaciones por lotes con AnimateDiff ofrece un control preciso sobre la narrativa y los elementos visuales en la creación de animaciones.

LatentSync| Modelo de Sincronización de Labios

Tecnología avanzada de sincronización de labios impulsada por audio.

Hunyuan3D 2.1 | Imagen a Modelo 3D

Gran salto desde la 2.0: Convierte fotos en increíbles modelos 3D al instante.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

ComfyUI Grounding | Flujo de Trabajo de Seguimiento de Objetos

ComfyUI Grounding: Detección con indicaciones, segmentación precisa y superposiciones de video

Modelos clave en el flujo de trabajo de Comfyui ComfyUI Grounding

Cómo usar el flujo de trabajo de Comfyui ComfyUI Grounding

Lote - Normal

Normal - Imagen

Segmento - Máscara

Normal - Video

Nodos clave en el flujo de trabajo de Comfyui ComfyUI Grounding

GroundingDetector (#1)

Sam2Segment (#11)

GroundingMaskDetector (#22)

JoinImageWithAlpha (#14)

VHS_LoadVideo (#32)

VHS_VideoCombine (#39)

Extras opcionales

Agradecimientos

Recursos

Want More ComfyUI Workflows?

Estilo Pergamino con Unsampling

Estilo de Arcilla con Unsampling

Efectos de Animación de Gráficos en Movimiento | Vid2Vid

Transferencia de Estilo Consistente con Unsampling

DiffuEraser | Pintado de Video

AnimateDiff + Programación de indicaciones por lotes | Texto a video

LatentSync| Modelo de Sincronización de Labios

Hunyuan3D 2.1 | Imagen a Modelo 3D

`GroundingDetector` (#1)

`Sam2Segment` (#11)

`GroundingMaskDetector` (#22)

`JoinImageWithAlpha` (#14)

`VHS_LoadVideo` (#32)

`VHS_VideoCombine` (#39)