ComfyUI Grounding: Detección con indicaciones, segmentación precisa y superposiciones de video
Este flujo de trabajo empaqueta ComfyUI Grounding en tres caminos prácticos para lotes de imágenes, imágenes individuales y videos. Convierte indicaciones en lenguaje natural en cuadros delimitadores de objetos y máscaras de alta calidad, luego previsualiza composiciones RGBA o escribe videos anotados con audio preservado. Artistas, editores y generalistas de VFX pueden aislar rápidamente sujetos, eliminar fondos y generar superposiciones limpias para la composición.
Construido sobre detección de vocabulario abierto y segmentación moderna, ComfyUI Grounding es confiable para sujetos y escenas variados. Puede impulsar la selección con indicaciones cortas, refinar con segmentación y mantener el tiempo de fotogramas intacto al procesar videos.
Modelos clave en el flujo de trabajo de Comfyui ComfyUI Grounding
- Microsoft Florence-2 Large. Un modelo de visión-lenguaje que admite detección de vocabulario abierto a partir de indicaciones en lenguaje natural, permitiendo propuestas de cuadros flexibles para objetos arbitrarios. Model card
- Segment Anything 2 (SAM 2). Un modelo de segmentación que convierte puntos o cuadros en máscaras nítidas; aquí refina las detecciones de Florence-2 en selecciones precisas a nivel de píxel. Repository
Cómo usar el flujo de trabajo de Comfyui ComfyUI Grounding
El flujo de trabajo contiene cuatro grupos autónomos. Elija el camino que coincida con su tarea; cada uno puede ejecutarse de forma independiente.
Lote - Normal
Este camino procesa una carpeta de imágenes y genera composiciones RGBA. LoadImagesFromFolderKJ (#9) lee su lote, mientras que GroundingModelLoader (#3) incorpora Florence-2. Proporcione una breve indicación en GroundingDetector (#1) para proponer cuadros alrededor de su objetivo; ajuste la confianza si observa fallos o falsos positivos. DownLoadSAM2Model (#12) carga SAM 2 y Sam2Segment (#11) convierte los cuadros en una máscara limpia. Opcionalmente invierta la selección con InvertMask (#15) y previsualice el recorte con alfa usando JoinImageWithAlpha (#14) y PreviewImage (#17).
Normal - Imagen
Utilice esto para verificar rápidamente indicaciones en un solo fotograma. LoadImage (#24) trae su imagen y GroundingDetector (#25) dibuja cuadros etiquetados según su indicación de texto. PreviewImage (#26) muestra el resultado anotado para que pueda iterar en la redacción antes de trabajar en lotes o videos.
Segmento - Máscara
Este camino crea una superposición de segmentación impulsada por texto en un solo paso. GroundingMaskModelLoader (#21) carga el modelo de máscara y LoadImage (#18) suministra el fotograma. Escriba una instrucción descriptiva en GroundingMaskDetector (#22) para obtener directamente una máscara y una previsualización superpuesta; PreviewImage (#20) muestra la composición, mientras que PreviewAny (#19) muestra la cadena de instrucciones resuelta. Es ideal cuando desea una selección semántica rápida sin detección y refinamiento separados.
Normal - Video
Este camino superpone detecciones en fotogramas de video y re-codifica un clip sincronizado. VHS_LoadVideo (#32) importa fotogramas y audio, y GroundingModelLoader (#30) proporciona Florence-2. Establezca una indicación como "caras" en GroundingDetector (#28) para dibujar cuadros por fotograma. VHS_VideoInfo (#40) reenvía la tasa de fotogramas cargada a VHS_VideoCombine (#39), que escribe un MP4 con el audio original y el tiempo coincidente. El resultado es un video anotado listo para compartir para revisión o planificación de tomas.
Nodos clave en el flujo de trabajo de Comfyui ComfyUI Grounding
GroundingDetector (#1)
Detector central que convierte su indicación de texto en cuadros delimitadores. Aumente el umbral de puntuación para menos falsos positivos; bájelo si el objetivo es pequeño o está parcialmente ocluido. Mantenga las indicaciones cortas y específicas, por ejemplo, "paraguas rojo" en lugar de oraciones largas. Use este nodo para impulsar tanto las etapas de segmentación como de visualización.
Sam2Segment (#11)
Refina cuadros toscos en máscaras nítidas usando SAM 2. Aliméntelo con cuadros de GroundingDetector; agregue algunos puntos positivos o negativos solo cuando el límite necesite orientación adicional. Si el sujeto y el fondo se invierten, combine con InvertMask para el recorte deseado. Use el resultado donde sea necesario un mate alfa.
GroundingMaskDetector (#22)
Genera una máscara semántica directamente desde una instrucción en lenguaje natural. Esto es mejor cuando desea una selección de un clic sin ensamblar una cadena de detección a segmentación. Ajuste el texto e incremente la confianza si se están seleccionando múltiples regiones; amplíe la redacción para incluir variaciones cuando se pierda el sujeto.
JoinImageWithAlpha (#14)
Compone la imagen original con la máscara en una salida RGBA para editores posteriores. Úselo cuando necesite fondos transparentes, efectos selectivos o trabajo compuesto en capas. Combine con InvertMask para alternar entre aislar el sujeto y recortar el sujeto.
VHS_LoadVideo (#32)
Divide un video en fotogramas y extrae audio para procesamiento. Si su fuente tiene una tasa de fotogramas variable, confíe en la tasa de fotogramas cargada que informa para mantener el tiempo consistente. Este nodo es el punto de entrada para cualquier detección o segmentación fotograma por fotograma a través de un clip.
VHS_VideoCombine (#39)
Re-codifica fotogramas procesados en un MP4 mientras preserva el audio. Haga coincidir la tasa de fotogramas con el valor informado aguas arriba para evitar el desajuste de tiempo. Use el prefijo del nombre de archivo para mantener organizadas diferentes ejecuciones en su carpeta de salida.
Extras opcionales
- Mantenga las indicaciones de ComfyUI Grounding cortas y centradas en sustantivos; agregue uno o dos atributos cuando sea necesario, por ejemplo, "excavadora amarilla" o "cantante principal con gafas".
- Para escenas concurridas, aumente la confianza del detector y reduzca el recuento máximo de cuadros para estabilizar los resultados antes de enviar cuadros a SAM 2.
- Al preparar video, recorte o subsample en la importación para iteraciones más rápidas, luego cambie a recuentos de fotogramas completos para renderizados finales.
- Si principalmente necesita máscaras semánticas sin control de cuadros, ejecute el camino de Segmento - Máscara; de lo contrario, prefiera la ruta de detector más SAM 2 para bordes precisos.
- Los nodos provienen de la extensión ComfyUI Grounding; vea el proyecto para actualizaciones y modelos compatibles. Repository
Agradecimientos
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos sinceramente a PozzettiAndrea por ComfyUI-Grounding por sus contribuciones y mantenimiento. Para detalles autorizados, consulte la documentación original y los repositorios vinculados a continuación.
Recursos
- PozzettiAndrea/ComfyUI-Grounding
- GitHub: ComfyUI-Grounding
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.

