Flujo de trabajo SAM 3.1 ComfyUI para segmentación guiada por indicaciones, vista previa de cajas delimitadoras y seguimiento de video#
Este flujo de trabajo SAM 3.1 ComfyUI ofrece segmentación de imagen nativa y con indicaciones instantáneas de visualización de cajas delimitadoras y seguimiento preciso de objetos en video con extracción de máscaras. Utiliza los nodos SAM 3.1 comfy-core integrados, por lo que obtienes un rendimiento y estabilidad de primera clase sin nodos personalizados de terceros. El resultado son mates rápidos y reutilizables para composición, aislamiento o edición posterior en imágenes fijas y videos completos.
Diseñado para artistas, editores e ingenieros de pipeline, SAM 3.1 ComfyUI facilita comenzar con una indicación de texto o una caja delimitadora, validar la selección en su lugar, y luego propagar una máscara limpia a través de un clip completo. Bajo el capó, carga el punto de control sam3.1_multiplex_fp16 y ejecuta los nodos oficiales SAM3_Detect, SAM3_VideoTrack, SAM3_TrackToMask, y SAM3_TrackPreview que se agregaron como soporte nativo a ComfyUI. Consulta los archivos del modelo en Hugging Face y la solicitud de extracción de ComfyUI para más información: Comfy-Org/sam3.1, ComfyUI PR #13408.
Modelos clave en el flujo de trabajo SAM 3.1 ComfyUI#
- Punto de control Comfy-Org SAM 3.1 Multiplex FP16. Los pesos sam3.1_multiplex_fp16 alimentan la segmentación de imagen con indicaciones y el rastreador utilizado por los nodos SAM 3.1. Cárgalo con
CheckpointLoaderSimpley proporciona el modelo y la condicionamiento de texto utilizado en todo el flujo de trabajo. Fuente: Comfy-Org/sam3.1.
Cómo usar el flujo de trabajo SAM 3.1 ComfyUI#
El gráfico tiene dos carriles independientes. El enmascaramiento de imágenes te permite segmentar una imagen fija y ver en vista previa las cajas delimitadoras para una verificación rápida de calidad. El enmascaramiento de video inicializa una máscara en un cuadro de referencia, rastrea el objeto a través del clip, adelanta la pista y exporta máscaras para edición o composición.
Enmascaramiento de Imágenes#
Este carril es ideal para cuadros individuales o para prototipar tu indicación antes de ejecutar el seguimiento. Comienza cargando una imagen con LoadImage (#4) y escribiendo una breve indicación de texto en CLIPTextEncode (#3), por ejemplo, "un pájaro" o "coche rojo". El condicionamiento del texto y la imagen se alimentan a SAM3_Detect (#1), que devuelve tanto una máscara como cajas delimitadoras automáticas alrededor del sujeto detectado. Usa MaskPreview+ (#5) para inspeccionar visualmente el mate y DrawBBoxes (#6) más PreviewImage (#7) para confirmar la colocación de la caja. Si la selección es ambigua, refina el texto, añade puntos positivos o negativos, o proporciona una caja más ajustada para dirigir SAM 3.1 ComfyUI hacia el objeto deseado.
Enmascaramiento de Video#
Este carril escala la misma segmentación con indicaciones a clips completos. Carga un video en VHS_LoadVideoPath (#12); proporciona cuadros y metadatos al resto del gráfico. Se elige un cuadro de referencia con ImageFromBatch (#15) y se describe en texto a través de CLIPTextEncode (#14). SAM3_Detect (#13) genera la máscara inicial en ese cuadro, que sirve como semilla para SAM3_VideoTrack (#8) para seguir el objeto a través de los cuadros restantes usando el mismo modelo y condicionamiento de texto. Convierte la pista resultante en mates por cuadro con SAM3_TrackToMask (#9). Para una vista previa binaria rápida o para invertir el primer plano/fondo, las máscaras pasan por InvertMask (#19) y MaskToImage (#16), luego VHS_VideoCombine (#17) puede renderizar un video de máscara simple. Para una mirada interactiva al resultado sobre los cuadros originales, SAM3_TrackPreview (#10) reproduce la superposición a la velocidad de cuadros fuente proporcionada por VHS_VideoInfoLoaded (#18). Ajusta el cuadro de inicio o la indicación si ves desplazamiento, luego vuelve a ejecutar para fijar la pista antes de exportar.
Nodos clave en el flujo de trabajo SAM 3.1 ComfyUI#
SAM3_Detect (#1)#
Genera una máscara de objeto y cajas delimitadoras para una imagen fija basada en tu indicación y puntos o cajas opcionales. Úsalo para validar rápidamente tu elección de sujeto en SAM 3.1 ComfyUI. Si la máscara parece demasiado amplia o incluye parecidos, ajusta la descripción textual o dibuja una caja más restringida para mejorar la separación.
SAM3_Detect (#13)#
Inicia el rastreador de video produciendo una máscara limpia en un cuadro de referencia elegido. La calidad del seguimiento en SAM 3.1 ComfyUI depende en gran medida de esta semilla, por lo que elige un cuadro donde el objetivo sea visible y mínimamente oculto. Si el sujeto cambia de apariencia más tarde, reinicia desde otro cuadro y concatena los resultados en tu editor.
SAM3_VideoTrack (#8)#
Propaga la máscara inicial a través del clip usando el mismo modelo e indicación de texto. Mantén el condicionamiento consistente con la semilla para evitar engancharse a objetos similares. Al rastrear un sujeto pequeño o de movimiento rápido, comienza desde un cuadro con una semilla confiable y considera acortar el segmento si la iluminación o la escala cambian drásticamente.
SAM3_TrackToMask (#9)#
Convierte la salida del rastreador a una secuencia de máscaras para exportar. Puedes exportar todos los cuadros o seleccionar un subconjunto ingresando índices o rangos simples. Este es el punto de entrega para escribir una vista previa de video o guardar una secuencia PNG para composición en tu herramienta preferida.
SAM3_TrackPreview (#10)#
Reproduce el resultado rastreado sobre los cuadros originales para un control de calidad instantáneo. La vista previa utiliza la tasa de cuadros fuente informada por VHS_VideoInfoLoaded (#18) para que el tiempo coincida con tu clip. Úsalo para detectar desplazamientos, fallas de oclusión o intercambios de identidad antes de comprometerse a una exportación completa.
Extras opcionales#
- Usa cajas delimitadoras para desambiguar cuando tu indicación de texto coincide con múltiples sujetos en el cuadro.
- Si el objetivo cambia de escala o iluminación a mitad del clip, divide el video en segmentos lógicos y vuelve a iniciar
SAM3_Detect(#13) por segmento para un seguimiento más estable. - Para exportaciones de mates como una secuencia de imágenes, dirige
SAM3_TrackToMask(#9) a un nodoSaveImageen lugar deVHS_VideoCombine(#17). - Mantén las indicaciones cortas y específicas. En SAM 3.1 ComfyUI, los sustantivos concisos con un atributo clave a menudo superan la prosa larga.
- Cuando solo necesitas una máscara fija de un cuadro específico, ejecuta el Enmascaramiento de Imágenes en ese cuadro directamente para evitar el seguimiento y ahorrar tiempo.
Agradecimientos#
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Innovate Futures @ Benji por el flujo de trabajo de segmentación SAM 3.1 con ComfyUI, a Comfy-Org por los archivos del modelo SAM 3.1, y a Comfy-Org por el soporte nativo de SAM 3.1 ComfyUI PR por sus contribuciones y mantenimiento. Para obtener detalles autorizados, consulte la documentación original y los repositorios vinculados a continuación.
Recursos#
- Innovate Futures @ Benji/Fuente del flujo de trabajo
- Documentos / Notas de lanzamiento: ComfyUI With SAM 3.1 Segmentation Native Support! No Custom Node Needed @Benji's AI Playground
- Archivos del modelo Comfy-Org/SAM 3.1
- GitHub: facebookresearch/sam3
- Hugging Face: Comfy-Org/sam3.1
- arXiv: SAM 3: Segment Anything with Concepts (2511.16719)
- Documentos / Notas de lanzamiento: RELEASE_SAM3p1.md
- Comfy-Org/Soporte nativo de SAM 3.1 ComfyUI PR
- GitHub: Comfy-Org/ComfyUI#13408
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.
