Этот рабочий процесс упаковывает ComfyUI Grounding в три практических пути для партий изображений, одиночных изображений и видео. Он превращает подсказки на естественном языке в ограничивающие рамки объектов и высококачественные маски, затем предварительно просматривает RGBA-композиты или записывает аннотированные видео с сохранением аудио. Художники, редакторы и специалисты по VFX могут быстро изолировать объекты, удалять фоны и создавать чистые наложения для композитинга.
Основанный на обнаружении с открытым словарем и современной сегментации, ComfyUI Grounding надежен для различных объектов и сцен. Вы можете управлять выбором с помощью коротких подсказок, уточнять с помощью сегментации и сохранять временную синхронизацию кадров при возврате видео.
Рабочий процесс содержит четыре автономные группы. Выберите путь, соответствующий вашей задаче; каждый из них можно запускать независимо.
Этот путь обрабатывает папку с изображениями и выводит RGBA-композиты. LoadImagesFromFolderKJ (#9) читает вашу партию, в то время как GroundingModelLoader (#3) загружает Florence-2. Укажите короткую подсказку в GroundingDetector (#1), чтобы предложить рамки вокруг вашей цели; настройте уверенность, если заметите пропуски или ложные срабатывания. DownLoadSAM2Model (#12) загружает SAM 2, а Sam2Segment (#11) преобразует рамки в чистую маску. При необходимости переверните выбор с помощью InvertMask (#15) и предварительно просмотрите вырезку с альфа-каналом, используя JoinImageWithAlpha (#14) и PreviewImage (#17).
Используйте это для быстрой проверки подсказок на одном кадре. LoadImage (#24) загружает ваше изображение, а GroundingDetector (#25) рисует рамки с метками на основе вашей текстовой подсказки. PreviewImage (#26) показывает аннотированный результат, чтобы вы могли изменить формулировку перед пакетной или видео работой.
Этот путь создает одношаговое наложение сегментации, управляемое текстом. GroundingMaskModelLoader (#21) загружает модель маски, а LoadImage (#18) предоставляет кадр. Введите описательную инструкцию в GroundingMaskDetector (#22), чтобы напрямую получить маску и предварительный просмотр с наложением; PreviewImage (#20) отображает композит, в то время как PreviewAny (#19) показывает разрешенную строку инструкции. Это идеально, когда вам нужна быстрая семантическая выборка без отдельного обнаружения и уточнения.
Этот путь накладывает обнаружения на кадры видео и перекодирует синхронизированный клип. VHS_LoadVideo (#32) импортирует кадры и аудио, а GroundingModelLoader (#30) предоставляет Florence-2. Установите подсказку, такую как "faces", в GroundingDetector (#28), чтобы рисовать рамки для каждого кадра. VHS_VideoInfo (#40) передает загруженную частоту кадров в VHS_VideoCombine (#39), который записывает MP4 с оригинальным аудио и совпадающим временем. Результат — готовое к обмену аннотированное видео для обзора или планирования съемки.
GroundingDetector (#1)Основной детектор, превращающий вашу текстовую подсказку в ограничивающие рамки. Повышайте порог оценки для уменьшения ложных срабатываний; снижайте его, если цель мала или частично закрыта. Держите подсказки короткими и конкретными, например "красный зонт" вместо длинных предложений. Используйте этот узел для управления как сегментацией, так и визуализацией на последующих этапах.
Sam2Segment (#11)Уточняет грубые рамки в четкие маски, используя SAM 2. Подайте ему рамки из GroundingDetector; добавьте несколько положительных или отрицательных точек только тогда, когда границе требуется дополнительное руководство. Если объект и фон меняются местами, используйте InvertMask для нужной вырезки. Используйте результат везде, где требуется альфа-мат.
GroundingMaskDetector (#22)Генерирует семантическую маску непосредственно из инструкции на естественном языке. Это лучше всего, когда вам нужна выборка одним кликом без сборки цепочки обнаружения-сегментации. Уточняйте текст и увеличивайте уверенность, если выбирается несколько регионов; расширяйте формулировку, чтобы включать варианты, когда объект не выбран.
JoinImageWithAlpha (#14)Комбинирует оригинальное изображение с маской в RGBA-вывод для последующих редакторов. Используйте его, когда вам нужны прозрачные фоны, выборочные эффекты или многослойная работа с композитом. Объединяйте с InvertMask, чтобы переключаться между изоляцией объекта и его вырезкой.
VHS_LoadVideo (#32)Разделяет видео на кадры и извлекает аудио для обработки. Если ваш источник имеет переменную частоту кадров, полагайтесь на загруженную частоту кадров, которую он сообщает, чтобы сохранить временную синхронизацию. Этот узел является точкой входа для любого обнаружения или сегментации по кадрам на протяжении всего клипа.
VHS_VideoCombine (#39)Перекодирует обработанные кадры в MP4, сохраняя аудио. Сопоставьте частоту кадров со значением, сообщаемым выше, чтобы избежать временного дрейфа. Используйте префикс имени файла, чтобы организовать разные запуски в вашей папке вывода.
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы искренне благодарим PozzettiAndrea за ComfyUI-Grounding за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.
RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Playground, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.