Meta* демонстрирует прогресс в ключевой технологии для улучшения AR

Meta* представила инструмент SAM, который установит новую планку для «сегментации объектов» на основе компьютерного зрения — способности компьютеров понимать разницу между отдельными объектами на изображении или видео.

Сегментация объектов — это процесс идентификации и разделения объектов на изображении или видео. С помощью ИИ этот процесс можно автоматизировать, что позволит идентифицировать и изолировать объекты в режиме реального времени. Эта технология будет иметь решающее значение для создания более полезного опыта AR, давая системе представление о различных объектах в мире вокруг пользователя.

Представьте, например, что вы носите AR-очки и хотите иметь два дополнительных виртуальных монитора слева и справа от вашего реального монитора. Если вы не собираетесь вручную сообщать системе, где находится ваш реальный монитор, она должна иметь возможность понять, как он выглядит, чтобы разместить виртуальные мониторы соответствующим образом.

Сегментация объектов на основе компьютерного зрения уже много лет является постоянной областью исследований. Однако одна из ключевых проблем заключается в том, что компьютеры необходимо обучить модели ИИ.

Такие модели могут быть весьма эффективными при идентификации объектов, на которых они обучались, но они будут испытывать затруднения с объектами, которых раньше не видели. Это означает, что одной из самых больших проблем для сегментации объектов является наличие достаточно большого набора изображений, на которых системы могут учиться, но сбор этих изображений и аннотирование — непростая задача.

Meta* недавно опубликовала работу над новым проектом под названием Segment Anything Model (SAM). Это и модель сегментации, и огромный набор обучающих изображений.

SAM — это общая модель сегментации, которая может идентифицировать любой объект на любом изображении или видео, даже для объектов и типов изображений, которые она не видела во время обучения.

SAM позволяет выполнять как автоматическую, так и интерактивную сегментацию, позволяя идентифицировать отдельные объекты с помощью простых действий пользователя. SAM можно «подсказывать», предоставляя контроль над тем, что система пытается идентифицировать в любой момент.

Легко понять, как эта точечная подсказка может отлично работать в сочетании с отслеживанием взгляда на гарнитуре дополненной реальности. На самом деле это как раз один из вариантов использования:

Вот еще один пример использования в видео от первого лица:

Часть впечатляющих возможностей SAM связана с обучающими данными, которые содержат 10 миллионов изображений и 1 миллиард идентифицированных форм объектов.

Meta* называет набор данных SAM SA-1B.

Компания надеется, что работа над быстрой сегментацией и выпуск обучающего набора данных ускорит исследования в области понимания изображений и видео.

*Meta признана экстремистской компанией на территории России.