Индийские разработчики создали нейросеть, которая ищет на видеозаписях людей определенного роста, пола и в одежде определенного цвета. Это может позволить значительно сужать объем просматриваемых человеком данных при поиске людей на видеозаписях, рассказывают авторы доклада, который будет представлен на конференции AVSS 2018.

Алгоритмы распознавания людей на видеороликах и фотографиях уже достаточно сильно развиты и реально применяются для поиска преступников или идентификации пассажиров. Как правило, эти алгоритмы идентифицируют человека только по его лицу, а более совершенные реализации также используют дополнительные факторы, такие как рост, или даже более необычные, к примеру, поведенческие характеристики. Некоторые программы уже умеют выделять на кадрах лишь человека с определенным набором параметров, но они часто сталкиваются с проблемами при отделении человека от фона, а также с некорректным определением роста из-за измененной перспективы и других помех.

Группа разработчиков под руководством Мехула Равала (Mehul Raval) из Ахмадабадского университета в Индии создала нейросеть, способную распознавать людей на видео и качественно фильтровать их на основе нескольких признаков. Алгоритм работает в несколько этапов. Сначала кадры отдаются сверточной нейросети Mask R-CNN, которая проводит семантическую сегментацию кадров и выделяет на них только области, в которых находятся люди.

Схема работы алгоритма
Схема работы алгоритма

После этого алгоритм начинает работать только с этими областями. Сначала он вычисляет рост человека с учетом перспективы на разных кадрах и вычисляет среднее значение. После этого он разбивает тело оставшихся людей на три части и определяет цвет одежды на туловище, причем он определяет два цвета — основной и дополнительный, который используется при наличии двух или более людей с похожим основным цветом. Если не хватило и этих параметров, алгоритм также может отфильтровать оставшихся людей по полу.

Для обучения разработчики использовали датасеты COCO и SoftBioSearch. Изображения были на случайный угол от −5 до 5 градусов для того, чтобы улучшить работу обученной модели. Кроме того, авторы работы модифицировали освещение на кадрах для более качественного определения цвета алгоритмом. Для поиска конкретного человека разработчики предоставляли нейросети размеченные кадры с ним. Алгоритм корректно распознал 28 из 41 человека, для 19 из них доля кадров с корректным распознованием была больше 60 процентов.

Недавно другая группа разработчиков из Индии и Великобритании создала систему на основе дрона, которая может выявлять насильственные действия среди людей, например, драки. Она также работает на основе алгоритма машинного обучения, который научили определять характерные для насилия позы.