Поиск
product
iconДатасет
HaGRID

HaGRID (HAnd Gesture Recognition Image Dataset) – самый разнородный датасет для системы распознавания жестов. Он состоит из 552,992 изображений, разделенных на 18 классов. В разметку входят боксы кистей рук с меткой класса жеста и метка ведущей руки.

Лицензия
Other
Бесплатно
Подключить
Категории
datasetgesturesopen sourcedeep learningcomputer visionimage detectionmage recognitionimage classification
Разработчик
SberDevices
Описание

Изображение

Каждое изображение содержит показывающую жест руку и в некоторых случаях может содержать вторую руку в естественном положении, размеченную дополнительным классом no gesture.

Разметка: bounding box, leading hand, user id Фреймворк: pytorch Размер файлов: 716GB Количество жестов: 19 Число изображений: 552 992 Формат изображений: FullHD RGB Уникальных пользователей: 34 730

Возможности

В записи датасета участвовало не менее 34,730 уникальных пользователей. Набор данных содержит как минимум столько же сцен и очень разнороден по освещению, расстоянию субъекта до камеры, их возрасту и полу. Все снимки выполнены в RGB формате и более 90% из них - в FullHD (1920х1080).

HaGRID разделен на 18 классов жестов: call, dislike, fist, four, like, mute, ok, one, palm, peace, peace_inverted, rock, stop, stop_inverted, three, three2, two_up, two_up_inverted.

Каждое изображение содержит показывающую жест руку, и в некоторых случаях может содержать вторую руку в естественном положении, размеченную дополнительным классом no gesture.

Преимущества

Все данные и обученные на них модели для задач классификации и детекции жестов абсолютно бесплатны и доступны для скачивания. Кроме того Вы можете скачать мини версию набора данных, содержащую по 100 изображений с разметкой на класс. Демо-версия работы моделей на обученных данных также доступна в репозитории.

Сценарии использования

С помощью HaGRID можно создать систему распознавания жестов, которая будет отлично работать в совершенно разных ситуациях. Например, жестовое управление можно использовать в видеоконференциях, для управления устройствами умного дома или мультимедийными возможностями автомобиля. Ещё одна важная возможность — создание виртуальных помощников для пользователей с дефектами речи или использующих язык жестов.

Инструкции по использованию

Вы можете скачать датасет в виде набора архивов размером 716GB. В ML Space доступна также и его мини-версия размером 2.4GB (по 100 изображений на жест). Поскольку датасет занимает много места, мы разбили обучающую выборку на 18 архивов по числу классов в датасете (каждый архив занимает примерно ~40GB). Тестовая выборка представлена единым архивом.

Обучение:

Разметка для обучения: https://sc.link/BE5Y

Тестовая выборка

Модели

ClassifierLinkF1-score (gesture)
ResNet18https://sc.link/KEnx98.72
ResNet152https://sc.link/O9rr99.11
ResNeXt50https://sc.link/GKjJ98.99
ResNeXt101https://sc.link/JXmg99.28
MobileNetV3_smallhttps://sc.link/XVEg96.78
MobileNetV3_largehttps://sc.link/YXG297.88
Vitb32https://sc.link/XV4g98.49

Детектор

SSDLite - https://sc.link/YXg2

Полезные ссылки

Авторы

  • Капитанов Александр
  • Махлярчук Андрей
  • Кванчиани Карина