Топ-100
HaGRID-image

HaGRID

HaGRID (HAnd Gesture Recognition Image Dataset) – самый разнородный датасет для системы распознавания жестов. Он состоит из 553,991 изображений, разделенных на 18 классов. В разметку входят боксы кистей рук с меткой класса жеста.

Лицензия

Other

Изображение

Каждое изображение содержит показывающую жест руку и в некоторых случаях может содержать вторую руку в естественном положении, размеченную дополнительным классом no gesture.

Разметка: bounding box, user id Фреймворк: pytorch Размер файлов: 723GB Количество жестов: 19 Число изображений: 553 991 Формат изображений: FullHD RGB Уникальных пользователей: 37 563

Возможности

В записи датасета участвовало не менее 37,563 уникальных пользователей. Набор данных содержит как минимум столько же сцен и очень разнороден по освещению, расстоянию субъекта до камеры, их возрасту и полу. Все снимки выполнены в RGB формате и более 90% из них - в FullHD (1920х1080).

HaGRID разделен на 18 классов жестов: call, dislike, fist, four, like, mute, ok, one, palm, peace, peace_inverted, rock, stop, stop_inverted, three, three2, two_up, two_up_inverted.

Каждое изображение содержит показывающую жест руку, и в некоторых случаях может содержать вторую руку в естественном положении, размеченную дополнительным классом no gesture.

Преимущества

Все данные и обученные на них модели для задач классификации и детекции жестов абсолютно бесплатны и доступны для скачивания. Кроме того Вы можете скачать мини версию набора данных, содержащую по 100 изображений с разметкой на класс. Демо-версия работы моделей на обученных данных также доступна в репозитории.

Сценарии использования

С помощью HaGRID можно создать систему распознавания жестов, которая будет отлично работать в совершенно разных ситуациях. Например, жестовое управление можно использовать в видеоконференциях, для управления устройствами умного дома или мультимедийными возможностями автомобиля. Ещё одна важная возможность — создание виртуальных помощников для пользователей с дефектами речи или использующих язык жестов.

Инструкции по использованию

Вы можете скачать датасет в виде набора архивов размером 723GB. Поскольку датасет занимает много места, мы разбили обучающую выборку на 18 архивов по числу классов в датасете (каждый архив занимает примерно ~40GB).

Данные:

Разметка: https://sc.link/Sfa95

Модели

DetectorLinkmAP
SSDLiteMobileNetV3Smallhttps://sc.link/rcJBg57.7
SSDLiteMobileNetV3Largehttps://sc.link/pVVDQ71.6
RetinaNet_ResNet50https://sc.link/sVRwt79.1
YoloV7Tinyhttps://sc.link/kqwi271.6
Full Frame ClassifiersLinkF1 Gestures
MobileNetV3_smallhttps://sc.link/R5tHf86.4
MobileNetV3_largehttps://sc.link/2Mv2o91.9
VitB16https://sc.link/tuRj891.1
ResNet18https://sc.link/lyXuV97.5
ResNet152https://sc.link/rhX2495.5
ResNeXt50https://sc.link/Revne98.3
ResNeXt101https://sc.link/vmahk97.5

Детектор

SSDLite - https://sc.link/YXg2

Полезные ссылки

Авторы

  • Капитанов Александр
  • Махлярчук Андрей
  • Кванчиани Карина
  • Нагаев Александр
  • Крайнов Роман

Обратная связь

Круглосуточная поддержка по телефону 8 800 444-24-99, почте support@cloud.ru и в Telegram