HaGRIDБесплатно
HaGRID (HAnd Gesture Recognition Image Dataset) – самый разнородный датасет для системы распознавания жестов. Он состоит из 553,991 изображений, разделенных на 18 классов. В разметку входят боксы кистей рук с меткой класса жеста.
Other
Каждое изображение содержит показывающую жест руку и в некоторых случаях может содержать вторую руку в естественном положении, размеченную дополнительным классом no gesture.
Разметка: bounding box, user id Фреймворк: pytorch Размер файлов: 723GB Количество жестов: 19 Число изображений: 553 991 Формат изображений: FullHD RGB Уникальных пользователей: 37 563
Возможности
В записи датасета участвовало не менее 37,563 уникальных пользователей. Набор данных содержит как минимум столько же сцен и очень разнороден по освещению, расстоянию субъекта до камеры, их возрасту и полу. Все снимки выполнены в RGB формате и более 90% из них - в FullHD (1920х1080).
HaGRID разделен на 18 классов жестов: call, dislike, fist, four, like, mute, ok, one, palm, peace, peace_inverted, rock, stop, stop_inverted, three, three2, two_up, two_up_inverted.
Каждое изображение содержит показывающую жест руку, и в некоторых случаях может содержать вторую руку в естественном положении, размеченную дополнительным классом no gesture.
Преимущества
Все данные и обученные на них модели для задач классификации и детекции жестов абсолютно бесплатны и доступны для скачивания. Кроме того Вы можете скачать мини версию набора данных, содержащую по 100 изображений с разметкой на класс. Демо-версия работы моделей на обученных данных также доступна в репозитории.
Сценарии использования
С помощью HaGRID можно создать систему распознавания жестов, которая будет отлично работать в совершенно разных ситуациях. Например, жестовое управление можно использовать в видеоконференциях, для управления устройствами умного дома или мультимедийными возможностями автомобиля. Ещё одна важная возможность — создание виртуальных помощников для пользователей с дефектами речи или использующих язык жестов.
Инструкции по использованию
Вы можете скачать датасет в виде набора архивов размером 723GB. Поскольку датасет занимает много места, мы разбили обучающую выборку на 18 архивов по числу классов в датасете (каждый архив занимает примерно ~40GB).
Данные:
Gesture | Link | Size (GB) |
---|---|---|
CALL | https://sc.link/FNiTG | 37.2 |
DISLIKE | https://sc.link/7mcWR | 40.9 |
FIST | https://sc.link/DkbKX | 41.2 |
FOUR | https://sc.link/vJA5 | 42.1 |
LIKE | https://sc.link/XZJPT | 41.2 |
MUTE | https://sc.link/gJ0ya | 42.1 |
OK | https://sc.link/eFqR1 | 41.4 |
ONE | https://sc.link/NMpZ0 | 41.7 |
PALM | https://sc.link/GtTnd | 42.1 |
PEACE | https://sc.link/LTQNz | 41.4 |
PEACE_INV. | https://sc.link/WFSpC | 39.6 |
ROCK | https://sc.link/YlMdI | 40.7 |
STOP | https://sc.link/bnlhN | 40.8 |
STOP_INV. | https://sc.link/vvKG4 | 40.4 |
THREE | https://sc.link/FtH3C | 41.2 |
THREE2 | https://sc.link/fC4dT | 39.2 |
TWO_UP | https://sc.link/9xmvQ | 40.9 |
TWO_UP_INV. | https://sc.link/ZDoYu | 39.9 |
Разметка: https://sc.link/Sfa95
Модели
Detector | Link | mAP |
---|---|---|
SSDLiteMobileNetV3Small | https://sc.link/rcJBg | 57.7 |
SSDLiteMobileNetV3Large | https://sc.link/pVVDQ | 71.6 |
RetinaNet_ResNet50 | https://sc.link/sVRwt | 79.1 |
YoloV7Tiny | https://sc.link/kqwi2 | 71.6 |
Full Frame Classifiers | Link | F1 Gestures |
---|---|---|
MobileNetV3_small | https://sc.link/R5tHf | 86.4 |
MobileNetV3_large | https://sc.link/2Mv2o | 91.9 |
VitB16 | https://sc.link/tuRj8 | 91.1 |
ResNet18 | https://sc.link/lyXuV | 97.5 |
ResNet152 | https://sc.link/rhX24 | 95.5 |
ResNeXt50 | https://sc.link/Revne | 98.3 |
ResNeXt101 | https://sc.link/vmahk | 97.5 |
Детектор
SSDLite - https://sc.link/YXg2
Полезные ссылки
Авторы
- Капитанов Александр
- Махлярчук Андрей
- Кванчиани Карина
- Нагаев Александр
- Крайнов Роман
Обратная связь
Круглосуточная поддержка по телефону 8 800 444-24-99, почте support@cloud.ru и в Telegram