

HaGRID (HAnd Gesture Recognition Image Dataset) – самый разнородный датасет для системы распознавания жестов. Он состоит из 552,992 изображений, разделенных на 18 классов. В разметку входят боксы кистей рук с меткой класса жеста и метка ведущей руки.
Каждое изображение содержит показывающую жест руку и в некоторых случаях может содержать вторую руку в естественном положении, размеченную дополнительным классом no gesture.
Разметка: bounding box, leading hand, user id Фреймворк: pytorch Размер файлов: 716GB Количество жестов: 19 Число изображений: 552 992 Формат изображений: FullHD RGB Уникальных пользователей: 34 730
Возможности
В записи датасета участвовало не менее 34,730 уникальных пользователей. Набор данных содержит как минимум столько же сцен и очень разнороден по освещению, расстоянию субъекта до камеры, их возрасту и полу. Все снимки выполнены в RGB формате и более 90% из них - в FullHD (1920х1080).
HaGRID разделен на 18 классов жестов: call, dislike, fist, four, like, mute, ok, one, palm, peace, peace_inverted, rock, stop, stop_inverted, three, three2, two_up, two_up_inverted.
Каждое изображение содержит показывающую жест руку, и в некоторых случаях может содержать вторую руку в естественном положении, размеченную дополнительным классом no gesture.
Преимущества
Все данные и обученные на них модели для задач классификации и детекции жестов абсолютно бесплатны и доступны для скачивания. Кроме того Вы можете скачать мини версию набора данных, содержащую по 100 изображений с разметкой на класс. Демо-версия работы моделей на обученных данных также доступна в репозитории.
Сценарии использования
С помощью HaGRID можно создать систему распознавания жестов, которая будет отлично работать в совершенно разных ситуациях. Например, жестовое управление можно использовать в видеоконференциях, для управления устройствами умного дома или мультимедийными возможностями автомобиля. Ещё одна важная возможность — создание виртуальных помощников для пользователей с дефектами речи или использующих язык жестов.
Инструкции по использованию
Вы можете скачать датасет в виде набора архивов размером 716GB. В ML Space доступна также и его мини-версия размером 2.4GB (по 100 изображений на жест). Поскольку датасет занимает много места, мы разбили обучающую выборку на 18 архивов по числу классов в датасете (каждый архив занимает примерно ~40GB). Тестовая выборка представлена единым архивом.
Обучение:
Gesture | Link | Size (GB) |
---|---|---|
CALL | https://sc.link/ykEn | 39.1 |
DISLIKE | https://sc.link/xjDB | 38.7 |
FIST | https://sc.link/wgB8 | 38.0 |
FOUR | https://sc.link/vJA5 | 40.5 |
LIKE | https://sc.link/r7wp | 38.3 |
MUTE | https://sc.link/q8vp | 39.5 |
OK | https://sc.link/pV0V | 39.0 |
ONE | https://sc.link/oJqX | 39.9 |
PALM | https://sc.link/nJp7 | 39.3 |
PEACE | https://sc.link/l6nM | 38.6 |
PEACE_INV. | https://sc.link/mXoG | 38.6 |
ROCK | https://sc.link/kMm6 | 38.9 |
STOP | https://sc.link/gXgk | 38.3 |
STOP_INV. | https://sc.link/jJlv | 40.2 |
THREE | https://sc.link/wgBr | 39.4 |
THREE2 | https://sc.link/vJA8 | 38.5 |
TWO_UP | https://sc.link/q8v7 | 41.2 |
TWO_UP_INV. | https://sc.link/r7w2 | 39.2 |
Разметка для обучения: https://sc.link/BE5Y
Тестовая выборка
- Изображения (60.4GB) https://sc.link/zlGy
- Разметка https://sc.link/DE5K
Модели
Classifier | Link | F1-score (gesture) |
---|---|---|
ResNet18 | https://sc.link/KEnx | 98.72 |
ResNet152 | https://sc.link/O9rr | 99.11 |
ResNeXt50 | https://sc.link/GKjJ | 98.99 |
ResNeXt101 | https://sc.link/JXmg | 99.28 |
MobileNetV3_small | https://sc.link/XVEg | 96.78 |
MobileNetV3_large | https://sc.link/YXG2 | 97.88 |
Vitb32 | https://sc.link/XV4g | 98.49 |
Детектор
SSDLite - https://sc.link/YXg2
Полезные ссылки
Авторы
- Капитанов Александр
- Махлярчук Андрей
- Кванчиани Карина