

Slovo — датасет и набор моделей для задачи распознавания русского жестового языка, он содержит 20 тысяч HD+ видео, разделенных на 1000 классов по 20 видео
Slovo состоит из 20 тысяч видео (по 20 видео на один из 1000 жестов). Дополнительно к датасету добавлено 400 видео, на которых не происходит жестовых событий, чтобы ввести понятие класса “не жест”. Датасет разбит на тренировочную (train), и тестовую (test) выборки с 15000 и 5000 сэмплами соответственно (“не жесты” отделены по 300 и 100 видео соответственно). Видео собраны с помощью 194 экспертов, прошедших экзамен на знание РЖЯ. Между обучающей и тестовой выборками есть небольшое пересечение по юзерам, но тестовый сет специально подобран так, чтобы эта выборка была максимально разнообразной.
Статистики на датасете:
Разметка: video samples Фреймворк: pytorch Размер файлов: 100GB Количество классов: 1000 Число видео: 20000 Формат видео: FullHD Уникальных пользователей: 194
Разработчик: SberDevices
Возможности
Жестовый язык в любой стране имеет ряд специфических особенностей, кардинально отличающих его от естественных языков и кратно усложняющих создание наборов данных для распознавания:
- Наличие множества диалектов в пределах одной страны (одного естественного языка). В России по некоторым оценкам около 500 различных диалектов, а значения слов в них могут пересекаться.
- Некоторые слова в РЖЯ можно показать только с помощью дактиля (алфавита жестового языка).
- Некоторы слова — составные, и показываются путем комбинации простых жестов.
- Неполнота знаний об особенностях жестового языка приводит к социальному разрыву в обществе.
- Значение жеста может зависеть от мимики и движений тела, что существенно осложняет распознавание похожих по движениям рук жестов.
Создание модели распознавания жестового языка может способствовать решению некоторых существующих проблем, став частью образовательного сервиса, сервиса видеоконференций или сервиса для фондов и гос. компаний (МФЦ, банки, вокзалы, аэропорты). Основным препятствием к получению подобной модели является сложность в создании подходящего набора данных. Мы попытались решить эту проблему путем создания набора данных для распознавания русского жестового языка (РЖЯ).
Сценарии использования
Распознавание русского жестового языка для создания AI-помощников слабослышащим и глухонемым.
Инструкции по использованию
Датасет можно скачать по ссылке.
Обучающие примеры
На датасете мы обучили стек моделей на базе ViT и ResNet-3D:
Model Name | Model Size (MB) | Metric | ONNX | TorchScript |
---|---|---|---|---|
MViTv2-small-16-4 | 140.51 | 58.35 | weights | weights |
MViTv2-small-32-2 | 140.79 | 64.09 | weights | weights |
MViTv2-small-48-2 | 141.05 | 62.18 | weights | weights |
Swin-large-16-3 | 821.65 | 48.04 | weights | weights |
Swin-large-32-2 | 821.74 | 54.84 | weights | weights |
Swin-large-48-1 | 821.78 | 55.66 | weights | weights |
ResNet-i3d-16-3 | 146.43 | 32.86 | weights | weights |
ResNet-i3d-32-2 | 146.43 | 38.38 | weights | weights |
ResNet-i3d-48-1 | 146.43 | 43.91 | weights | weights |
Авторы
- Капитанов Александр
- Кванчиани Карина
- Нагаев Александр
- Петрова Елизавета