product
iconДатасет
Slovo

Slovo — датасет и набор моделей для задачи распознавания русского жестового языка, он содержит 20 тысяч HD+ видео, разделенных на 1000 классов по 20 видео

Лицензия
Other
Бесплатно
Подключить
Категории
CVvideo
Разработчик
SberDevices
Описание

Изображение

Slovo состоит из 20 тысяч видео (по 20 видео на один из 1000 жестов). Дополнительно к датасету добавлено 400 видео, на которых не происходит жестовых событий, чтобы ввести понятие класса “не жест”. Датасет разбит на тренировочную (train), и тестовую (test) выборки с 15000 и 5000 сэмплами соответственно (“не жесты” отделены по 300 и 100 видео соответственно). Видео собраны с помощью 194 экспертов, прошедших экзамен на знание РЖЯ. Между обучающей и тестовой выборками есть небольшое пересечение по юзерам, но тестовый сет специально подобран так, чтобы эта выборка была максимально разнообразной.

Статистики на датасете: Изображение

Разметка: video samples Фреймворк: pytorch Размер файлов: 100GB Количество классов: 1000 Число видео: 20000 Формат видео: FullHD Уникальных пользователей: 194

Разработчик: SberDevices

Возможности

Жестовый язык в любой стране имеет ряд специфических особенностей, кардинально отличающих его от естественных языков и кратно усложняющих создание наборов данных для распознавания:

  • Наличие множества диалектов в пределах одной страны (одного естественного языка). В России по некоторым оценкам около 500 различных диалектов, а значения слов в них могут пересекаться.
  • Некоторые слова в РЖЯ можно показать только с помощью дактиля (алфавита жестового языка).
  • Некоторы слова — составные, и показываются путем комбинации простых жестов.
  • Неполнота знаний об особенностях жестового языка приводит к социальному разрыву в обществе.
  • Значение жеста может зависеть от мимики и движений тела, что существенно осложняет распознавание похожих по движениям рук жестов.

Создание модели распознавания жестового языка может способствовать решению некоторых существующих проблем, став частью образовательного сервиса, сервиса видеоконференций или сервиса для фондов и гос. компаний (МФЦ, банки, вокзалы, аэропорты). Основным препятствием к получению подобной модели является сложность в создании подходящего набора данных. Мы попытались решить эту проблему путем создания набора данных для распознавания русского жестового языка (РЖЯ).

Сценарии использования

Распознавание русского жестового языка для создания AI-помощников слабослышащим и глухонемым.

Инструкции по использованию

Датасет можно скачать по ссылке.

Обучающие примеры

На датасете мы обучили стек моделей на базе ViT и ResNet-3D:

Model NameModel Size (MB)MetricONNXTorchScript
MViTv2-small-16-4140.5158.35weightsweights
MViTv2-small-32-2140.7964.09weightsweights
MViTv2-small-48-2141.0562.18weightsweights
Swin-large-16-3821.6548.04weightsweights
Swin-large-32-2821.7454.84weightsweights
Swin-large-48-1821.7855.66weightsweights
ResNet-i3d-16-3146.4332.86weightsweights
ResNet-i3d-32-2146.4338.38weightsweights
ResNet-i3d-48-1146.4343.91weightsweights

Авторы

  • Капитанов Александр
  • Кванчиани Карина
  • Нагаев Александр
  • Петрова Елизавета

Ccылки