

EasyPortrait — датасет и набор моделей для задач Portrait Segmentation и Face Parsing, содержит 20 тысяч изображений, размеченных на 9 классов, а также набор моделей для задачи сегментации изображений.
Иллюстрация сгенерирована в Kandinsky 2.1.
EasyPortrait состоит из 20 000 цветных изображений, на каждом из которых представлен один из 8 377 уникальных пользователей. Датасет разбит на обучающую (train), валидационную (valid) и тестовую (test) выборки с 16000, 2000 и 4000 сэмплами соответственно. Все данные и обученные на них модели для задач классификации и детекции жестов абсолютно бесплатны и доступны для скачивания.
Разметка: segmentation masks Фреймворк: pytorch Размер файлов: 26GB Количество классов: 9 Число изображений: 20000 Формат изображений: FullHD, RGB Уникальных пользователей: 8377
Разработчик: SberDevices
Возможности
Большая часть фотографий собрана в домашних условиях или в закрытых помещениях. На каждой из них человек делал фото самого себя или на веб-камеру, или на фронтальную камеру мобильного телефона. Изображения собирались в различных условиях освещения, а расстояние субъектов до камеры варьируется в среднем от 0,5 до 2 метров. Датасет сбалансирован по полу субъектов, возраст которых от 14 до 65 лет.
Каждому изображению соответствует качественная сегментационная маска, разделенная на 9 классов: background, person, skin, left brow, right brow, left eye, right eye, lips, teeth. Сегментационные маски представляют собой двумерные массивы в виде PNG-картинок, каждый класс в массиве представлен своим значением от 0 до 8.
Классы разметки:
Index | Class |
---|---|
0 | BACKGROUND |
1 | PERSON |
2 | SKIN |
3 | LEFT BROW |
4 | RIGHT_BROW |
5 | LEFT_EYE |
6 | RIGHT_EYE |
7 | LIPS |
8 | TEETH |
Для более подробного анализа изображений в нашем репозитории предоставлена дополнительная информация о данных — ширина и высота изображений, средняя яркость фотографий, анонимизированные ID субъектов, с помощью которых датасет может быть разделен на выборки самостоятельно.
В разметке EasyPortrait есть несколько важных нюансов, отличающих его от большинства наборов данных для задачи фейс парсинга:
- Борода, грубая щетина и усы не считаются частью маски кожи. Это даст возможность улучшить визуальное качество сглаживания кожи и использовать датасет для задач бьютификации;
- Внутренняя часть рта отделена от зубов, что позволяет решать задачу отбеливания зубов без использования эвристик.
Сценарии использования
Портретная сегментация, фейс парсинг (бьютификация лица, отбеливание зубов, изменение цвета глаз или бровей, разглаживание кожи).
Инструкции по использованию
Вы можете скачать датасет размером 26GB. Также мы разбили датасет на три выборки - обучающую, валидационную и тестовую, которые можно скачать по-отдельности. Разметка представлена отдельным файлом.
Link | Size |
---|---|
image | 26G |
annotations | 235M |
train set | 18.1G |
validation set | 2.6G |
test set | 5.2G |
Обучающие примеры
На этом датасете мы обучили большой набор моделей, которые также можно скачать по ссылкам:
Model Name | Parameters (M) | Input shape | mIOU |
---|---|---|---|
LR-ASPP + MobileNet-V3 | 1.14 | 1024 × 1024 | 77.55 |
FCN + MobileNet-V2 | 9.71 | 384 × 384 | 74.3 |
FCN + MobileNet-V2 | 9.71 | 512 × 512 | 77.01 |
FCN + MobileNet-V2 | 9.71 | 1024 × 1024 | 81.23 |
FPN + ResNet-50 | 28.5 | 512 × 512 | 83.13 |
FPN + ResNet-50 | 28.5 | 1024 × 1024 | 85.97 |
BiSeNet-V2 | 14.79 | 512 × 512 | 77.93 |
BiSeNet-V2 | 14.79 | 1024 × 1024 | 83.53 |
SegFormer-B0 | 3.72 | 384 × 384 | 79.82 |
SegFormer-B0 | 3.72 | 1024 × 1024 | 84.27 |
SegFormer-B2 | 24.73 | 384 × 384 | 81.59 |
SegFormer-B2 | 24.73 | 512 × 512 | 83.03 |
SegFormer-B2 | 24.73 | 1024 × 1024 | 85.72 |
SegFormer-B5 | 81.97 | 384 × 384 | 81.66 |
SegFormer-B5 | 81.97 | 1024 × 1024 | 85.80 |
SegNeXt + MSCAN-T | 4.23 | 384 × 384 | 75.01 |
SegNeXt + MSCAN-T | 4.23 | 512 × 512 | 78.59 |
Авторы
- Капитанов Александр
- Кванчиани Карина
- Кириллова София