- tocdepth
2
Работа с данными
Работа с данными в рамках платформы ML Space осуществляется в следующих направлениях:
Загрузка данных.
Хранение данных.
Управление данными.
Миграция данных.
Пользователи могут загружать данные в объектное хранилище S3 из локальных и внешних источников. Объектное хранилище S3 является основным ресурсом для хранения большого объема данных. Это могут быть:
Датасеты
Serving-скрипты
Код обучения моделей
Изображения
Другие данные, которые используются различными сервисами платформы
Над данными в хранилище можно производить различные операции: скачивать, удалять, просматривать превью, их текущую версию и свойства.
Управление данными подразумевает использование данных различными сервисами. Так, для задач обучения данные из S3 можно перенести в «горячее» хранилище NFS региона Christofari.V100, Christofari.A100, Cloud.Region.A100 (GPU Tesla A100). NFS обеспечивает быстрый доступ к данным во время обучения моделей.
Миграция пользовательских данных включает:
Обмен данными между разными S3 бакетами в рамках одного или разных воркспейсов. Данные из объектного хранилища S3 могут использоваться в рамках других сервисов.
Обмен данными между внутренними хранилищами платформы ML Space — S3 и NFS.
Перенос данных из внешних баз данных и файловых систем в Data catalog ML Space.
Использование данных для обучения моделей
Для обучения моделей (см. Обучение моделей) пользовательские данные с S3 необходимо перенести в «горячее» хранилище NFS ML Space.
В NFS региона нет прямого доступа к хранилищам данных (S3), а есть доступ только к пользовательским файлам, которые находятся на NFS-дисках региона.
Точкой монтирования NFS региона по умолчанию является текущий рабочий каталог пользователя /home/jovyan/
.
Обзор данных на NFS и управление этими данными осуществляется через интерфейс Jupyter Server.
При создании окружений (см. подробнее Регионы размещения ресурсов) для каждого региона используется независимое хранилище.
для Dev & Test