tocdepth

2

Управление данными на платформе ML Space

Работа с данными в рамках платформы осуществляется в следующих направлениях:

  • Загрузка данных.

  • Хранение данных.

  • Миграция данных.

Пользователи могут загружать данные в объектное хранилище S3 из локальных и внешних источников. Объектное хранилище S3 является основным ресурсом для хранения большого объема данных. Это могут быть:

  • Датасеты

  • Serving-скрипты

  • Код обучения моделей

  • Изображения

  • Другие данные, которые используются различными сервисами платформы

Над данными в хранилище можно производить различные операции: скачивать, удалять, просматривать превью, их текущую версию и свойства.

Управление данными подразумевает использование данных различными сервисами. Так, для задач обучения данные из S3 можно перенести в «горячее» хранилище NFS региона. NFS обеспечивает быстрый доступ к данным во время обучения моделей.

Миграция пользовательских данных включает:

  • Обмен данными между разными S3 бакетами в рамках одного или разных воркспейсов. Данные из объектного хранилища S3 могут использоваться в рамках других сервисов.

  • Обмен данными между внутренними хранилищами платформы ML Space — S3 и NFS.

  • Перенос данных из внешних баз данных и файловых систем в ML Space.

Использование данных для обучения моделей

Для обучения моделей (см. Обучение моделей) пользовательские данные с S3 необходимо перенести в «горячее» хранилище NFS ML Space.

В NFS региона нет прямого доступа к хранилищам данных (S3), а есть доступ только к пользовательским файлам, которые находятся на NFS-дисках региона. Точкой монтирования NFS региона по умолчанию является текущий рабочий каталог пользователя /home/jovyan/. Обзор данных на NFS и управление этими данными осуществляется через интерфейс Jupyter Server.

При создании окружений (см. подробнее Регионы размещения ресурсов) для каждого региона используется независимое хранилище.

Запустили Evolution free tier
для Dev & Test
Получить