Термины и сокращения
- API
Application Programming Interface — программный интерфейс приложений, описание способов для обмена данными между приложениями.
- CSV
Comma-Separated Values — текстовый формат для представления табличных данных.
- Batch prediction
- Docker registry
Процесс инференса модели без осуществления деплоя с использованием исходных данных в виде ссылки на датасет на бакете пользователя с последующей отгрузкой результата на бакет пользователя.
Хранилище репозиториев с образами, которые загружены на платформу ML Space и могут быть использованы в ее модулях.
- GPU
Graphics processing unit — графический процессор, предназначенный для обработки графики и высокопроизводительных вычислений.
- HDFS
Hadoop Distributed File System — файловая система, предназначенная для хранения файлов больших размеров, поблочно распределенных между узлами вычислительного кластера.
- HTTP
HyperText Transfer Protocol — протокол передачи данных по схеме «запрос-ответ».
- Inode
Структура, хранящая метаинформацию о стандартных файлах, каталогах или других объектах файловой системы, кроме непосредственно данных и названия. Используется во всех ОС UNIX файловых системах.
- JSON
JavaScript Object Notation — текстовый формат обмена данными, основанный на JavaScript.
- Jupyter Server
- Jupyter Notebook
- NFS
Серверное приложение, позволяющее запускать Jupyter Notebook и JupyterLab — командные графические оболочки для интерактивных вычислений.
Среда разработки, в которой код можно разбить по ячейкам, выполнять их в любом порядке и сразу видеть результат. Файл Jupyter Notebook сохраняется с расширением .ipynb.
Собственное «горячее» хранилище в каждом регионе размещения вычислительных ресурсов. Точкой монтирования NFS-хранилища по умолчанию является текущий рабочий каталог пользователя /home/jovyan.
- REST
Representational State Transfer — набор архитектурных принципов для построения распределенных масштабируемых веб-сервисов.
- SSH
Secure Shell — сетевой протокол для удаленного управления операционной системой и туннелирования TCP-соединений. Шифрует весь трафик, включая передаваемые пароли.
- Аллокация
- Асинхронный инференс
- Базовый образ
- Бакет
- Воркспейс
- Датасет
- Dataset
- Деплой
- Deploy
- Задача обучения
- Инференс
- Источник
- Кастомный образ
- Коннектор
- Контейнер
- Машинное обучение
- Место назначения
- Объект
- Перенос
- Под
- Правило переноса
- Препроцессинг
- Регион размещения вычислительных ресурсов
Cloud.Region.CPU (CPU) (только для деплоев)
Cloud.Region.A100 (GPU Tesla A100)
Cloud.Region.HP1
Cloud.Region.HP
Christofari.V100
Christofari.A100
- Образ
- Образ для задачи обучения
- Окружение
- Environment
- Чекпоинты
Набор выделенных ресурсов GPU и CPU, которые доступны для использования в рамках подключенных к ней воркспейсов.
Процесс выполнения запросов ML-моделью, при котором входящие запросы ставятся в очередь и обрабатываются асинхронно, то есть не дожидаясь подтверждения о полном завершении задач предыдущего шага. Асинхронный инференс необходимо использовать для запросов с большим объемом вычислений, обработки больших объемов данных, длительным временем обработки и при наличии требований работы в режиме реального времени. Асинхронная обработка также позволяет оптимально реализовать преимущества автомасштабирования.
Образ, содержащий набор фреймворков и библиотек для использования в одном из модулей ML Space, заранее созданный командой ML Space. Базовые образы могут служить в качестве основы для создания кастомных образов или использоваться непосредственно для запуска окружений и задач.
Логическая сущность, соответствующая экземпляру облачного объектного хранилища, которая служит для хранения и организации объектов.
Среда совместного управления данными и артефактами машинного обучения (задачами, экспериментами, деплоями) на платформе ML Space.
Набор данных, используемых в том числе для решения задач машинного обучения. Датасетами, как правило, являются наборы табличных данных. Датасет может состоять из коллекции файлов или документов, с метками или без них.
Процесс развертывания сервиса, осуществляющего инференс модели или выполняющего другие функции, в тестовую или промышленную эксплуатацию.
Сущность, порождающая запуск одного или группы контейнеров, в которых производится распределенное обучение модели машинного обучения.
Процесс исполнения обученных моделей машинного обучения для получения предсказаний на данных, поданных на вход модели.
Сегмент, из которого передается информация.
Образ, собранный пользователем самостоятельно средствами платформы ML Space или загруженный на нее. Сохраняет или наследует необходимый для использования в модулях ML Space набор фреймворков и библиотек.
Совокупность драйвера и настроек подключения к экземплярам, обладающим возможностью хранения файлов, например к базам данных и файловым хранилищам.
Стандартная единица программного обеспечения, в которую упаковано приложение со всеми необходимыми для его работы зависимостями — кодом приложения, средой запуска, системными инструментами, библиотеками и настройками. Контейнеры разворачиваются из образов.
Процесс создания математических моделей данных, которые обладают возможностью решать задачи прогнозирования без использования непосредственных инструкций за счет применения решений множества сходных задач.
Сегмент, в который осуществляется перенос информации.
Единица хранения данных. Объектом может быть один или несколько файлов, а также папка.
Процесс подключения к источнику и перемещение данных в место назначения согласно заданным правилам и с определенной периодичностью.
Группа из одного или нескольких контейнеров с общим хранилищем и другими ресурсами, а также сетью и настройками для управления контейнерами. Является минимальной единицей в объектной модели Kubernetes.
Задача на выгрузку данных из указанного источника и трансфер этих данных в предполагаемое место назначения с возможностью настроить периодичность переноса.
Процесс предварительной обработки данных, включающий одну или несколько стадий: очистка, заполнения пропусков, создание или удаление признаков, слияние, трансформация данных.
Группа ресурсов, доступная для использования в модулях платформы ML Space. Регионы различаются по доступности в модулях, типу и количеству предоставляемых ресурсов, подключенным хранилищам и тарификации. На платформе доступны следующие регионы:
Неизменяемая сущность Docker, из которой разворачивается контейнер с окружением или сервисом. Его можно рассматривать как набор файлов, необходимых для запуска и работы приложения. Алгоритм сборки образа описывается в файле dockerfile.
Образ, предназначенный для запуска задач обучения в модуле Environments.
Подготовленная среда для осуществления процесса обучения моделей или запуска другого кода в интерактивном режиме. Окружения в платформе ML Space представляют собой запущенные контейнеры Docker с установленными Jupyter Server, необходимыми фреймворками машинного обучения и вспомогательными библиотеками Python.
Промежуточные результаты, или контрольные точки обучения, которые содержат информацию о конфигурации модели, ее переменных, градиентах и весах.