Термины и сокращения

API

Application Programming Interface — программный интерфейс приложений, описание способов для обмена данными между приложениями.

CSV

Comma-Separated Values — текстовый формат для представления табличных данных.

Batch prediction

Процесс инференса модели без осуществления деплоя с использованием исходных данных в виде ссылки на датасет на бакете пользователя с последующей отгрузкой результата на бакет пользователя.

Docker registry

Хранилище репозиториев с образами, которые загружены на платформу ML Space и могут быть использованы в ее модулях.

GPU

Graphics processing unit — графический процессор, предназначенный для обработки графики и высокопроизводительных вычислений.

HDFS

Hadoop Distributed File System — файловая система, предназначенная для хранения файлов больших размеров, поблочно распределенных между узлами вычислительного кластера.

HTTP

HyperText Transfer Protocol — протокол передачи данных по схеме «запрос-ответ».

Inode

Структура, хранящая метаинформацию о стандартных файлах, каталогах или других объектах файловой системы, кроме непосредственно данных и названия. Используется во всех ОС UNIX файловых системах.

JSON

JavaScript Object Notation — текстовый формат обмена данными, основанный на JavaScript.

Jupyter Server

Серверное приложение, позволяющее запускать Jupyter Notebook и JupyterLab — командные графические оболочки для интерактивных вычислений.

Jupyter Notebook

Среда разработки, в которой код можно разбить по ячейкам, выполнять их в любом порядке и сразу видеть результат. Файл Jupyter Notebook сохраняется с расширением .ipynb.

NFS

Собственное горячее хранилище в каждом регионе размещения вычислительных ресурсов. Точкой монтирования NFS-хранилища по умолчанию является текущий рабочий каталог пользователя /home/jovyan.

REST

Representational State Transfer — набор архитектурных принципов для построения распределенных масштабируемых веб-сервисов.

S3

Сервис хранения объектов, разработанный компанией Amazon.

SSH

Secure Shell — сетевой протокол для удаленного управления операционной системой и туннелирования TCP-соединений. Шифрует весь трафик, включая передаваемые пароли.

Аллокация

Выделенная часть ресурсов, закрепленная за одним определенным клиентом.

Асинхронный инференс

Процесс выполнения запросов ML-моделью, при котором входящие запросы ставятся в очередь и обрабатываются асинхронно, то есть не дожидаясь подтверждения о полном завершении задач предыдущего шага. Асинхронный инференс необходимо использовать для запросов с большим объемом вычислений, обработки больших объемов данных, длительным временем обработки и при наличии требований работы в режиме реального времени. Асинхронная обработка также позволяет оптимально реализовать преимущества автомасштабирования.

Базовый образ

Образ, содержащий набор фреймворков и библиотек для использования в одном из модулей ML Space, заранее созданный командой ML Space. Базовые образы могут служить в качестве основы для создания кастомных образов или использоваться непосредственно для запуска окружений и задач.

Бакет

Логическая сущность, соответствующая экземпляру облачного объектного хранилища, которая служит для хранения и организации объектов.

Воркспейс

Среда совместного управления данными и артефактами машинного обучения (задачами, экспериментами, деплоями) на платформе ML Space.

Датасет
Dataset

Набор данных, используемых в том числе для решения задач машинного обучения. Датасетами, как правило, являются наборы табличных данных. Датасет может состоять из коллекции файлов или документов, с метками или без них.

Деплой
Deploy

Процесс развертывания сервиса, осуществляющего инференс модели или выполняющего другие функции, в тестовую или промышленную эксплуатацию.

Задача обучения

Сущность, порождающая запуск одного или группы контейнеров, в которых производится распределенное обучение модели машинного обучения.

Инференс

Процесс исполнения обученных моделей машинного обучения для получения предсказаний на данных, поданных на вход модели.

Источник

Сегмент, из которого передается информация.

Кастомный образ

Образ, собранный пользователем самостоятельно средствами платформы ML Space или загруженный на нее. Сохраняет или наследует необходимый для использования в модулях ML Space набор фреймворков и библиотек.

Коннектор

Совокупность драйвера и настроек подключения к экземплярам, обладающим возможностью хранения файлов, например к базам данных и файловым хранилищам.

Контейнер

Стандартная единица программного обеспечения, в которую упаковано приложение со всеми необходимыми для его работы зависимостями — кодом приложения, средой запуска, системными инструментами, библиотеками и настройками. Контейнеры разворачиваются из образов.

Машинное обучение

Процесс создания математических моделей данных, которые обладают возможностью решать задачи прогнозирования без использования непосредственных инструкций за счет применения решений множества сходных задач.

Место назначения

Сегмент, в который осуществляется перенос информации.

Объект

Единица хранения данных. Объектом может быть один или несколько файлов, а также папка.

Перенос

Процесс подключения к источнику и перемещение данных в место назначения согласно заданным правилам и с определенной периодичностью.

Под

Группа из одного или нескольких контейнеров с общим хранилищем и другими ресурсами, а также сетью и настройками для управления контейнерами. Является минимальной единицей в объектной модели Kubernetes.

Правило переноса

Задача на выгрузку данных из указанного источника и трансфер этих данных в предполагаемое место назначения с возможностью настроить периодичность переноса.

Препроцессинг

Процесс предварительной обработки данных, включающий одну или несколько стадий: очистка, заполнения пропусков, создание или удаление признаков, слияние, трансформация данных.

Регион размещения вычислительных ресурсов

Группа ресурсов, доступная для использования в модулях платформы ML Space. Регионы различаются по доступности в модулях, типу и количеству предоставляемых ресурсов, подключенным хранилищам и тарификации. На платформе доступны следующие регионы:

  • Cloud.Region.CPU (CPU).

  • Cloud.Region.A100 (GPU Tesla A100).

  • Cloud.Region.HP1.

  • Christofari.V100.

  • Christofari.A100.

Образ

Неизменяемая сущность Docker, из которой разворачивается контейнер с окружением или сервисом. Его можно рассматривать как набор файлов, необходимых для запуска и работы приложения. Алгоритм сборки образа описывается в файле dockerfile.

Образ для задачи обучения

Образ, предназначенный для запуска задач обучения в модуле Environments.

Окружение
Environment

Подготовленная среда для осуществления процесса обучения моделей или запуска другого кода в интерактивном режиме. Окружения в платформе ML Space представляют собой запущенные контейнеры Docker с установленными Jupyter Server, необходимыми фреймворками машинного обучения и вспомогательными библиотеками Python.

Чекпоинты

Промежуточные результаты, или контрольные точки обучения, которые содержат информацию о конфигурации модели, ее переменных, градиентах и весах.

Масштабная конференция
GoCloud 2024:
облачные грани будущего