- tocdepth
2
Термины и сокращения
- API
Application Programming Interface — программный интерфейс приложений, описание способов для обмена данными между приложениями.
- CSV
Comma-Separated Values — текстовый формат для представления табличных данных.
- Batch prediction
Процесс инференса модели без осуществления деплоя с использованием исходных данных в виде ссылки на датасет на бакете пользователя с последующей отгрузкой результата на бакет пользователя.
- Docker registry
Хранилище репозиториев с образами, которые загружены на платформу ML Space и могут быть использованы в ее модулях.
- GPU
Graphics processing unit — графический процессор, предназначенный для обработки графики и высокопроизводительных вычислений.
- HDFS
Hadoop Distributed File System — файловая система, предназначенная для хранения файлов больших размеров, поблочно распределенных между узлами вычислительного кластера.
- HTTP
HyperText Transfer Protocol — протокол передачи данных по схеме «запрос-ответ».
- Inode
Структура, хранящая метаинформацию о стандартных файлах, каталогах или других объектах файловой системы, кроме непосредственно данных и названия. Используется во всех ОС UNIX файловых системах.
- JSON
JavaScript Object Notation — текстовый формат обмена данными, основанный на JavaScript.
- Jupyter Server
Серверное приложение, позволяющее запускать Jupyter Notebook и JupyterLab — командные графические оболочки для интерактивных вычислений.
- Jupyter Notebook
Среда разработки, в которой код можно разбить по ячейкам, выполнять их в любом порядке и сразу видеть результат. Файл Jupyter Notebook сохраняется с расширением
.ipynb
.- NFS
Собственное «горячее» хранилище в каждом регионе размещения вычислительных ресурсов. Точкой монтирования NFS-хранилища по умолчанию является текущий рабочий каталог пользователя
/home/jovyan
.
- REST
Representational State Transfer — набор архитектурных принципов для построения распределенных масштабируемых веб-сервисов.
- S3
Сервис хранения объектов, разработанный компанией Amazon.
- SSH
Secure Shell — сетевой протокол для удаленного управления операционной системой и туннелирования TCP-соединений. Шифрует весь трафик, включая передаваемые пароли.
- Аллокация
Набор выделенных ресурсов GPU и CPU, которые доступны для использования в рамках подключенных к ней воркспейсов.
- Асинхронный инференс
Процесс выполнения запросов ML-моделью, при котором входящие запросы ставятся в очередь и обрабатываются асинхронно, то есть не дожидаясь подтверждения о полном завершении задач предыдущего шага. Асинхронный инференс необходимо использовать для запросов с большим объемом вычислений, обработки больших объемов данных, длительным временем обработки и при наличии требований работы в режиме реального времени. Асинхронная обработка также позволяет оптимально реализовать преимущества автомасштабирования.
- Базовый образ
Образ, содержащий набор фреймворков и библиотек для использования в одном из модулей ML Space, заранее созданный командой ML Space. Базовые образы могут служить в качестве основы для создания кастомных образов или использоваться непосредственно для запуска окружений и задач.
- Бакет
Логическая сущность, соответствующая экземпляру облачного объектного хранилища, которая служит для хранения и организации объектов.
- Воркспейс
Среда совместного управления данными и артефактами машинного обучения (задачами, экспериментами, деплоями) на платформе ML Space.
- Датасет
- Dataset
Набор данных, используемых в том числе для решения задач машинного обучения. Датасетами, как правило, являются наборы табличных данных. Датасет может состоять из коллекции файлов или документов, с метками или без них.
- Деплой
- Deploy
Процесс развертывания сервиса, осуществляющего инференс модели или выполняющего другие функции, в тестовую или промышленную эксплуатацию.
- Задача обучения
Сущность, порождающая запуск одного или группы контейнеров, в которых производится распределенное обучение модели машинного обучения.
- Инференс
Процесс исполнения обученных моделей машинного обучения для получения предсказаний на данных, поданных на вход модели.
- Источник
Сегмент, из которого передается информация.
- Кастомный образ
Образ, собранный пользователем самостоятельно средствами платформы ML Space или загруженный на нее. Сохраняет или наследует необходимый для использования в модулях ML Space набор фреймворков и библиотек.
- Коннектор
Совокупность драйвера и настроек подключения к экземплярам, обладающим возможностью хранения файлов, например к базам данных и файловым хранилищам.
- Контейнер
Стандартная единица программного обеспечения, в которую упаковано приложение со всеми необходимыми для его работы зависимостями — кодом приложения, средой запуска, системными инструментами, библиотеками и настройками. Контейнеры разворачиваются из образов.
- Машинное обучение
Процесс создания математических моделей данных, которые обладают возможностью решать задачи прогнозирования без использования непосредственных инструкций за счет применения решений множества сходных задач.
- Место назначения
Сегмент, в который осуществляется перенос информации.
- Объект
Единица хранения данных. Объектом может быть один или несколько файлов, а также папка.
- Перенос
Процесс подключения к источнику и перемещение данных в место назначения согласно заданным правилам и с определенной периодичностью.
- Под
Группа из одного или нескольких контейнеров с общим хранилищем и другими ресурсами, а также сетью и настройками для управления контейнерами. Является минимальной единицей в объектной модели Kubernetes.
- Правило переноса
Задача на выгрузку данных из указанного источника и трансфер этих данных в предполагаемое место назначения с возможностью настроить периодичность переноса.
- Препроцессинг
Процесс предварительной обработки данных, включающий одну или несколько стадий: очистка, заполнения пропусков, создание или удаление признаков, слияние, трансформация данных.
- Регион размещения вычислительных ресурсов
Группа ресурсов, доступная для использования в модулях платформы ML Space. Регионы различаются по доступности в модулях, типу и количеству предоставляемых ресурсов, подключенным хранилищам и тарификации. На платформе доступны следующие регионы:
Cloud.Region.CPU (CPU) (только для деплоев)
Cloud.Region.A100 (GPU Tesla A100)
Cloud.Region.HP1
Cloud.Region.HP
Christofari.V100
Christofari.A100
- Образ
Неизменяемая сущность Docker, из которой разворачивается контейнер с окружением или сервисом. Его можно рассматривать как набор файлов, необходимых для запуска и работы приложения. Алгоритм сборки образа описывается в файле dockerfile.
- Образ для задачи обучения
Образ, предназначенный для запуска задач обучения в модуле Environments.
- Окружение
- Environment
Подготовленная среда для осуществления процесса обучения моделей или запуска другого кода в интерактивном режиме. Окружения в платформе ML Space представляют собой запущенные контейнеры Docker с установленными Jupyter Server, необходимыми фреймворками машинного обучения и вспомогательными библиотеками Python.
- Чекпоинты
Промежуточные результаты, или контрольные точки обучения, которые содержат информацию о конфигурации модели, ее переменных, градиентах и весах.
для Dev & Test