Последнее обновление: 07 ноября 2025 г.
Вступление в силу: 17 ноября 2025 г.
1. Общая информация и описание Услуги
1.1. Evolution ML Inference (далее – Услуга) – это облачное решение для развертывания ML-моделей, которое поддерживает динамическое масштабирование и взаимодействие с разными источниками событий, такими как HTTP-запросы.
1.2.
реализована на оборудовании, принадлежащем Исполнителю, и средствами системы виртуализации собственной разработки (в т. ч. на базе компонентов с открытым исходным кодом). Услуги является ML-модель.1.3. Функциональные возможности:
1.3.1. развертывание ML-моделей для обработки запросов или событий;
1.3.2. развертывание контейнеров для обработки запросов или событий;
1.3.3. загрузка моделей из HuggingFace публичных и приватных репозиториев;
1.3.4. автоматическое масштабирование модели в зависимости от нагрузки;
1.3.5. управление и контроль доступа к модели;
1.3.6. мониторинг и сбор статистики по потреблению ресурсов модели;
1.3.7. управление конфигурацией модели.
1.4.
состоит из следующих компонентов:1.4.1. сервис-контроллер для управления Услугой из личного кабинета Облачной Платформы;
1.4.2. компонент сбора данных мониторинга;
1.4.3. компонент, отвечающий за управление жизненным циклом продукта;
1.4.4. компонент, отвечающий за сбор тарификационных данных;
1.4.5. интеграция с сервисом Evolution Artifact Registry;
1.4.6. Платформа Evolution, обеспечивающая выбор
для разворачивания программного обеспечения.1.5. Обеспечение защиты
.Защита инфраструктуры Облачной Платформы обеспечивается на следующих уровнях:
на физическом уровне;
на сетевом уровне;
на инфраструктурном уровне;
обеспечение защиты от несанкционированного доступа к
, на которых функционирует сервис;антивирусная защита виртуальных машин, на которых функционирует сервис;
периодическая проверка на соответствие требованиям информационной безопасности (в том числе с использованием сканеров безопасности) и обновление образов виртуальных машин, используемых сервисом, и установленной на них операционной системой;
мониторинг и реагирование на инциденты информационной безопасности, возникающие при функционировании сервиса;
межсетевое экранирование сетевых потоков сервиса средствами Платформы Evolution.
2. Базовая функциональность и Ресурсы Услуги
2.1. Параметры
:Услуга | Тарифицируемые Ресурсы | Характеристики и метрики | Допустимые значения |
|---|---|---|---|
Shared GPU1 | Видео память GPU H100 PCIe | Объем vRAM GPU (ГБ) | 1 |
Время работы (минуты) | 1 | ||
Видео память GPU A100 PCIe | Объем vRAM GPU (ГБ) | 1 | |
Время работы (минуты) | 1 | ||
Видео память GPU V100 NVLink | Объем vRAM GPU (ГБ) | 1 | |
Время работы (минуты) | 1 | ||
Видео память GPU H100 NVLink | Объем vRAM GPU (ГБ) | 1 | |
Время работы (минуты) | 1 | ||
Вычислительные ресурсы | Инстанс тип 1xH100 NVLink /20vCPU/190Gb RAM | Количество vСPU (шт.) | 20 |
Объём RAM (ГБ) | 190 | ||
Количество GPU (шт.) | 1 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 2xH100 NVLink /40vCPU/380Gb RAM | Количество vСPU (шт.) | 40 | |
Объём RAM (ГБ) | 380 | ||
Количество GPU (шт.) | 2 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 4xH100 NVLink /80vCPU/760Gb RAM | Количество vСPU (шт.) | 80 | |
Объём RAM (ГБ) | 760 | ||
Количество GPU (шт.) | 4 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 6xH100 NVLink /120vCPU/1140Gb RAM | Количество vСPU (шт.) | 120 | |
Объём RAM (ГБ) | 1 140 | ||
Количество GPU (шт.) | 6 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 8xH100 NVLink /160vCPU/1520Gb RAM | Количество vСPU (шт.) | 160 | |
Объём RAM (ГБ) | 1 520 | ||
Количество GPU (шт.) | 8 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 1xV100 NVLink /4vCPU/64Gb RAM | Количество vСPU (шт.) | 4 | |
Объём RAM (ГБ) | 64 | ||
Количество GPU (шт.) | 1 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 2xV100 NVLink /8vCPU/128Gb RAM | Количество vСPU (шт.) | 8 | |
Объём RAM (ГБ) | 128 | ||
Количество GPU (шт.) | 2 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 4xV100 NVLink /16vCPU/256Gb RAM | Количество vСPU (шт.) | 16 | |
Объём RAM (ГБ) | 256 | ||
Количество GPU (шт.) | 4 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 8xV100 NVLink /32vCPU/512Gb RAM | Количество vСPU (шт.) | 32 | |
Объём RAM (ГБ) | 512 | ||
Количество GPU (шт.) | 8 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 16xV100 NVLink/64vCPU/1024Gb RAM | Количество vСPU (шт.) | 64 | |
Объём RAM (ГБ) | 1024 | ||
Количество GPU (шт.) | 16 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 1xA100 PCIe/20vCPU/125Gb RAM | Количество vСPU (шт.) | 20 | |
Объём RAM (ГБ) | 125 | ||
Количество GPU (шт.) | 1 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 2xA100 PCIe/40vCPU/250Gb RAM | Количество vСPU (шт.) | 40 | |
Объём RAM (ГБ) | 250 | ||
Количество GPU (шт.) | 2 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 4xA100 PCIe/80vCPU/500Gb RAM | Количество vСPU (шт.) | 80 | |
Объём RAM (ГБ) | 500 | ||
Количество GPU (шт.) | 4 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 6xA100 PCIe/120vCPU/750Gb RAM | Количество vСPU (шт.) | 120 | |
Объём RAM (ГБ) | 750 | ||
Количество GPU (шт.) | 6 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 8xA100 PCIe/160vCPU/1000Gb RAM | Количество vСPU (шт.) | 160 | |
Объём RAM (ГБ) | 1 000 | ||
Количество GPU (шт.) | 8 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 1xH100 PCIe/20vCPU/125Gb RAM | Количество vСPU (шт.) | 20 | |
Объём RAM (ГБ) | 125 | ||
Количество GPU (шт.) | 1 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 2xH100 PCIe/40vCPU/250Gb RAM | Количество vСPU (шт.) | 40 | |
Объём RAM (ГБ) | 250 | ||
Количество GPU (шт.) | 2 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 4xH100 PCIe/80vCPU/500Gb RAM | Количество vСPU (шт.) | 80 | |
Объём RAM (ГБ) | 500 | ||
Количество GPU (шт.) | 4 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 6xH100 PCIe/120vCPU/750Gb RAM | Количество vСPU (шт.) | 120 | |
Объём RAM (ГБ) | 750 | ||
Количество GPU (шт.) | 6 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 8xH100 PCIe/160vCPU/1000Gb RAM | Количество vСPU (шт.) | 160 | |
Объём RAM (ГБ) | 1 000 | ||
Количество GPU (шт.) | 8 | ||
Время работы (минуты) | 1 | ||
Кэш ML-моделей2 | Хранение модели | Объем модели (Гб) | 1 |
Время работы (минуты) | 1 | ||
Запросы в запущеный Инстанс | Запросы (шт) | 1 000 000 |
Примечания
[1] : Shared GPU – Заказчику предоставляется возможность частичного потребления GPU-ресурса (в пределах его физического объёма памяти), что позволяет гибко утилизировать ресурсы, а также эффективно (с т.з. цены) размещать ML-модели.
[2] : Кэш ML-моделей: временные файлы, формируемые запущенной ML-Моделью, необходимые для ее работы. Указанное пространство не является хранилищем Заказчика (в т.ч. для долгосрочного хранения информации), очищается автоматически в момент, когда ML-Модель не используется Заказчиком.
3. Тарификация Услуги
3.1. Для данной
используется Динамическая тарификация (Pay as you go). Клиент начинает платить за запущенную модель после переход ее в статус «Запущено», и плата начисляется за потребляемые вычислительные Ресурсы, хранения модели и количеству обращений в модель.3.2. Динамическая тарификация предполагает оплату пула
(см. п. 2.1. Приложения) по факту их потребления Заказчиков в течение .3.3. Окончательная стоимость
в формируется в соответствии с тарифами, установленными в Приложении № 7.EVO.11.1. к Договору.3.4. Объекты тарификации:
Тарифицируются вычислительные ресурсы;
Тарифицируется хранение модели в кэше;
Тарифицируются запросы к модели.
3.5. Величина ежемесячного платежа за пользование
определяется в соответствии с фактическим потреблением . Доступные Ресурсы и методика расчета перечислены в примере ниже:3.6. Пример расчета
3.6.1. Для Shared GPU1
Общая формула расчета:
Где:
\(\text{vRAM Гб}\) — объем выделенной видеопамяти GPU в гигабайтах;
\(\text{цена 1Гб vRAM GPU}\) — стоимость 1Гб видео памяти GPU карты, указана в Тарифах Услуги;
\(Запросы\) — количество обработанных запросов (в миллионах).;
\(\text{Кеш ML-модели (Гб)}\) — объем модели в кеше в гигабайтах;
\(\text{Время в секундах}\) — продолжительность работы в секундах.
Пример расчета (Цена 1Гб H100: 5,625 руб; Запросы: 5 млн; Объем модели: 4 ГБ; Время: 1 час;):
3.6.2. Для Инстанс типов:
Общая формула расчета:
Где:
\(\text{Стоимость Инстанса}\) — фиксированная стоимость выделенного оборудования указана в Тарифах Услуги;
\(Запросы\) — количество обработанных запросов (в миллионах).;
\(\text{Кеш ML-модели (Гб)}\) — объем модели в кеше в гигабайтах;
\(\text{Время в секундах}\) — продолжительность работы в секундах.
Пример расчета (Стоимость инстанса: 0.125 ₽/сек; Запросы: 5 млн; Объем модели: 20 ГБ; Время: 1 час.):
4. Иные условия, применимые к Услуге
4.1. Возможные виды подключения / изменения / отключения
:4.1.1. Посредством совершения действий в
.4.1.2. В отношении с GPU — в порядке, установленном в пункте п.4.5 Приложения.
4.2. Возможный порядок расчётов по
:4.3. Возможные способы оплаты / порядок пополнения
:4.3.1. В безналичном порядке на основании выставленного Исполнителем счёта;
4.3.2. оплата посредством электронных средств платежа.
4.4. Требования к инфраструктуре Заказчика:
4.4.1. Наличие доступа в Интернет.
4.5. Стороны установили следующий порядок Заказа GPU/Увеличения объема памяти GPU по Приложению:
4.5.1. Подключение
осуществляется Исполнителем на основании через службу технической поддержки Исполнителя. Запрос должен быть направлен не позднее, чем за 6 (шесть) рабочих дней до желаемой даты начала потребления Услуги;4.5.2. В течение 3 (трех) рабочих дней Исполнитель обязуется рассмотреть
на подключение и направить ответ (информацию о подключении Услуги или отказ в её предоставлении Услуги);4.5.3. В случае согласования Сторонами
она предоставляется в дату начала её оказания (в соответствии с информацией в ) с 10:00 по московскому времени.Примечания
5. Особенности уровня предоставления Услуги
5.1. В соответствии с пп. 1.1.4. вносятся следующие уточнения в уровень предоставления
, действующий в отношении услуг Evolution по умолчанию (Приложения № 2.EVO.0. к Договору).5.2.2.
является ситуация, при которой ML-моделей была развернута и, находясь в статусе «Запущена», не принимает запросы/события и не дает ответа в течение 5 (пяти) и более минут по причинам, зависящим от Cloud.ru5.2.3. Компенсация выплачивается пропорционально объёму недоступных
, т.е. Компенсация за нарушение целевых показателей рассчитывается согласно количеству недоступных Ресурсов.5.3. Во всём остальном в части уровня предоставления
применимы положения Приложения № 2.EVO.0. к Договору.