Оплата за сервис осуществляется по модели «pay-as-you-go» — только за использованные ресурсы. Актуальная стоимость указана в Тарифах.
В стоимость использования сервиса ML Inference входит:
-
Тип GPU (видеокарты).
См.также -
Количество вычислительных ресурсов — объем выделенной памяти GPU (в ГБ).
-
Запросы — количество обработанных запросов (миллионов штук).
-
Кеш модели — объем модели в кеше (ГБ).
-
Суммарное время работы инференса — измеряется в часах.
Тарификация начинается сразу с момента создания и запуска модели. Тарификация останавливается:
Пример расчета стоимости
Цены в формулах указаны для примера. Актуальная стоимость указана в Тарифах.
Инференс на H100 1 ГБ с кешем модели 4 ГБ класса BERT с типом задачи Text Classification работал в течение 1 часа и обработал 5 млн запросов. Формула расчета стоимости:
Итоговая стоимость = vRAM Гб * Цена 1 ГБ vRAM GPU + (Запросы (в млн) * 12.8 ₽/1 миллион запросов) + Кеш ML-модели (ГБ) * 0.013 ₽/(ГБ) * Время в часах
Вычислим цену за время использования инференса.
\((8 \times 5.625 + (5 \times 12.8) + 4 \times 0.013) \times 1 = 109.052\) ₽
Где:
-
8 ГБ — количество RAM в конфигурации GPU;
-
5.625 ₽ — цена за использование 1 ГБ GPU \(\times\) час (RAM);
-
5 — запросы в миллионах;
-
4 ГБ — объем модели;
-
1 — время в часах работы инференса.
- Пример расчета стоимости