Тарификация ML Inference
Оплата за сервис осуществляется по модели «pay-as-you-go» — только за использованные ресурсы. Актуальная стоимость указана в Тарифах.
В стоимость использования сервиса ML Inference входит:
Тип GPU (видеокарты). См. какие видеокарты поддерживаются;
Количество вычислительных ресурсов — объем выделенной памяти GPU (в ГБ);
Запросы — количество обработанных запросов (миллионов штук);
Кеш модели — объем модели в кеше (ГБ);
Суммарное время работы инференса — измеряется в часах.
Тарификация начинается сразу с момента создания и запуска модели. Тарификация останавливается:
Пример расчета стоимости
Цены в формулах указаны для примера. Актуальная стоимость указана в Тарифах.
Инференс на H100 1 ГБ с кешем модели 4 ГБ класса BERT с типом задачи Text Classification работал в течение 1 часа и обработал 5 млн запросов. Формула расчета стоимости:
Итоговая стоимость = vRAM Гб * цена 1Гб vRAM GPU + (Запросы (в млн.) * 12.8 ₽/миллион запросов) + кэш ML-модели(Гб) * 0.013 ₽/(Гб)* Время в часах
Вычислим цену за время использования инференса.
\((8 \times 5.625 + (5 \times 12.8) + 4 \times 0.013) \times 1 = 109.052 руб\)
Где:
8 ГБ — количество RAM в конфигурации GPU.
5.625 руб — цена за использование 1 ГБ GPU \(\times\) час (RAM).
5 — запросы в миллионах.
4 ГБ — объем модели.
1 — время в часах работы инференса.