nav-img
Evolution

Тарификация ML Inference

Оплата за сервис осуществляется по модели «pay-as-you-go» — только за использованные ресурсы. Актуальная стоимость указана в Тарифах.

В стоимость использования сервиса ML Inference входит:

  • Тип GPU (видеокарты). См. какие видеокарты поддерживаются;

  • Количество вычислительных ресурсов — объем выделенной памяти GPU (в ГБ);

  • Запросы — количество обработанных запросов (миллионов штук);

  • Кеш модели — объем модели в кеше (ГБ);

  • Суммарное время работы инференса — измеряется в часах.

Тарификация начинается сразу с момента создания и запуска модели. Тарификация останавливается:

Пример расчета стоимости

Цены в формулах указаны для примера. Актуальная стоимость указана в Тарифах.

Инференс на H100 1 ГБ с кешем модели 4 ГБ класса BERT с типом задачи Text Classification работал в течение 1 часа и обработал 5 млн запросов. Формула расчета стоимости:

Итоговая стоимость = vRAM Гб * цена 1Гб vRAM GPU + (Запросы (в млн.) * 12.8 ₽/миллион запросов) + кэш ML-модели(Гб) * 0.013 ₽/(Гб)* Время в часах

Вычислим цену за время использования инференса.

\((8 \times 5.625 + (5 \times 12.8) + 4 \times 0.013) \times 1 = 109.052 руб\)

Где:

  • 8 ГБ — количество RAM в конфигурации GPU.

  • 5.625 руб — цена за использование 1 ГБ GPU \(\times\) час (RAM).

  • 5 — запросы в миллионах.

  • 4 ГБ — объем модели.

  • 1 — время в часах работы инференса.