Evolution
Тема интерфейса

Тарификация ML Inference

Оплата за сервис осуществляется по модели «pay-as-you-go» — только за использованные ресурсы. Актуальная стоимость указана в Тарифах.

В стоимость использования сервиса ML Inference входит:

  • Тип GPU (видеокарты).

  • Количество вычислительных ресурсов — объем выделенной памяти GPU (в ГБ).

  • Запросы — количество обработанных запросов (миллионов штук).

  • Кеш модели — объем модели в кеше (ГБ).

  • Суммарное время работы инференса — измеряется в часах.

Тарификация начинается сразу с момента создания и запуска модели. Тарификация останавливается:

Пример расчета стоимости

Цены в формулах указаны для примера. Актуальная стоимость указана в Тарифах.

Инференс на H100 1 ГБ с кешем модели 4 ГБ класса BERT с типом задачи Text Classification работал в течение 1 часа и обработал 5 млн запросов. Формула расчета стоимости:

Итоговая стоимость = vRAM Гб * Цена 1 ГБ vRAM GPU + (Запросы (в млн) * 12.8 ₽/1 миллион запросов) + Кеш ML-модели (ГБ) * 0.013 ₽/(ГБ) * Время в часах

Вычислим цену за время использования инференса.

\((8 \times 5.625 + (5 \times 12.8) + 4 \times 0.013) \times 1 = 109.052\)

Где:

  • 8 ГБ — количество RAM в конфигурации GPU;

  • 5.625 ₽ — цена за использование 1 ГБ GPU \(\times\) час (RAM);

  • 5 — запросы в миллионах;

  • 4 ГБ — объем модели;

  • 1 — время в часах работы инференса.