Масштабирование инференса
Масштабирование задается при создании инференса и зависит от двух параметров:
минимальное и максимальное количество экземпляров контейнера;
количество запросов в секунду (порог масштабирования).
Работа и тарификация экземпляров инференса отличается в зависимости от этих параметров.

Количество экземпляров больше нуля
Когда минимальное количество экземпляров больше нуля, указанное число экземпляров модели постоянно работает. Эти экземпляры предварительно загружены в память и готовы к обработке запросов.
Ресурсы для минимальных экземпляров тарифицируются непрерывно, независимо от текущей нагрузки. Это гарантирует постоянную доступность сервиса, но требует стабильных вычислительных затрат.
В качестве примера рассмотрим конфигурацию с min_replicas = 1 и порогом масштабирования 200 RPS (количество запросов в секунду). В этом случае один экземпляр модели всегда активен и потребляет ресурсы. Когда нагрузка превышает 200 RPS, система автоматически создает второй экземпляр для распределения запросов.
Если нагрузка снижается, например до 150 RPS или при полном отсутствии запросов, второй экземпляр уничтожается. При этом первый экземпляр сохраняет рабочее состояние вне зависимости от уровня нагрузки.
Количество экземпляров равно нулю
Если минимальное количество экземпляров равно нулю и запросы отсутствуют более 40 секунд, модель удаляется.
При поступлении новых запросов экземпляр модели создается из кеша и отвечает на запрос, происходит старт модели. В течение времени, когда нет запущенных экземпляров, инференс не тарифицируется.
- Количество экземпляров больше нуля
- Количество экземпляров равно нулю