Облачная платформаEvolution

Маршрутизация запросов

Эта статья полезна?

Маршрутизация запросов — это механизм, который обеспечивает стабильную работу инференса при пиковых нагрузках или снижении производительности работы AI-модели в Foundation Models.

При создании или настройке маршрутизации указываются опции масштабирования — мягкий и жесткий лимиты, а также Target burst capacity. Мягкий лимит определяет порог, при достижении которого система начинает отслеживать нагрузку, а жесткий лимит — порог, при превышении которого трафик гарантированно переключается на инференс. Параметр Target burst capacity определяет максимальное количество реплик Model RUN, до которого может быть увеличено масштабирование при резком росте нагрузки.

Для работы маршрутизатора требуется, чтобы Model RUN находился в статусе «Ожидает запроса» или «Запущен» и был настроен с аутентификацией через API-ключ.

В обычном режиме весь трафик направляется на модели Foundation Models, и пользовательский инференс остается в режиме ожидания, активируясь только при превышении установленных лимитов. При этом пользователь также может создать инференс с постоянным количеством реплик, например 1-1, который будет всегда активен. В таком случае запросы будут распределяться между инференсом и Foundation Models по установленным правилам маршрутизации, однако инференс не будет выключаться даже при снижении нагрузки.

См.также

Создать маршрутизатор

Предыдущая статья

Требования к Docker-образу

Следующая статья

Аудит-логирование в ML Inference

Эта статья полезна?

Поддержка Юридические документы Политика конфиденциальности