Для корректной интеграции с Foundation Models необходимо использовать аутентификацию через API-ключ. Другие методы аутентификации не поддерживаются.
Для AI-модели и инференса Model RUN необходимо использовать один сервисный аккаунт. Использование разных аккаунтов не поддерживается.
Для создания маршрутизатора:
На верхней панели слева нажмите и перейдите в AI Factory → ML Inference → Маршрутизаторы.
Нажмите Создать маршрутизатор.
В поле Название укажите название маршрутизатора или оставьте указанное по умолчанию.
Выберите AI-модель из Foundation Models.
Выберите инференс Model RUN или нажмите Создать инференс для создания нового.
Для выбора доступны инференсы со следующими параметрами:
Runtime — vLLM, SGLang, Ollama;
статус «Запущен» или «Ожидает запроса»;
аутентификация через API-ключ.
Нажмите Продолжить.
Настройте опции масштабирования для модели из Foundation Models:
Мягкое ограничение — порог, при достижении которого система начинает мониторить нагрузку.
Жесткое ограничение — порог, после которого трафик переводится на пользовательский инференс.
Настройте опции масштабирования для инференса Model RUN:
Мягкое ограничение — порог, при достижении которого система начинает мониторить нагрузку.
Жесткое ограничение — порог, после которого весь трафик переводится на инференс Model RUN.
Target burst capacity — максимальное количество реплик Model RUN, до которого можно увеличить масштабирование при резком росте нагрузки.
Нажмите Создать.
После успешного создания и запуска маршрутизатора в штатном режиме все запросы обрабатываются через Foundation Models. Когда нагрузка на Foundation Models превышает установленные лимиты, трафик автоматически переключается на указанный инференс Model RUN.