С помощью инструкции вы создадите контейнер, содержащий Docker-образ с пользовательской моделью (Docker RUN).
Вы сможете использовать ресурсы GPU сервиса ML Inference для инференса модели.
Для запуска инференса используются пользовательские модели в Docker-образе.
В личном кабинете перейдите в раздел AI Factory → ML Inference.
Перейдите в раздел Docker RUN.
Нажмите Создать.
Заполните поле Название инференса — произвольное название инференса.
Настройте общие параметры:
Укажите URI Docker-образа.
Для поиска и выбора доступны образы, размещенные в реестре сервиса Artifact Registry в текущем проекте. Также вы можете использовать образы из реестров в других проектах, но только если реестры являются публичными. Для добавления URI образа из публичного реестра другого проекта используйте Поиск образа по URI.
После заполнения данных нажмите Выбрать.
Выберите конфигурацию ресурсов — GPU, vCPU и RAM.
В поле Порты контейнера укажите порты.
(Опционально) В поле Команда точки входа укажите команду точки входа по умолчанию, заданную в образе контейнера. Можно указать несколько команд через запятую.
(Опционально) В поле Аргументы укажите аргументы для перезаписи аргументов для команды точки входа по умолчанию, заданные в образе контейнера. Можно указать несколько аргументов через запятую.
(Опционально) Укажите переменные окружения. Подробнее о переменных — в статье Среда выполнения.
(Опционально) Настройте health-пробы.
Откройте вкладку Health-пробы.
Нажмите Добавить Liveness-пробу или Добавить Readiness-пробу и заполните поля:
Начальная задержка, сек — время после запуска контейнера, через которое выполняется первая liveness-проба.
Частота запуска пробы, сек — частота проверки работоспособности приложения.
Таймаут пробы, сек — время ожидания выполнения пробы.
Количество успешных проб — при достижении указанного количества последовательных успешных проб приложение считается готовым и начинает получать трафик.
Плавное завершение, сек — период между получением сигнала на перезапуск контейнера при неуспешной пробе и выключением контейнера перед перезапуском.
Способ запуска — выберите подходящий способ:
exec — проба для запуска команды оболочки. Если команда возвращает код 0, то проба считается успешной. При получении других кодов проба считается неуспешной.
http — проба для отправки HTTP-запроса на сервер в контейнере. На URL отправляется HTTP GET-запрос и проверяется статус ответа. При получении кодов ответа 2xx и 3xx проба считается успешной. При получении кодов от 400 и выше проба считается неуспешной. Поле Путь должно содержать абсолютный путь. Если в пути используются специальные символы, например, пробелы, запятые, кириллические символы и другие, то предварительно перекодируйте путь в формат UTF-8.
Укажите путь до команды.
Нажмите Продолжить.
Укажите настройки масштабирования:
Выберите минимальное и максимальное количество экземпляров контейнера. При минимальном количестве экземпляров «0» — модель работает в serverless-режиме и автоматически отключается при отсутствии запросов. При поступлении новых запросов модель запускается повторно.
Укажите время доступности модели при отсутствии нагрузки.
(Опционально) Включите опцию Не выключать модель для того, чтобы модель всегда была доступна.
Выберите тип масштабирования:
RPS — запросы в секунду на экземпляр, автомасштабирование начинается при достижении заданного лимита на количество запросов в секунду на экземпляр.
Сoncurrency — параллельные запросы на экземпляр, автомасштабирование начинается при достижении заданного лимита на количество одновременных запросов на экземпляр.
Укажите количество запросов к модели в секунду.
Нажмите Продолжить.
(Опционально) Чтобы модель принимала запросы только от указанного сервисного аккаунта, включите опцию Аутентификация. Подробнее об аутентификации в ML Inference.
(Опционально) Для логирования пользовательских запросов к Docker-образу включите опцию Логирование запросов.
Нажмите Создать.
Вы будете перенаправлены на страницу сервиса ML Inference. Docker-образ с инференсом будет создан и запущен в течение нескольких минут. Дождитесь, когда инференс перейдет в статус «Запущен» и появится публичный URL-адрес.