- tocdepth
2
Создать инференс в ML Inference
С помощью инструкции вы создадите инференс модели в сервисе ML Inference. Для запуска инференса используются модели из библиотеки Hugging Face.
Перед началом работы
Зарегистрируйтесь в Hugging Face, если у вас еще нет аккаунта.
Получите токен доступа (User Access Token). Токен позволит использовать модели из приватных репозиториев Hugging Face.
Создайте секрет в сервисе Secret Manager, указав полученный в Hugging Face токен.
Создать инференс
В личном кабинете перейдите в раздел .
Нажмите Создать.
Заполните поле Название — произвольное название инференса, может совпадать с именем модели.
Нажмите Добавить и укажите адрес репозитория в Hugging Face, откуда будет загружаться модель.
Если репозиторий приватный, выберите секрет с токеном Hugging Face, который вы загружали перед началом работы.
Нажмите Добавить.
Поле Задача модели будет заполнено автоматически после добавления адреса репозитория. При необходимости скорректируйте значение в поле.
Выберите необходимый объем памяти GPU.
Нажмите Продолжить.
Задайте настройки масштабирования:
Количество экземпляров — минимальное и максимальное количество экземпляров контейнера при масштабировании сервиса.
Выберите тип масштабирования — Concurrency или RPS. Подробнее — в разделе Масштабирование контейнера.
(Опционально) Активируйте опцию Аутентификация для аутентификации пользователя при вызове модели через публичный URL.
(Опционально) Активируйте опцию Логирование запросов для ведения журнала запросов к модели.
Нажмите Создать.
Вы будете перенаправлены на страницу сервиса ML Inference. Инференс будет создан и запущен в течение нескольких минут. Дождитесь, когда инференс перейдет в статус «Запущено» и появится публичный URL-адрес.
для Dev & Test