Создать инференс в Model RUN
С помощью инструкции вы создадите инференс модели в сервисе ML Inference. Для запуска инференса используются модели из библиотеки Hugging Face.
Перед началом работы
-
Зарегистрируйтесь в Hugging Face, если у вас еще нет аккаунта.
-
Получите токен доступа (User Access Token). Токен позволит использовать модели из приватных репозиториев Hugging Face.
-
Создайте секрет в сервисе Secret Management, указав полученный в Hugging Face токен.
Создать инференс
-
В личном кабинете перейдите в раздел AI Factory → ML Inference.
-
Выберите Model RUN.
-
Нажмите Создать.
-
Заполните поле Название — произвольное название инференса, может совпадать с именем модели.
-
Выберите Runtime — среду запуска инференса модели в зависимости от задачи:
-
Transformers
-
Text Generation Inference
-
Ollama
-
vLLM
-
Diffusers
-
-
Укажите значение параметра Версия Transformers. По умолчанию выбрана последняя версия модели.
-
Нажмите Добавить и укажите адрес репозитория в Hugging Face, откуда будет загружаться модель.
ВниманиеСервис поддерживает инференс моделей с размером кеша моделей до 300 ГБ.
-
Если репозиторий приватный, выберите секрет с токеном Hugging Face, который вы загружали перед началом работы.
-
Нажмите Добавить.
-
Поле Задача модели будет заполнено автоматически после добавления адреса репозитория. Для сред запуска Transformers и Diffusers при необходимости скорректируйте значение в поле.
-
В зависимости от выбранной среды укажите дополнительные параметры:
-
для Text Generation Inference, vLLM и SGLang укажите значение параметра Формат данных;
-
для Text Generation Inference, vLLM и Diffusers укажите до 3 адаптеров (дополнительных моделей).
-
-
Выберите необходимый объем памяти GPU и количество карт GPU (от 1 до 8).
-
Нажмите Продолжить.
-
Задайте настройки масштабирования:
-
Количество экземпляров — минимальное и максимальное количество экземпляров контейнера при масштабировании сервиса.
-
Выберите тип масштабирования — Concurrency или RPS. Подробнее — в разделе Масштабирование контейнера.
-
-
(Опционально) Активируйте опцию Аутентификация для аутентификации пользователя при вызове модели через публичный URL.
-
(Опционально) Активируйте опцию Логирование запросов для ведения журнала запросов к модели. Укажите лог-группу.
-
Нажмите Создать.
Вы будете перенаправлены на страницу сервиса ML Inference. Инференс будет создан и запущен в течение нескольких минут. Дождитесь, когда инференс перейдет в статус «Запущено» и появится публичный URL-адрес.
- Перед началом работы
- Создать инференс