Создать инференс в Model RUN
С помощью инструкции вы создадите инференс модели в сервисе ML Inference. Для запуска инференса используются модели из библиотеки Hugging Face.
Перед началом работы
Зарегистрируйтесь в Hugging Face, если у вас еще нет аккаунта.
Получите токен доступа (User Access Token). Токен позволит использовать модели из приватных репозиториев Hugging Face.
Создайте секрет в сервисе Secret Management, указав полученный в Hugging Face токен.
Создать инференс
В личном кабинете перейдите в раздел ML/AI Инструменты → ML Inference.
Выберите Model RUN.
Нажмите Создать.
Заполните поле Название — произвольное название инференса, может совпадать с именем модели.
Выберите Runtime — среду запуска инференса модели в зависимости от задачи:
Transformers
Text Generation Inference
Ollama
vLLM
Diffusers
Укажите значение параметра Версия Transformers. По умолчанию выбрана последняя версия модели.
Нажмите Добавить и укажите адрес репозитория в Hugging Face, откуда будет загружаться модель.
ВниманиеСервис поддерживает инференс моделей с размером кеша моделей до 300 ГБ.
Если репозиторий приватный, выберите секрет с токеном Hugging Face, который вы загружали перед началом работы.
Нажмите Добавить.
Поле Задача модели будет заполнено автоматически после добавления адреса репозитория. Для сред запуска Transformers и Diffusers при необходимости скорректируйте значение в поле.
В зависимости от выбранной среды укажите дополнительные параметры:
для Text Generation Inference, vLLM и SGLang укажите значение параметра Формат данных;
для Text Generation Inference, vLLM и Diffusers укажите до 3 адаптеров (дополнительных моделей).
Выберите необходимый объем памяти GPU и количество карт GPU (от 1 до 8).
Нажмите Продолжить.
Задайте настройки масштабирования:
Количество экземпляров — минимальное и максимальное количество экземпляров контейнера при масштабировании сервиса.
Выберите тип масштабирования — Concurrency или RPS. Подробнее — в разделе Масштабирование контейнера.
(Опционально) Активируйте опцию Аутентификация для аутентификации пользователя при вызове модели через публичный URL.
(Опционально) Активируйте опцию Логирование запросов для ведения журнала запросов к модели. Укажите лог-группу.
Нажмите Создать.
Вы будете перенаправлены на страницу сервиса ML Inference. Инференс будет создан и запущен в течение нескольких минут. Дождитесь, когда инференс перейдет в статус «Запущено» и появится публичный URL-адрес.