ML Inference

Создать инференс в Model RUN

С помощью инструкции вы создадите инференс модели в сервисе ML Inference. Для запуска инференса используются модели из библиотеки Hugging Face.

Перед началом работы

Зарегистрируйтесь в Hugging Face, если у вас еще нет аккаунта.
Получите токен доступа (User Access Token). Токен позволит использовать модели из приватных репозиториев Hugging Face.
Создайте секрет в сервисе Secret Management, указав полученный в Hugging Face токен.

Создать инференс

В личном кабинете перейдите в раздел ML/AI Инструменты → ML Inference.
Выберите Model RUN.
Нажмите Создать.
Заполните поле Название — произвольное название инференса, может совпадать с именем модели.
Выберите Runtime — среду запуска инференса модели в зависимости от задачи:
- Transformers
- Text Generation Inference
- Ollama
- vLLM
- Diffusers
Укажите значение параметра Версия Transformers. По умолчанию выбрана последняя версия модели.
Нажмите Добавить и укажите адрес репозитория в Hugging Face, откуда будет загружаться модель.

Внимание
Сервис поддерживает инференс моделей с размером кеша моделей до 300 ГБ.
Если репозиторий приватный, выберите секрет с токеном Hugging Face, который вы загружали перед началом работы.
Нажмите Добавить.
Поле Задача модели будет заполнено автоматически после добавления адреса репозитория. Для сред запуска Transformers и Diffusers при необходимости скорректируйте значение в поле.
В зависимости от выбранной среды укажите дополнительные параметры:
- для Text Generation Inference, vLLM и SGLang укажите значение параметра Формат данных;
- для Text Generation Inference, vLLM и Diffusers укажите до 3 адаптеров (дополнительных моделей).
Выберите необходимый объем памяти GPU и количество карт GPU (от 1 до 8).
Нажмите Продолжить.
Задайте настройки масштабирования:
- Количество экземпляров — минимальное и максимальное количество экземпляров контейнера при масштабировании сервиса.
- Выберите тип масштабирования — Concurrency или RPS. Подробнее — в разделе Масштабирование контейнера.
(Опционально) Активируйте опцию Аутентификация для аутентификации пользователя при вызове модели через публичный URL.
(Опционально) Активируйте опцию Логирование запросов для ведения журнала запросов к модели. Укажите лог-группу.
Нажмите Создать.

Вы будете перенаправлены на страницу сервиса ML Inference. Инференс будет создан и запущен в течение нескольких минут. Дождитесь, когда инференс перейдет в статус «Запущено» и появится публичный URL-адрес.

См.также

Предыдущая статья

Запуск модели в Model RUN

Следующая статья

Вызвать модель в Model RUN

Была ли эта статья полезна?

Поддержка Юридические документы