nav-img
Evolution

Создать инференс в Model RUN

С помощью инструкции вы создадите инференс модели в сервисе ML Inference. Для запуска инференса используются модели из библиотеки Hugging Face.

Перед началом работы

  1. Зарегистрируйтесь в Hugging Face, если у вас еще нет аккаунта.

  2. Получите токен доступа (User Access Token). Токен позволит использовать модели из приватных репозиториев Hugging Face.

  3. Создайте секрет в сервисе Secret Management, указав полученный в Hugging Face токен.

Создать инференс

  1. В личном кабинете перейдите в раздел ML/AI Инструменты → ML Inference.

  2. Выберите Model RUN.

  3. Нажмите Создать.

  4. Заполните поле Название — произвольное название инференса, может совпадать с именем модели.

  5. Выберите Runtime — среду запуска инференса модели в зависимости от задачи:

    • Transformers

    • Text Generation Inference

    • Ollama

    • vLLM

    • Diffusers

  6. Укажите значение параметра Версия Transformers. По умолчанию выбрана последняя версия модели.

  7. Нажмите Добавить и укажите адрес репозитория в Hugging Face, откуда будет загружаться модель.

    Внимание

    Сервис поддерживает инференс моделей с размером кеша моделей до 300 ГБ.

  8. Если репозиторий приватный, выберите секрет с токеном Hugging Face, который вы загружали перед началом работы.

  9. Нажмите Добавить.

  10. Поле Задача модели будет заполнено автоматически после добавления адреса репозитория. Для сред запуска Transformers и Diffusers при необходимости скорректируйте значение в поле.

  11. В зависимости от выбранной среды укажите дополнительные параметры:

    • для Text Generation Inference, vLLM и SGLang укажите значение параметра Формат данных;

    • для Text Generation Inference, vLLM и Diffusers укажите до 3 адаптеров (дополнительных моделей).

  12. Выберите необходимый объем памяти GPU и количество карт GPU (от 1 до 8).

  13. Нажмите Продолжить.

  14. Задайте настройки масштабирования:

  15. (Опционально) Активируйте опцию Аутентификация для аутентификации пользователя при вызове модели через публичный URL.

  16. (Опционально) Активируйте опцию Логирование запросов для ведения журнала запросов к модели. Укажите лог-группу.

  17. Нажмите Создать.

Вы будете перенаправлены на страницу сервиса ML Inference. Инференс будет создан и запущен в течение нескольких минут. Дождитесь, когда инференс перейдет в статус «Запущено» и появится публичный URL-адрес.