Облачная платформаEvolution

Создать инференс в Model RUN

Эта статья полезна?

С помощью инструкции вы создадите инференс модели в сервисе ML Inference.

Для запуска инференса можно загрузить модель из библиотек Hugging Face, Ollama и репозитория Repo Model Registry.

Перед началом работы

  1. Если вы уже зарегистрированы, войдите под своей учетной записью.

  2. На верхней панели слева нажмите Кнопка с изображением девяти точек и убедитесь в наличии сервиса ML Inference в разделе AI Factory. Если сервиса нет в списке, обратитесь в поддержку.

  3. Для работы с моделью из Hugging Face убедитесь, что у вас есть:

Создание инференса

  1. На верхней панели слева нажмите Кнопка с изображением девяти точек и перейдите в раздел AI Factory → ML Inference.

  2. Выберите Model RUN.

  3. Нажмите Создать.

    ../_images/s__create-inference.png
  4. Поле Название инференса заполняется автоматически. Вы можете ввести другое название для нового инференса.

  5. Выберите Runtime — среда запуска инференса модели для различных сценариев работы.

    В зависимости от вашего выбора дальнейшие действия будут немного отличаться.


    Transformers — библиотека, предоставляющая единый API для загрузки, токенизации и инференса сотен предобученных моделей‑трансформеров. Она подходит для широкого спектра задач, например, классификация текста, ответы на вопросы, суммаризация, машинный перевод и многие другие.

    1. Выберите версию Transformers. Доступная версия среды зависит от выбранной модели GPU.

    2. Выберите модель GPU. Чтобы выбрать подходящий GPU, вам нужно оценить требования модели к вычислительным ресурсам: объем памяти и количество ядер. Рекомендуем начинать с менее мощного GPU и масштабировать ML-модели по мере необходимости.

      Для выбора доступны:

      • GPU NVIDIA V100 PCIe

      • GPU NVIDIA H100 SXM

      • GPU NVIDIA A100 SXM

    3. Выберите источник модели: Hugging Face или Model Registry.


      1. Нажмите Добавить из Hugging Face.

      2. Укажите адрес репозитория в Hugging Face, в котором расположена модель.

      3. Выберите токен доступа или создайте новый.

      4. Нажмите Добавить.

        ../_images/s__create-inference1.png
      5. (Опционально) Укажите версию и задачу для модели.

      6. (Опционально) Добавьте LoRA-адаптер. Для добавления доступно 5 LoRA-адаптеров к основной модели. LoRA-адаптеры можно использовать с любой большой текстовой моделью, поддерживающей LoRA.

    4. Укажите объем памяти GPU.

  6. Нажмите Продолжить.

  7. Укажите настройки масштабирования:

    1. Выберите минимальное и максимальное количество экземпляров контейнера. При минимальном количестве экземпляров «0» — модель работает в serverless-режиме и автоматически отключается при отсутствии запросов. При поступлении новых запросов модель запускается повторно.

    2. Укажите время доступности модели при отсутствии нагрузки.

    3. (Опционально) Включите опцию Не выключать модель для того, чтобы модель всегда была доступна.

  8. Выберите тип масштабирования:

    • RPS — запросы в секунду на экземпляр, автомасштабирование начинается при достижении заданного лимита на количество запросов в секунду на экземпляр.

    • Сoncurrency — параллельные запросы на экземпляр, автомасштабирование начинается при достижении заданного лимита на количество одновременных запросов на экземпляр.

  9. (Опционально) Включите опцию Аутентификация, чтобы модель принимала запросы только от указанного сервисного аккаунта. Подробнее об аутентификации в ML Inference.

  10. Укажите лог-группу для ведения журнала запросов к модели.

  11. Нажмите Создать.

Вы будете перенаправлены на страницу сервиса ML Inference. Инференс будет создан и запущен в течение нескольких минут. Дождитесь, когда инференс перейдет в статус «Запущен» и появится публичный URL-адрес.