ML Inference

Создать инференс в Model RUN

Эта статья полезна?

С помощью инструкции вы создадите инференс модели в сервисе ML Inference.

Для запуска инференса используются модели из библиотеки Hugging Face.

Для создания инференса модели:

Перед началом работы

Зарегистрируйтесь в личном кабинете Cloud.ru.

Если вы уже зарегистрированы, войдите под своей учетной записью.
На верхней панели слева нажмите и убедитесь в наличии сервиса ML Inference в разделе AI Factory. Если сервиса нет в списке, обратитесь в поддержку.
Для работы с моделью из Hugging Face убедитесь, что у вас есть аккаунт на Hugging Face и токен доступа (User Access Token).

Шаг 1. Создайте секрет

Перейдите в личный кабинет.
На верхней панели слева нажмите и выберите Управление → Secret Management.
Нажмите Добавить секрет.
Укажите путь к папке в формате имя_папки/имя_секрета, в которой будет создан секрет. Если указанной папки нет в системе, она добавится одновременно с секретом.
(Опционально) Заполните описание в свободной форме.
(Опционально) Выберите ключ шифрования из сервиса Key Management или создайте новый. Если ключ не выбран, секрет будет зашифрован специальным системным ключом.
В значении секрета укажите токен, полученный в Hugging Face.
Нажмите Сохранить.

Подробнее о работе с секретом можно узнать в документации Secret Management.

Шаг 2. Создайте сервисный аккаунт

Сервисный аккаунт будет использоваться для авторизации. Вы можете создать сервисный аккаунт через личный кабинет или использовать уже созданный.

Для создания сервисного аккаунта:

На верхней панели слева нажмите и перейдите в раздел Пользователи, на вкладку Сервисные аккаунты.

В правом верхнем углу нажмите Создать сервисный аккаунт.

Задайте для сервисного аккаунта название и описание.

Назначьте доступы и роль. Роль определяет права доступа сервисного аккаунта. Чтобы аккаунт мог совершать какие-либо действия с ресурсами, рекомендуем выбирать роль «Администратор проекта».

Нажмите Создать.

Шаг 3. Создайте инференс модели

На верхней панели слева нажмите и перейдите в раздел AI Factory → ML Inference.
Выберите Model RUN.
Нажмите Создать.
Поле Название инференса заполняется автоматически. Вы можете ввести другое название для нового инференса.
Выберите Runtime — среда запуска инференса модели в зависимости от задачи.

Для выбра доступны:
- Transformers — библиотека, предоставляющая единый API для загрузки, токенизации и инференса сотен предобученных моделей‑трансформеров. Она подходит для широкого спектра задач, например, классификация текста, ответы на вопросы, суммаризация, машинный перевод и многие другие.
- vLLM — среда для запуска больших LLM. Предназначена для инференса моделей, которые требуют значительных вычислительных ресурсов, и позволяет эффективно использовать GPU для ускорения процесса обработки данных. vLLM подходит для задач, связанных с генерацией текста, такими как создание диалогов или написание статей.
- Ollama — локальная платформа, подходит для одиночных запросов и небольших нагрузок. Ollama подходит для задач, связанных с генерацией текста, такими как ответы на вопросы, перевод и анализ тональности.
- Diffusers — библиотека для работы с диффузионными моделями, которые используются для генерации изображений. Она подходит для задач, связанных с созданием новых изображений на основе существующих, таких как изменение стиля или добавление деталей.
Выберите версию Runtime. Автоматически используется последняя версия.
Выберите модель GPU. Чтобы выбрать подходящий GPU, вам нужно оценить требования модели к вычислительным ресурсам: объем памяти и количество ядер. Рекомендуем начинать с менее мощного GPU и масштабировать ML-модели по мере необходимости.

Для выбора доступны:
- GPU NVIDIA V100 PCIe
- GPU NVIDIA H100 SXM
- GPU NVIDIA A100 SXM
В качестве источника модели используется Hugging Face.
Укажите адрес репозитория в Hugging Face, в котором расположена модель.
Укажите токен доступа, созданный на шаге 1.
(Опционально) Добавьте LoRA-адаптер. Для добавления доступно 5 LoRA-адаптеров к основной модели. LoRA-адаптеры можно использовать с любой большой текстовой моделью, поддерживающей LoRA.
Выберите формат данных. Рекомендуемый формат данных для каждой модели указан в конфигурационном файле модели на Hugging Face.

Для выбора доступны:
- float32
- bf16
- float16
- half
(Опционально) Настройте дополнительные конфигурации. В дополнительных конфигурациях доступна индивидуальная настройка для каждого параметра.
Укажите количество ядер и объем памяти GPU, которые потребуются для запуска инференса.
Нажмите Продолжить.
Укажите настройки масштабирования:
1. Выберите минимальное и максимальное количество экземпляров контейнера. При минимальном количестве экземпляров «0» — модель работает в serverless-режиме и автоматически отключается при отсутствии запросов. При поступлении новых запросов модель запускается повторно.
2. Выберите тип масштабирования:
  - RPS — запросы в секунду на экземпляр, автомасштабирование начинается при достижении заданного лимита на количество запросов в секунду на экземпляр.
  - Сoncurrency — параллельные запросы на экземпляр, автомасштабирование начинается при достижении заданного лимита на количество одновременных запросов на экземпляр.
(Опционально) Для аутентификации пользователя при вызове модели через публичный URL укажите сервисный аккаунт.
Укажите лог-группу для ведения журнала запросов к модели.
Нажмите Создать.

Вы будете перенаправлены на страницу сервиса ML Inference. Инференс будет создан и запущен в течение нескольких минут. Дождитесь, когда инференс перейдет в статус «Запущен» и появится публичный URL-адрес.

См.также

Предыдущая статья

Model RUN

Следующая статья

Вызвать модель в Model RUN

Эта статья полезна?

Поддержка Юридические документы