Быстрый старт
С помощью быстрого старта вы создадите инференс модели. Для запуска инференса используются модели из библиотеки Hugging Face, а также библиотеки Transformer, Ollama, библиотеки для работы с диффузионными моделями, TGI.
Создайте инференс модели в ML Inference
В личном кабинете перейдите в раздел ML/AI Инструменты → ML Inference.
Перейдите в раздел Model RUN.
Нажмите Создать.
Заполните поле Название инференса — произвольное название инференса, может совпадать с именем модели.
Выберите Runtime — среду запуска инференса модели в зависимости от задачи.
Нажмите Добавить в разделе Репозиторий с моделью и укажите адрес репозитория в Hugging Face, откуда будет загружаться модель — например, seara/rubert-tiny2-russian-sentiment. Укажите токен доступа в репозиторий Hugging Face.
Поле Задача модели будет заполнено автоматически значением Text-Classification после добавления адреса репозитория.
В разделе Ресурсы настройте ресурсы GPU.
Нажмите Создать.
Вы будете перенаправлены на страницу сервиса ML Inference. Инференс будет создан и запущен в течение нескольких минут. Дождитесь, когда инференс перейдет в статус «Запущено» и появится публичный URL-адрес.
Создайте инференс пользовательской модели в ML Inference
С помощью этого раздела вы запустите контейнер, содержащий Docker-образ с пользовательской моделью.
В личном кабинете перейдите в раздел ML/AI Инструменты → ML Inference.
Перейдите в раздел Docker RUN.
Нажмите Создать.
Заполните поле Название инференса — произвольное название инференса.
Укажите URI Docker-образа.
Для поиска и выбора доступны образы, размещенные в реестре сервиса Artifact Registry в текущем проекте. Также вы можете использовать образы из реестров в других проектах, но только если реестры являются публичными. Для добавления URI образа из публичного реестра другого проекта используйте Поиск образа по URI.
После заполнения данных нажмите Выбрать.
Укажите тип GPU: Shared GPU или Instance type и задайте параметры GPU. Нажмите Продолжить.
Настройте параметры масштабирования.
Нажмите Создать.
Вы будете перенаправлены на страницу сервиса ML Inference. Контейнер на основе Docker-образа с пользовательской моделью будет создан и запущен в течение нескольких минут. Дождитесь, когда инференс модели в Docker-образе перейдет в статус «Запущен» и появится публичный URL-адрес.
Что дальше
С помощью быстрого старта вы:
запустили инференс модели из открытого репозитория Hugging Face;
запустили инференс модели из пользовательского Docker-образа в контейнере.
Узнайте больше о запуске ML-моделей и возможностях сервиса в документации.