Evolution
Тема интерфейса

Каталог моделей

В каталоге моделей представлена подборка моделей, готовых для запуска инференса. Вы можете выбрать модель под задачу любой сложности. Для выбора доступны разнообразные модели, такие как — Qwen, DeepSeek, Gemma и другие.

Модели из каталога запускаются в облачных контейнерах, без использования Docker-образов и необходимости написания кода инференса.

При выборе модели автоматически отображается стоимость ее использования. Более подробную информацию по тарификации использования моделей можно посмотреть в разделе Тарифы.

Для запуска модели:

Если у вас уже есть сервисный аккаунт, то переходите к выбору модели и запуску инференса.

Перед началом работы

  1. Если вы уже зарегистрированы, войдите под своей учетной записью.

  2. На верхней панели слева нажмите Кнопка с изображением девяти точек и убедитесь в наличии сервиса ML Inference в разделе AI Factory. Если сервиса нет в списке, обратитесь в поддержку.

Шаг 1. Создайте сервисный аккаунт

Сервисный аккаунт будет использоваться для авторизации. Вы можете создать сервисный аккаунт через личный кабинет или использовать уже созданный.

Для создания сервисного аккаунта:


  1. На верхней панели слева нажмите Кнопка с изображением девяти точек и перейдите в раздел Пользователи, на вкладку Сервисные аккаунты.

    ../_images/s__service_account.png
  2. В правом верхнем углу нажмите Создать сервисный аккаунт.

    ../_images/s__service_account_create.png
  3. Задайте для сервисного аккаунта название и описание.

  4. Назначьте доступы и роль. Роль определяет права доступа сервисного аккаунта. Чтобы аккаунт мог совершать какие-либо действия с ресурсами, рекомендуем выбирать роль «Администратор проекта».

  5. Нажмите Создать.

Шаг 2. Выберите модель и запустите инференс

  1. На верхней панели слева нажмите Кнопка с изображением девяти точек и перейдите в раздел AI Factory → ML Inference.

  2. Выберите Каталог моделей.

  3. Воспользуйтесь фильтрами для подбора модели:

    • Подборка — тип специализации модели.

      Для выбора доступны:

      • Low-cost — модели, которые требуют мало вычислительных ресурсов: меньше памяти, быстрее работают, дешевле в использовании.

      • Instruction-following — модели, которые обучены следовать инструкциям, понимать и выполнять команды.

      • Русский язык — модели, которые хорошо понимают и генерируют текст на русском языке.

      • Code-generation — модели, которые умеют писать, читать и исправлять код на языках программирования: Python, JavaScript, C++, SQL и др.

      • Ассистенты — модели, которые умеют вести диалог, генерировать текст и помогать пользователю решать задачи.

      • Multi-language — модели, которые понимают и генерируют текст на многих языках, могут переключаться между языками и понимать смешанный текст.

    • Задачи — задача, которую модель должна выполнять.

    • Поставщик — разработчика модели, который предоставил готовую модель для использования.

    • Цена — диапазон стоимости использования модели.

    • Модель GPUвидеокарта, на которой будет работать модель.

    • Параметры — диапазон количества обучаемых весов в миллиардах, определяющих сложность и мощность модели.

    • Параметры — диапазон объема информации в токенах, которое модель может учитывать за один раз при генерации ответа, включая входной запрос и вывод.

    Если по указанным критериям нет моделей, попробуйте их изменить.

  4. Для запуска модели нажмите Быстрый запуск в карточке выбранной модели нажмите.

  5. Для дополнительной настройки модели нажмите на карточку модели. Откроется окно с дополнительными настройками выбранной модели.

  6. Заполните параметры быстрой настройки модели:

    1. Модель GPU — выберите модель GPU, на которой модель будет работать.

    2. Количество инстансов — укажите количество моделей, которые будут работать одновременно.

    3. Режим работы — выберите режим работы модели:

      • Всегда онлайн — модель будет всегда доступна.

      • Serverless (по запросу) — модель будет доступна при поступлении запроса, если запросов нет — модель автоматически выключается.

  7. (Опционально) Для аутентификации пользователя при вызове модели через публичный URL укажите сервисный аккаунт.

  8. (Опционально) Укажите лог-группу для ведения журнала запросов к модели.

  9. Выберите тип масштабирования и укажите допустимое количество запросов в секунду.

    • RPS — запросы в секунду на экземпляр, автомасштабирование начинается при достижении заданного лимита на количество запросов в секунду на экземпляр.

    • Сoncurrency — параллельные запросы на экземпляр, автомасштабирование начинается при достижении заданного лимита на количество одновременных запросов на экземпляр.

  10. Нажмите Запустить модель.

    Вы будете перенаправлены на страницу сервиса ML Inference. Инференс будет создан и запущен в течение нескольких минут. Дождитесь, когда инференс перейдет в статус «Запущен» и появится публичный URL-адрес.