yandex
Preview

Evolution ML Inference

Cервис для запуска и развертывания моделей машинного обучения (ML) и глубокого обучения (DL) из библиотеки HuggingFace на облачных GPU
Документация сервиса
  • Возможности
  • Ответы на вопросы
  • Связаться с нами

Описание сервиса

Сервис для запуска ML-моделей из платформы Hugging Face на облачных мощностях с GPU, в том числе в пользовательских Docker-образах. Сервис поддерживает среды исполнения vLLM, TGI, Ollama, Diffusers, Transformers для более эффективного инференса. Сервис поддерживает модели-трансформеры, диффузионные модели и большие текстовые модели (LLM).

Возможности

Производительность и экономия

Совместное использование ресурсов графического ускорителя (Shared GPU) создает баланс стоимости, производительности и эффективности потребления облачных ресурсов. Мы поддерживаем 

Динамическое автомасштабирование

Ресурсы автоматически выделяются и удаляются в зависимости от нагрузки. Масштабирование до нуля экономит ресурсы при отсутствии трафика.

Поддержка моделей из Hugging Face и библиотек vLLM, TGI, Ollama, Diffusers

Сервис позволяет запускать модели из популярной платформы Hugging Face, а также использовать библиотеки vLLM, TGI, Ollama, Diffusers для более эффективного инференса. Сервис поддерживает пользовательские модели.

Мгновенный доступ к инференсу

Вы получаете доступ к инференсу моделей сразу после оплаты ресурсов.

Запуск моделей в Docker-образах

Docker RUN поддерживает запуск ML-моделей в облаке с помощью пользовательских Docker-образов. Модель запускается в контейнерной среде.

Защита инфраструктуры

Платформа Evolution обеспечивает защиту виртуальных машин от несанкционированного доступа и антивирусную защиту, а также поддерживает межсетевое экранирование сетевых потоков сервиса.

Ответы на вопросы

Какие типы GPU доступны?

Сервис Evolution ML Inference предлагает несколько типов GPU V100/H100, которые отличаются по производительности и стоимости. Чтобы выбрать подходящий GPU, оцените требования модели к вычислительным ресурсам: объем памяти и количество ядер. Рекомендуем начинать с менее мощного GPU и масштабировать ML-модели по мере необходимости.

Какие источники для запуска ML-моделей можно использовать?

Вы можете запустить ML-модели из платформы Hugging Face. Также вы можете выбрать и загрузить пользовательские модели с помощью сервиса Маркетплейс.

Какие среды исполнения доступны?

Поддерживаются библиотеки vLLM, TGI, Ollama, Diffusers, Transformers.

Какие типы моделей доступны для инференса?

С помощью Evolution ML Inference вы можете запустить инференс больших текстовых моделей (LLM), моделей-трансформеров, диффузионных моделей.

Cloud.ru – ведущий провайдер облачных и AI‑технологий

№1

в сегменте IaaS

iKS-Consulting, 2024
№1

в сегменте PaaS

iKS-Consulting, 2024
№1

на рынке AI

CNews Analytics, 2024
*По объему выручки IaaS- и PaaS-сервисов за 2024 год (по данным iKS-Consulting), AI-сервисов за 2023 год (по данным CNews Analytics).

Больше чем просто поддержка

Полное сопровождение для решения ваших задач и понятный бизнес-результат

Индивидуальный подход к каждому клиенту

Проведем бесплатную консультацию по вашему проекту, ответим на вопросы и подберем лучшие решения.

manager

Круглосуточно на связи

Бесплатная техподдержка 24/7, на связи всегда реальные люди.

1 400+ экспертов в области IT, кибербезопасности и AI

Проверенные методологии и лучшие практики бесшовной миграции в облако

Персональный менеджер для сопровождения ваших задач

Заявка на консультацию

*
*
+7
*
*
*
0/300