nav-img
Evolution

Обзор ML Inference

ML Inference — сервис для запуска ML-моделей в облаке.

ML Inference использует для запуска моделей Shared GPU, что позволяет избежать потерь в производительности и улучшить эффективность использования вычислительных ресурсов в среде с высокой интенсивностью обработки данных. Это особенно важно с точки зрения экономии ресурсов и оптимизации затрат на использование облака.

В Model RUN модели запускаются в облачных контейнерах, без использования Docker-образов и необходимости написания кода инференса.

В качестве источников моделей используются популярные библиотеки Transformers, Ollama, Diffusers и Hugging Face, среды исполнения vLLM и TGI.

Сразу после запуска модель доступна для вызова по прямому URL-адресу. Сервис автоматически создает и удаляет экземпляры контейнеров с ML-моделями в соответствии с нагрузкой, поддерживая масштабирование до нуля экземпляров контейнеров.

В Docker RUN поддерживается запуск пользовательских моделей в контейнере, содержащем пользовательский Docker-образ.