Обзор ML Inference
ML Inference — сервис для запуска ML-моделей в облаке.
ML Inference использует для запуска моделей Shared GPU, что позволяет избежать потерь в производительности и улучшить эффективность использования вычислительных ресурсов в среде с высокой интенсивностью обработки данных. Это особенно важно с точки зрения экономии ресурсов и оптимизации затрат на использование облака.
В Model RUN модели запускаются в облачных контейнерах, без использования Docker-образов и необходимости написания кода инференса.
В качестве источников моделей используются популярные библиотеки Transformers, Ollama, Diffusers и Hugging Face, среды исполнения vLLM и TGI.
Сразу после запуска модель доступна для вызова по прямому URL-адресу. Сервис автоматически создает и удаляет экземпляры контейнеров с ML-моделями в соответствии с нагрузкой, поддерживая масштабирование до нуля экземпляров контейнеров.
В Docker RUN поддерживается запуск пользовательских моделей в контейнере, содержащем пользовательский Docker-образ.