- tocdepth
2
Обзор ML Inference
ML Inference — сервис для запуска ML-моделей в облаке. Модели запускаются в облачных контейнерах, без использования Docker-образов и необходимости написания кода инференса.
В качестве источников моделей используются популярные библиотеки Transformers и Hugging Face.
Сразу после запуска модель доступна для вызова по прямому URL-адресу. Сервис автоматически создает и удаляет экземпляры контейнеров с ML-моделями в соответствии с нагрузкой, поддерживая масштабирование до нуля экземпляров контейнеров.
ML Inference использует для запуска моделей Shared GPU, что позволяет избежать потерь в производительности и улучшить эффективность использования вычислительных ресурсов в среде с высокой интенсивностью обработки данных. Это особенно важно с точки зрения экономии ресурсов и оптимизации затрат на использование облака.
Сервис предоставлется бесплатно в стадии Preview для тестирования его возможностей и исправления ошибок перед выводом в общий доступ.
для Dev & Test