Облачная платформаEvolution

Что нового

Эта статья полезна?

История изменений сервиса ML Inference.

2026

Январь

Аутентификация через API

Для взаимодействия с сервисом через API реализована аутентификация с помощью токена доступа или API-ключа.

2025

Сентябрь

Каталог моделей

Добавлен каталог моделей, готовых для запуска инференса. Теперь можно быстро начать работу без необходимости загружать и настраивать модели вручную. Для выбора доступны модели под задачи любой сложности, включая Qwen, DeepSeek, Gemma и другие.

Новые вычислительные ресурсы

Для запуска инференса моделей теперь доступна видеокарта NVIDIA A100 80GB SXM. Это позволяет работать с крупными моделями и увеличивает производительность при работе с высоконагруженными задачами.

Тестовый вызов из OpenAPI

Реализована возможность отправки тестового вызова модели через OpenAPI. На вкладке Model RUN → OpenAPI доступна полная спецификация API, автоматически загружаемая с запущенного инстанса модели.

Теперь вы можете:

  • ознакомиться с описанием эндпоинтов, параметров, моделей, запросов и ответов;

  • протестировать вызовы напрямую через встроенный Swagger UI.

Апрель

Сервис в General Availability

Сервис в общем доступе и тарифицируется согласно тарифам.

Запуск модели в Docker RUN

ML-модели теперь можно запускать в контейнере из пользовательского Docker-образа.

Поддержка технологии Shared GPU

Технология Shared GPU позволяет ML-моделям совместно использовать ресурсы графического ускорителя.

Поддержка новых библиотек

ML-инференс поддерживает библиотеки vLLM, TGI, Ollama, Diffusers, Transformers.