Evolution
Тема интерфейса

Что нового

Эта статья полезна?

История изменений сервиса ML Inference.

2025

Сентябрь

Каталог моделей

Добавлен каталог моделей, готовых для запуска инференса. Теперь можно быстро начать работу без необходимости загружать и настраивать модели вручную. Для выбора доступны модели под задачи любой сложности, включая Qwen, DeepSeek, Gemma и другие.

Новые вычислительные ресурсы

Для запуска инференса моделей теперь доступна видеокарта NVIDIA A100 80GB SXM. Это позволяет работать с крупными моделями и увеличивает производительность при работе с высоконагруженными задачами.

Тестовый вызов из OpenAPI

Реализована возможность отправки тестового вызова модели через OpenAPI. На вкладке Model RUN → OpenAPI доступна полная спецификация API, автоматически загружаемая с запущенного инстанса модели.

Теперь вы можете:

  • ознакомиться с описанием эндпоинтов, параметров, моделей, запросов и ответов;

  • протестировать вызовы напрямую через встроенный Swagger UI.

Апрель

Сервис в General Availability

Сервис в общем доступе и тарифицируется согласно тарифам.

Запуск модели в Docker RUN

ML-модели теперь можно запускать в контейнере из пользовательского Docker-образа.

Поддержка технологии Shared GPU

Технология Shared GPU позволяет ML-моделям совместно использовать ресурсы графического ускорителя.

Поддержка новых библиотек

ML-инференс поддерживает библиотеки vLLM, TGI, Ollama, Diffusers, Transformers.