История изменений сервиса ML Inference.
2025
Сентябрь
- Каталог моделей
- Новые вычислительные ресурсы
- Тестовый вызов из OpenAPI
ознакомиться с описанием эндпоинтов, параметров, моделей, запросов и ответов;
протестировать вызовы напрямую через встроенный Swagger UI.
Добавлен каталог моделей, готовых для запуска инференса. Теперь можно быстро начать работу без необходимости загружать и настраивать модели вручную. Для выбора доступны модели под задачи любой сложности, включая Qwen, DeepSeek, Gemma и другие.
Для запуска инференса моделей теперь доступна видеокарта NVIDIA A100 80GB SXM. Это позволяет работать с крупными моделями и увеличивает производительность при работе с высоконагруженными задачами.
Реализована возможность отправки тестового вызова модели через OpenAPI. На вкладке Model RUN → OpenAPI доступна полная спецификация API, автоматически загружаемая с запущенного инстанса модели.
Теперь вы можете:
Апрель
- Сервис в General Availability
- Запуск модели в Docker RUN
- Поддержка технологии Shared GPU
- Поддержка новых библиотек
Сервис в общем доступе и тарифицируется согласно тарифам.
ML-модели теперь можно запускать в контейнере из пользовательского Docker-образа.
Технология Shared GPU позволяет ML-моделям совместно использовать ресурсы графического ускорителя.
ML-инференс поддерживает библиотеки vLLM, TGI, Ollama, Diffusers, Transformers.
- 2025