Простой запуск ML-моделей в облаке: как сэкономить до 70% ресурсов

Проанализировав опыт наших клиентов и открытые данные по рынку, приходим к выводу, что 70% компаний используют графические процессоры (GPU) менее чем на 55% их мощности. При этом простой одного сервера может обходиться бизнесу до 5,376 млн рублей в год.
Часто ресурсы GPU используются неоптимально, например, когда мощные графические процессоры выполняют небольшие задачи. На вебинаре мы покажем, как можно эффективнее организовать работу с GPU с помощью Evolution ML Inference. Сервис позволяет запускать несколько моделей на одном GPU, автоматически масштабирует ресурсы и сокращает расходы до 70%.
- Программа вебинара:
- почему Shared GPU выгоднее выделенных ресурсов: расчет экономии на примере реальных проектов;
- пошаговый запуск моделей с Hugging Face за несколько кликов;
- как избежать переплат: настройка лимитов GPU и мониторинг в реальном времени;
- динамическое масштабирование: добавление ресурсов при пиковой нагрузке и отключение в простое.
В результате с помощью сервиса вы сможете развертывать модели без сборки Docker-образа, платить только за фактическое использование ресурсов и сократить время запуска проектов с использованием AI в 3 раза.
Вебинар будет полезен дата-сайентистам, DevOps-инженерам и руководителям, которые хотят оптимизировать затраты на ML-инфраструктуру.
Тайм-коды вебинара
- 01:44 - Как IT-специалисты используют AI на практике
- 03:50 - Варианты развертывания LLM/AI-моделей
- 05:31 - Плюсы и минусы on-premise, LLM, публичного облака
- 11:03 - Сервисы для работы с моделями в Cloud.ru Evolution
- 20:01 - Как выглядит инференс в облаке
- 25:39 - Вариация сервиса Evolution ML Inference – Docker RUN
- 27:26 - Shared GPU
- 31:26 - Severless режим (скейлинг в ноль)
- 36:11 - Ответы на вопросы
- 39:31 - Демо Evolution ML Inference
- 47:57 - Ответы на вопросы, контакты спикера для связи