Калькулятор цен Тарифы Акции Документация О нас Карьера в Cloud.ru Новости Юридические документы Контакты Решения Реферальная программа Кейсы Партнерство с Cloud.ru Безопасность Evolution Advanced Evolution Stack Облако VMware ML Space В чем отличия платформ?Блог Обучение и сертификация Мероприятия Исследования Cloud.ru Личный кабинет Войти Зарегистрироваться Evolution Compute Evolution Managed Kubernetes Evolution Object Storage Evolution Managed PostgreSQL®Облако для мобильных и веб‑приложений Аналитика данных в облаке Evolution Bare Metal Evolution SSH Keys Evolution Image Сайт в облаке Evolution DNS Evolution VPC Evolution Load Balancer Evolution Magic Router Evolution Disk Хранение данных в облаке Evolution Container Apps Evolution Artifact Registry Evolution Managed ArenadataDB Evolution Managed Trino Evolution Managed Spark Аналитика данных в облаке Evolution ML Inference Evolution Distributed Train Evolution ML Finetuning Evolution Notebooks Curator Anti-DDoS Curator Anti‑DDoS+WAF UserGate: виртуальный NGFW StormWall: Anti-DDoS Evolution Tags Evolution Task History Cloud Monitoring Cloud Logging Аренда GPU Advanced Object Storage Service Advanced Elastic Cloud Server Advanced Relational Database Service for PostgreSQL Разработка и тестирование в облаке Advanced Image Management Service Advanced Auto Scaling Direct Connect CDN Cross-platform connection Advanced Enterprise Router Advanced Cloud Backup and Recovery Advanced Data Warehouse Service Advanced Elastic Volume Service Advanced Cloud Container Engine Advanced FunctionGraph Advanced Container Guard Service Advanced Software Repository for Container Advanced Document Database Service with MongoDB Advanced Relational Database Service for MySQL Advanced Relational Database Service for SQL Server Cloud Advisor Advanced Server Migration Service Advanced Data Replication Service Advanced API Gateway Advanced CodeArts Advanced Distributed Message Service for Kafka Advanced Distributed Message Service for RabbitMQ Advanced DataArts Insight Advanced CloudTable Advanced MapReduce Service Advanced Cloud Trace Service Advanced Application Performance Management Advanced Identity and Access Management Advanced Enterprise Project Management Service VMware: виртуальный ЦОД с GPU VMware: виртуальный ЦОД Удаленные рабочие столы (VDI)VMware: сервер Bare Metal Инфраструктура для 1С в облаке Удаленные рабочие столы Миграция IT‑инфраструктуры в облако 3D-моделирование и рендеринг VMware: резервное копирование виртуальных машин VMware: резервный ЦОД VMware: резервное копирование в облако VMware: миграция виртуальных машин

Документация

Документация

Поиск

Связаться с нами

Вебинар

Онлайн

Для IT

Запуск LLM: как сократить расходы на инференс

18 декабря в 11:00 мск

hero_img

Запуск крупных языковых моделей приводит к неэффективным расходам: мощный GPU используется не полностью, а расчеты памяти для запуска модели не совпадают с реальностью. В результате приходится платить за ресурсы, которые не используются, или сталкиваться с ошибками из-за нехватки vRAM.

На вебинаре разберем, как точно рассчитывать конфигурацию для запуска LLM и настраивать параметры инференса для экономии без потери в качестве.

Вы узнаете:

из чего складывается потребление vRAM;
как точно рассчитать необходимую конфигурацию GPU для выбранной модели, включая форматы квантования (BF16, FP8);
какие параметры LLM сильнее всего влияют на стоимость и производительность;
как с помощью Evolution ML Inference автоматически масштабировать ресурсы и переводить модели в serverless-режим, чтобы платить только за активную работу.

В практической части покажем запуск LLM с оптимальными параметрами в сервисе Evolution ML Inference и наглядно сравним разные конфигурации по производительности и стоимости.

Вебинар будет полезен дата-сайентистам, DevOps-инженерам и руководителям, которые хотят оптимизировать затраты на ML-инфраструктуру.

Спикеры

Продукты, про которые расскажем

Evolution ML Inference

Запуск и развертывание AI и LLM моделей