yandex
Калькулятор ценТарифыАкцииДокументацияО насКарьера в Cloud.ruНовостиЮридические документыКонтактыРешенияРеферальная программаКейсыПартнерство с Cloud.ruБезопасностьEvolutionAdvancedEvolution StackОблако VMwareML SpaceВ чем отличия платформ?БлогОбучение и сертификацияМероприятияИсследования Cloud.ruЛичный кабинетВойтиЗарегистрироватьсяEvolution ComputeEvolution Managed KubernetesEvolution Object StorageEvolution Managed PostgreSQL®Облако для мобильных и веб‑приложенийАналитика данных в облакеEvolution Bare MetalEvolution SSH KeysEvolution ImageСайт в облакеEvolution DNSEvolution VPCEvolution Load BalancerEvolution Magic RouterEvolution DiskХранение данных в облакеEvolution Container AppsEvolution Artifact RegistryEvolution Managed ArenadataDBEvolution Managed TrinoEvolution Managed SparkАналитика данных в облакеEvolution ML InferenceEvolution Distributed TrainEvolution ML FinetuningEvolution NotebooksCurator Anti-DDoSCurator Anti‑DDoS+WAFUserGate: виртуальный NGFWStormWall: Anti-DDoSEvolution TagsEvolution Task HistoryCloud MonitoringCloud LoggingАренда GPUAdvanced Object Storage ServiceAdvanced Elastic Cloud ServerAdvanced Relational Database Service for PostgreSQLРазработка и тестирование в облакеAdvanced Image Management ServiceAdvanced Auto ScalingDirect ConnectCDNCross-platform connectionAdvanced Enterprise RouterAdvanced Cloud Backup and RecoveryAdvanced Data Warehouse ServiceAdvanced Elastic Volume ServiceAdvanced Cloud Container EngineAdvanced FunctionGraphAdvanced Container Guard ServiceAdvanced Software Repository for ContainerAdvanced Document Database Service with MongoDBAdvanced Relational Database Service for MySQLAdvanced Relational Database Service for SQL ServerCloud AdvisorAdvanced Server Migration ServiceAdvanced Data Replication ServiceAdvanced API GatewayAdvanced CodeArtsAdvanced Distributed Message Service for KafkaAdvanced Distributed Message Service for RabbitMQAdvanced DataArts InsightAdvanced CloudTableAdvanced MapReduce ServiceAdvanced Cloud Trace ServiceAdvanced Application Performance ManagementAdvanced Identity and Access ManagementAdvanced Enterprise Project Management ServiceVMware: виртуальный ЦОД с GPUVMware: виртуальный ЦОДУдаленные рабочие столы (VDI)VMware: сервер Bare MetalИнфраструктура для 1С в облакеУдаленные рабочие столыМиграция IT‑инфраструктуры в облако3D-моделирование и рендерингVMware: резервное копирование виртуальных машинVMware: резервный ЦОДVMware: резервное копирование в облакоVMware: миграция виртуальных машин
Поиск
Связаться с нами
Вебинар
Онлайн
Для IT

Запуск LLM: как сократить расходы на инференс

hero_img

Запуск крупных языковых моделей приводит к неэффективным расходам: мощный GPU используется не полностью, а расчеты памяти для запуска модели не совпадают с реальностью. В результате приходится платить за ресурсы, которые не используются, или сталкиваться с ошибками из-за нехватки vRAM.

На вебинаре разберем, как точно рассчитывать конфигурацию для запуска LLM и настраивать параметры инференса для экономии без потери в качестве.

Вы узнаете:

  • из чего складывается потребление vRAM;
  • как точно рассчитать необходимую конфигурацию GPU для выбранной модели, включая форматы квантования (BF16, FP8);
  • какие параметры LLM сильнее всего влияют на стоимость и производительность;
  • как с помощью Evolution ML Inference автоматически масштабировать ресурсы и переводить модели в serverless-режим, чтобы платить только за активную работу.

В практической части покажем запуск LLM с оптимальными параметрами в сервисе Evolution ML Inference и наглядно сравним разные конфигурации по производительности и стоимости.

Вебинар будет полезен дата-сайентистам, DevOps-инженерам и руководителям, которые хотят оптимизировать затраты на ML-инфраструктуру.

Спикеры

Продукты, про которые расскажем

Evolution ML Inference

Evolution ML Inference

Запуск и развертывание AI и LLM моделей

Регистрация на вебинар

*
*
+7
*
*
*
*
0/300