yandex
Калькулятор ценТарифыАкцииДокументацияО насКарьера в Cloud.ruНовостиЮридические документыКонтактыРешенияРеферальная программаКейсыПартнерство с Cloud.ruБезопасностьEvolutionAdvancedEvolution StackОблако VMwareML SpaceВ чем отличия платформ?БлогОбучение и сертификацияМероприятияИсследования Cloud.ruЛичный кабинетВойтиЗарегистрироватьсяEvolution ComputeEvolution Managed KubernetesEvolution Object StorageEvolution Managed PostgreSQL®Облако для мобильных и веб‑приложенийАналитика данных в облакеEvolution Bare MetalEvolution SSH KeysEvolution ImageСайт в облакеEvolution DNSEvolution VPCEvolution Load BalancerEvolution Magic RouterEvolution DiskХранение данных в облакеEvolution Container AppsEvolution Artifact RegistryEvolution Managed ArenadataDBEvolution Managed TrinoEvolution Managed SparkАналитика данных в облакеEvolution ML InferenceEvolution Distributed TrainEvolution ML FinetuningEvolution NotebooksCurator Anti-DDoSCurator Anti‑DDoS+WAFUserGate: виртуальный NGFWStormWall: Anti-DDoSEvolution TagsEvolution Task HistoryCloud MonitoringCloud LoggingАренда GPUAdvanced Object Storage ServiceAdvanced Elastic Cloud ServerAdvanced Relational Database Service for PostgreSQLРазработка и тестирование в облакеAdvanced Image Management ServiceAdvanced Auto ScalingDirect ConnectCDNCross-platform connectionAdvanced Enterprise RouterAdvanced Cloud Backup and RecoveryAdvanced Data Warehouse ServiceAdvanced Elastic Volume ServiceAdvanced Cloud Container EngineAdvanced FunctionGraphAdvanced Container Guard ServiceAdvanced Software Repository for ContainerAdvanced Document Database Service with MongoDBAdvanced Relational Database Service for MySQLAdvanced Relational Database Service for SQL ServerCloud AdvisorAdvanced Server Migration ServiceAdvanced Data Replication ServiceAdvanced API GatewayAdvanced CodeArtsAdvanced Distributed Message Service for KafkaAdvanced Distributed Message Service for RabbitMQAdvanced DataArts InsightAdvanced CloudTableAdvanced MapReduce ServiceAdvanced Cloud Trace ServiceAdvanced Application Performance ManagementAdvanced Identity and Access ManagementAdvanced Enterprise Project Management ServiceVMware: виртуальный ЦОД с GPUVMware: виртуальный ЦОДУдаленные рабочие столы (VDI)VMware: сервер Bare MetalИнфраструктура для 1С в облакеУдаленные рабочие столыМиграция IT‑инфраструктуры в облако3D-моделирование и рендерингVMware: резервное копирование виртуальных машинVMware: резервный ЦОДVMware: резервное копирование в облакоVMware: миграция виртуальных машин
Поиск
Связаться с нами

Cloud.ru анонсировал первый в России управляемый сервис для инференса больших языковых моделей в облаке с разделением GPU

Провайдер облачных и AI-технологий Cloud.ru представил Evolution ML Inference – первый в России готовый облачный сервис для инференса (вывода) больших языковых моделей (LLM) с возможностью разделения графических процессоров (GPU) и гибким подходом к утилизации вычислительных ресурсов. Помимо уже доступных в рамках сервиса Cloud.ru моделей GigaChat бизнес может запускать и развертывать собственные AI-модели и любые ML/DL open source модели из библиотеки Hugging Face на базе облачных GPU в несколько кликов. Сервис уже доступен для пользователей в режиме General availability и войдет в состав Cloud.ru Evolution AI Factory – готового набора инструментов для работы с AI в облаке, анонсированного на ежегодной конференции GoCloud.

Новости
Иллюстрация для статьи на тему «Cloud.ru анонсировал первый в России управляемый сервис для инференса больших языковых моделей в облаке с разделением GPU»

Evolution ML Inference подойдет для компаний и пользователей, которые разрабатывают AI- и ML-решения и хотят быстро и с минимальными затратами запустить собственную ML-модель и персональный конечный продукт для работы. Это полностью управляемый сервис – пользователь только настраивает конфигурацию, модель и тип масштабирования. При этом Cloud.ru предоставляет доступ к мощным графическим процессорам, а также выполняет полное администрирование и обслуживание инфраструктуры.

Ключевые преимущества сервиса: 

  • Shared GPU – технология позволяет разделять GPU-ресурсы и потреблять то количество vRAM (видеопамяти), которое необходимо для эффективной работы самой модели без задержек, с возможностью динамически перераспределять ресурсы в зависимости от текущих потребностей клиентов. Это повышает утилизацию мощностей в AI-проектах от 15 до 45% в сравнении со сценарием, когда графические процессоры используется полностью.

  • Простота и гибкость управления сервисом дают возможность, как запускать модели без необходимости сборки образа напрямую из Hugging Face, так и запускать собственные образы со своим окружением.

  • Решение обеспечивает высокую степень адаптации и рациональное использование доступных ресурсов: на одной видеокарте можно одновременно запускать несколько моделей. Это делает технологию наиболее оптимальной для распределенных систем с разнородной вычислительной инфраструктурой и помогает эффективно масштабировать нагрузку.

  • Режим скайлирования (эффективного масштабирования) – тарификация за использование модели начинается только в момент обращения к ней.

По нашим оценкам около 70% пользователей загружают GPU-ресурсы, зарезервированные под инференс в процессе эксплуатации ML-моделей, менее чем на 55%. При внедрении AI в большинстве случаев базой становится именно среда исполнения модели. Поэтому для получения экономии ресурсов и оптимизации затрат в ходе использовании технологий искусственного интеллекта, особенно GenAI, необходима производительная инфраструктура с гибким масштабированием в реальном времени. Глубоко изучив потребности клиентов и наиболее популярные запросы на инфраструктуру и сервисы для AI, мы представили рынку первый управляемый облачный сервис для инференса LLM. С его помощью бизнес может эффективно управлять вычислительными ресурсами в среде с высокой интенсивностью обработки данных. Благодаря размещению Evolution ML Inference в облаке компании могут упростить доступ к AI и сделать использование AI-инструментов проще и удобнее.

Евгений Колбингенеральный директор провайдера облачных и AI-технологий Cloud.ru
Дарим до 20 000 бонусов
Дарим до 20 000 бонусов
4 000 бонусов — физическим лицам, 20 000 бонусов — юридическим

Подробнее о сервисе – на сайте.

 

Пресс-служба Сloud.ru: pr@cloud.ru

 

Cloud․ru — провайдер облачных сервисов и AI-технологий, который делает доступ к облакам и искусственному интеллекту простым и удобным. В Cloud.ru есть 100+ IaaS- и PaaS-сервисов, ML-платформа на базе суперкомпьютеров и публичное облако Cloud․ru Evolution на основе собственных разработок и open source.

В команде провайдера более 1 500 специалистов в области IT, кибербезопасности и AI. Cloud.ru входит в число крупнейших IT-компаний России и в топ работодателей Хабр Карьеры.

Чтобы узнать больше, переходите на сайт cloud.ru или подписывайтесь на Cloud.ru Tech в Telegram.

17 апреля 2025