Платформа речевой аналитики Deeray кратно увеличила количество пользователей благодаря переносу продуктовой среды в Cloud.ru
Как IT-компания обеспечила масштабирование своего AI-решения, сократила затраты на инференс языковых моделей более чем в 10 раз и получила надежную инфраструктуру для обработки 4 миллионов минут речи ежемесячно.
О компании
Deeray — нижегородская IT-компания, разработчик инновационной платформы речевой аналитики для анализа бизнес-коммуникаций с использованием искусственного интеллекта. С 2018 года компания входит в число лидеров российского рынка, использующих собственные технологии вместо готовых open source. Команда из 30 специалистов создает продукт, который обрабатывает миллионы минут речевых коммуникаций и текстовых чатов ежемесячно для клиентов из медицины, госсектора, банков, телекома и малого бизнеса. В силу разных потребностей клиентов, компания придерживается стратегии независимости от специфичных managed-сервисов, чтобы сохранить возможность развертывания своего продукта как on-premise, так и в облаке.
Задача
Платформа Deeray представляет собой сложную технологическую экосистему с гибридной архитектурой, в которой работает множество специализированных алгоритмов и языковых моделей, координируемых оркестратором. В отличие от конкурентов, полагающихся на одну-две универсальные open source-модели, Deeray использует ансамбли специализированных языковых моделей и алгоритмов, подбирая конфигурацию под задачу и экономическую целесообразность — от семантического анализа до мультимодальной обработки данных. Для такой архитектуры критически важны GPU-ресурсы и стабильная инфраструктура.
В 2024 году Deeray столкнулась сразу с двумя вызовами: с одной стороны, сегмент малого и среднего бизнеса показал впечатляющий спрос на омниканальную речевую аналитику. С другой — арендованные вычислительные мощности заканчивались, а сотрудничество с текущим провайдером сопровождалось рядом проблем. В частности, повысились цены на GPU-сервера, доступность сети оставляла желать лучшего, как и время реакции технической поддержки на инциденты.
Почему Cloud.ru
Среди клиентов Deeray — государственные органы (например, Центр управления регионом, МИАЦ), крупные корпорации (банки, телекоммуникационные и IT-компании), а также представители малого и среднего бизнеса: медицинские клиники, стоматологии, фитнес-центры и сервисные компании. Когда вопрос о необходимости новых GPU для работы стал острее, команда проанализировала рынок, руководствуясь следующими критериями:
- Экономическая эффективность GPU-ресурсов. Для бизнеса, чьи продукты построены на машинном обучении, цена графических ускорителей была определяющим фактором. А поскольку Cloud.ru разработал
- Качество технической поддержки . После негативного опыта с предыдущими провайдерами, компании было критически важно получать оперативную реакцию на инциденты и быстрые ответы на вопросы. Согласно отзывам коллег по отрасли, работа поддержки Cloud.ru не вызывала нареканий.
- Удобство администрирования.Поскольку проект ведет научная команда, простота работы в консоли также была принципиальной.
- Стабильность инфраструктуры. Из-за регулярных проблем с доступностью сети у предыдущего провайдера, компания готова была мигрировать только туда, где тестирование не выявило бы никаких проблем.
Выбор остановился на Cloud.ru, финальным доводом в пользу провайдера стала скидка выпускникам IT-акселератора Sber500, среди которых был и Deeray.
Решение
Тестирование началось в августе 2023 года. После успешного пилота, подтвердившего стабильность и производительность платформ Cloud.ru, команда Deeray приняла решение о миграции продакшен-инфраструктуры. Миграция была тщательно спланирована и заняла около недели, при этом основную часть времени заняла подготовительная работа — написание скриптов автоматизации и настройка окружений. Сам же процесс переноса данных и переключения DNS занял около получаса. Несмотря на кратковременный даунтайм, связанный с переключением, процесс прошел без инцидентов.
Сегодня платформа Deeray представляет собой высоконагруженную распределенную систему, развернутую на виртуальных серверах Cloud.ru. Минимальная конфигурация включает четыре виртуальные машины:
- Узел данных — PostgreSQL (OLTP) и ClickHouse (OLAP) как отдельные сервисы с персистентным хранилищем.
- Кеш-узел — Redis для низколатентного доступа к часто используемым данным.
- Узел приложений — воркер Kubernetes для микросервисов (API, личный кабинет, оркестрация пайплайнов).
- Узел инференса — отвечает за инференс моделей на GPU/vGPU.
Все приложения работают в контейнерах и оркестрируются с помощью Kubernetes. Для мониторинга состояния инфраструктуры, алертинга и визуализации используется Grafana Stack: отслеживается и потребление CPU/RAM, и даже температура GPU-серверов.
После запуска сервиса Evolution Foundation Models команда Deeray начала активно использовать его — этот инструмент демонстрирует колоссальную экономию на инференсе.
Для сравнения, модель Qwen 2.5 (235B параметров) обходится нам около 2 копеек за 1000 исходящих токенов, в то время как конкурирующие решения стоят около 60 копеек. Средний промпт Deeray содержит 6 000-8 000 токенов в структурированном виде, без учета системных промптов, что дает примерно 30-кратную экономию на каждом запросе.
Результат
Доступ к производительным GPU-серверам Cloud.ru позволил Deeray продолжить технологическое развитие своей платформы. Компания успешно переобучает модели распознавания речи, достигая впечатляющих результатов: для одного из клиентов удалось снизить Word Error Rate до 1,5% против стандартных 25–29% у коробочных решений.
За более чем год совместной работы Deeray добилась значительных результатов как в технологическом, так и в бизнес-плане. Благодаря стабильной работе и гибкости сервисов Cloud.ru компания успешно справилась с резким притоком клиентов из среднего и малого бизнеса.
Платформа испытывает два выраженных пика нагрузки: ночью, когда происходит систематизация данных клиентов по всей России, и утром, когда загружается основная масса звонков. Пока что выделенные ресурсы справляются с нагрузкой, но в будущем планируется запуск автоматического масштабирования.
Платформа стабильно обрабатывает 4 миллиона минут речи и 1,5 миллиона чатов ежемесячно, при этом сохраняя возможность для роста.
Нас всего 30 человек, но среди них вообще нет лишних, все специалисты A-класса. Отсутствие критических сбоев при работе с Cloud.ru позволило команде платформы сосредоточиться на развитии продукта, а не на ликвидации последствий инфраструктурных проблем. Единственный незначительный инцидент, связанный с исчерпанием квоты по оперативной памяти на кеш-сервере, нам оперативно помогла разрешить техническая поддержка.
Планы
Deeray рассматривает Cloud.ru как стратегического партнера для реализации амбициозных планов развития. Для оптимизации затрат и более эффективной обработки в периоды пиковых нагрузок, в ближайшее время планируется ввести автоматическое масштабирование с помощью Kubernetes Cluster Autoscaler и перейти на управление инфраструктурой как кодом (IaC) с Terraform. Это даст возможность разворачивать около 10 дополнительных серверов на 4-5 часов, выполнять вычисления и освобождать ресурсы, чтобы не содержать избыточные мощности и экономить еще больше.
Работа с командой Deeray — это пример доверия и настоящего партнерства. Мы ценим выбор Cloud.ru для их ключевых бизнес-задач и ощущаем ответственность за рост такого инновационного продукта. Уверен, что впереди нас ждут большие совместные проекты и новые смелые достижения.
Также в планах использовать Evolution ML Inference для более простого развертывания и управления ML-моделями.
В следующем году Deeray планирует развернуть собственные большие языковые модели с токенизатором, переписанным специально под русский язык. Решение позволит повысить не только качество анализа (особенно для русскоязычных фамилий и терминологии), но и скорость обработки на 90–95% за счет более оптимального разбиения текста на токены.
