Big data представляет как захватывающие возможности, так и огромную проблему. По мере того как объём и типы данных стремительно растут, традиционные технологии обработки данных, такие как автономные системы хранения и реляционные базы данных, не успевают за ними. Чтобы справиться с этой задачей, Apache Software Foundation (ASF) запустила проект с открытым исходным кодом под названием Hadoop. Hadoop — это распределённая вычислительная платформа с открытым исходным кодом, способная полностью использовать вычислительные и хранилищные возможности больших вычислительных кластеров для обработки массивных объёмов данных. Hadoop является мощным фреймворком, но его не легко развернуть и эксплуатаировать — если предприятия пытаются развернуть системы Hadoop самостоятельно, они могут столкнуться с проблемами, такими как высокие затраты, длительный ввод в эксплуатацию, сложное обслуживание и негибкое использование.
Сервис MapReduce Service (MRS) предлагает комплексный сервис, который помогает быстро развернуть и управлять системами Hadoop в облаке с легкостью. С помощью MRS вы можете создать кластер Hadoop enterprise‑class с несколькими щелчками мыши. Арендаторы имеют полный контроль над своими кластерами Hadoop и могут без усилий запускать компоненты больших данных, такие как Storm, Hadoop, Spark, HBase и Kafka. MRS поддерживает полный набор открытых API, и, используя глубокую экспертизу облачной платформы в вычислениях, хранении и больших данных, предлагает клиентам полностековую платформу больших данных с высокой производительностью, высокой экономичностью, гибкостью и простотой использования. Кроме того, платформу можно легко настроить под новые требования и помочь предприятиям быстро построить масштабную систему обработки данных и обнаружить новую ценность и бизнес‑возможности, анализируя и добывая огромные объемы данных в реальном времени или вне реального времени.
Figure 1 показывает логическую архитектуру MRS.
Figure 1 архитектура MRS

MRS включает инфраструктуру и конвейер обработки больших данных от начала до конца.
Кластеры MRS для больших данных полностью используют высокую масштабируемость, надежность и функции безопасности уровня виртуализации, поддерживаемого облачной платформой.
Слой сбора данных обеспечивает возможность эффективного захвата данных из различных источников данных. Он состоит из Flume (захват данных), Loader (загрузка реляционных данных) и Kafka (высоконадёжная очередь сообщений). В качестве альтернативы вы можете использовать сервис Cloud Data Migration (CDM) для захвата внешних данных в кластеры MRS.
Кластеры MRS могут хранить как структурированные, так и неструктурированные данные. Они поддерживают множество эффективных форматов данных, чтобы удовлетворять требования различных вычислительных движков, включая:
MRS также интегрируется с DataArts Studio, предоставляя универсальную совместную платформу разработки больших данных, позволяя вам легко выполнять широкий спектр задач, таких как моделирование данных, интеграция данных, разработка скриптов, планирование Джоб и мониторинг O&M, делая большие данные более доступными, чем когда-либо.
Все компоненты экосистемы больших данных на основе Hadoop развернуты в распределённом режиме, а их развертывание, управление и O&M являются сложными.
MRS предоставляет единый O&M и управленческий платформу для управления кластерами, поддерживая развертывание кластера в один клик, выбор мультиверсий, а также ручное масштабирование и авто‑масштабирование кластеров без прерывания сервиса. Кроме того, MRS предоставляет управление джобами, управление тегами ресурсов и O&M, охватывающее все компоненты Hadoop. Возможности O&M «одного окна» включают мониторинг, сообщение о тревогах, настройку параметров и обновление Патчей.
MRS имеет сильную команду ядра Hadoop и построен на базе крупномасштабной платформы больших данных FusionInsight корпоративного класса. MRS может гарантировать многоуровневые Service Level Agreements (SLAs).
У MRS есть следующие преимущества:
MRS поддерживает решение хранения CarbonData. CarbonData позволяет использовать одну копию данных для выполнения нескольких задач. Он поддерживает такие функции, как многоуровневое индексирование, кодирование словаря, предагрегация, динамическое разбиение и почти в реальном времени запрос данных. Эти функции повышают эффективность сканирования I/O и вычислительной производительности, позволяя анализировать десятки миллиардов записей данных за секунды. Кроме того, MRS поддерживает Superior Scheduler, который превосходит открытые планировщики во всех отношениях и обеспечивает эффективное планирование в сверхбольших кластерах (до 10 000 узлов).
MRS поддерживает гетерогенную инфраструктуру вычислений и хранения с разъединённым хранением и вычислениями, предлагая экономичное масштабное решение для хранения. MRS поддерживает быстрое авто масштабирование для адаптации к изменяющемуся спросу, максимизируя использование ресурсов для заказчиков. Кластеры MRS можно быстро создавать и масштабировать по мере необходимости, а также удалять или масштабировать их, когда они больше не нужны.
MRS предоставляет enterprise-class управление разрешениями в многопользовательской среде и управление безопасностью, поддерживая контроль доступа на основе таблиц и столбцов, а также шифрование данных.
MRS предоставляет эффективную платформу управления кластером big data, поддерживающую одно‑кликовое скользящее обновление патчей, обеспечивающее непрерывность ваших сервисов.
Тестировано и подтверждено в многочисленных проектах, долгосрочная надёжность и стабильность MRS в масштабных развертываниях способны соответствовать корпоративным стандартам для производственных систем. Кроме того, MRS поддерживает автоматический Бэкап данных в разных AZ и регионах, а также автоматическую anti‑affinity, позволяя критически важным ВМ распределять на разные физические машины.