Управляемый кластер Hadoop

Решение для создания управляемого кластера Hadoop в облаке Advanced реализуется с использованием платформы корпоративного уровня MRS для хранения, обработки и анализа больших данных.

Данное решение позволяет реализовать в облаке Advanced систему хранения и анализа больших данных, которая обеспечивает следующие возможности:

  • Управляемый кластер Hadoop в несколько кликов.

  • Простое масштабирование и автомасштабирование.

  • Отказоустойчивость «из коробки».

  • Возможность интеграции с продуктами open source.

  • Управление резервным копированием и обновлениями из интерфейса.

Построение системы хранения и анализа больших данных в облаке Advanced имеет следующие преимущества и риски:

Преимущества решения

Риски

  • Быстрое создание и изменение кластеров Hadoop и ClickHouse.

  • Большое количество доступных компонентов.

  • Возможность использования для пакетной обработки данных и для анализа данных в реальном времени.

  • Возможность работы с файлами в OBS напрямую.

  • Неограниченные возможности масштабирования — разделение вычислительных возможностей и хранения с помощью OBS.

Программы и файлы с данными могут быть использованы, если они будут предварительно загружены в одну из файловых систем хранения: OBS или HDFS.

Общая схема

../../_images/schm__typical-solutions_adv_on-pagers-tools_mrs-hadoop.svg

Описание решения

Предварительные требования:
  • В тенанте должны быть созданы как минимум одна VPC и одна подсеть (Subnet).

  • В тенанте должен быть создан бакет в сервисе OBS.

  • Запись всех операций, в том числе операций с ресурсами MRS, и результатов выполнения заданий выполняется сервисом CTS.

Реализация

Список последовательных действий при настройке решения:

  1. Создание VPC.

  2. Создание подсетей (Subnet).

  3. Создание бакета в сервисе OBS.

  4. Создание ключей Access Key/Secret Key для IAM пользователя с правами Администратора.

  5. Создание целевого сервера CTS для записи всех операций и результатов выполнения заданий.

  6. Cоздание кластера MRS.

  7. Загрузка данных в бакет OBS.

  8. Импорт данных из бакета OBS в HDFS.

  9. Экспорт данных из HDFS в бакет OBS.

Масштабная конференция
GoCloud 2024:
облачные грани будущего