С помощью этого руководства научитесь создавать задачу Managed Spark для выполнения операций в Hive Metastore версии 4.1.
Вы будете использовать следующие сервисы:
Managed Spark — сервис, который позволяет развернуть кластерное вычислительное решение на основе Apache Spark для распределенной обработки данных.
Managed Metastore — сервис для хранения и управления метаданными из разных источников.
Шаги:
Располагайте создаваемые сущности в одной VPC и используйте единые сетевые параметры.
Зарегистрируйтесь в личном кабинете Cloud.ru.
Если вы уже зарегистрированы, войдите под своей учетной записью.
Создайте бакет Object Storage, в котором будут храниться необходимые файлы.
Создайте инстанс Hive Metastore. В блоке Конфигурация выберите версию Managed Metastore 0.2.1 (4.1).
Создайте инстанс Managed Spark. В блоке Настройки в качестве места сохранения укажите созданный ранее бакет Object Storage.
Получите базовый образ Spark 4.1.1., отправив запрос в техподдержку.
На этом шаге вы загрузите скрипт задачи в бакет Object Storage.
Скачайте файл spark_metastore_v4.py.
Загрузите файл в созданный ранее бакет Object Storage.
На этом шаге вы загрузите в бакет Object Storage jar-файлы с зависимостями.
Скачайте файлы:
В ранее созданном бакете Object Storage создайте папку jar-files.
Загрузите скачанные файлы в папку jar-files.
На этом шаге вы создадите задачу Managed Spark с использованием подготовленного скрипта.
Для продолжения работы убедитесь, что статус инстанса Managed Spark изменился на «Готов».
Перейдите в сервис Managed Spark.
Откройте созданный ранее инстанс.
Перейдите на вкладку Задачи.
Нажмите Создать задачу.
В блоке Общие параметры введите название задачи, например spark-job-metastore-4.
В блоке Образ выберите базовый образ Spark-4.1.1.
В блоке Скрипт приложения:
в поле Тип запускаемой задачи выберите Python;
в поле Путь к запускаемому файлу укажите путь к файлу spark_metastore_v4.py.
В блоке Настройки активируйте опцию Добавить параметры окружения.
Добавьте следующие параметры и их значения:
Параметр | Значение |
|---|---|
METASTORE_URI | Значение Thrift URL из карточки созданного ранее инстанса Managed Metastore. |
WAREHOUSE_DIR | Путь до warehouse из карточки созданного ранее инстанса Managed Metastore. |
В блоке Настройки активируйте опцию Добавить Spark конфигурацию (–conf).
Добавьте следующие аргументы и их значения:
Аргумент | Значение |
|---|---|
spark.sql.hive.metastore.jars | path |
spark.sql.hive.metastore.version | 4.1.0 |
spark.sql.hive.metastore.jars.path | file:///opt/spark/work-dir/* |
В блоке Настройки активируйте опцию Добавить зависимости.
В поле JAR (–jars) введите s3a://<bucket-name>/jar-files/*, где <bucket-name> — название используемого бакета Object Storage.
Нажмите Создать.
На этом шаге вы проверите логи задачи Managed Spark и убедитесь, что действия в Managed Metastore были успешно произведены.
Для продолжения работы убедитесь, что статус задачи Managed Spark изменился на «Завершена».
В строке задачи нажмите и выберите Перейти к логам.
В логах задачи отобразятся сообщения об успешных действиях в Managed Metastore.
Перейдите в бакет Object Storage.
В нем появится папка table_ready с файлами, созданными в ходе выполнения задачи.
Перейдите в инстанс Hive Metastore.
Откройте вкладку Мониторинг.
Виджеты Таблицы и Базы данных покажут действия с таблицами и базами данных, проведенные в ходе выполнения задачи.
Вы создали задачу Managed Spark, скрипт которой выполнил операции в Hive Metastore.