Managed Spark

Работа с пользовательским образом

Эта статья полезна?

В этой лабораторной работе вы обработаете данные с помощью пользовательского образа Spark.

Постановка задачи

Построить витрину данных, объединяющую информацию о заказах из двух таблиц.
Найти среднюю стоимость заказа.
Подсчитать расхождение суммы каждого заказа со средней стоимостью заказа.

Чтобы выполнить задачу, необходимо подготовить пользовательский образ и Python-скрипт. Пользовательский образ включает библиотеки для работы с S3 и библиотеку NumPy. Cкрипт выполняет действия с данными.

Описание работы Python-скрипта

Перед началом работы

Зарегистрируйтесь в личном кабинете Cloud.ru.

Если вы уже зарегистрированы, войдите под своей учетной записью.
Создайте бакет Object Storage, в котором будут храниться логи, таблицы и скрипт.
Создайте реестр Artifact Registry, в котором будет храниться пользовательский образ Spark.
Настройте DNS-сервер и подсеть.
Создайте кластер Data Platform, в котором будет размещен инстанс.

Назовите кластер «dp-labs».
Скачайте и установите root-сертификат на устройство.
Создайте пароль и добавьте его в Secret Manager. Этот секрет станет паролем для доступа к интерфейсу Spark.

Создайте инстанс Spark

Перейдите в раздел Evolution и выберите сервис Managed Spark.
Нажмите Создать инстанс.
В блоке Общие параметры:
- Название — spark-image.
- Кластер — dp-labs.
В блоке Конфигурация оставьте значения по умолчанию.
В блоке Настройки выберите:
- Место хранения — Object Storage.
- Бакет — ранее созданный бакет S3.
В поле Лог-группа выберите группу логов.
Нажмите Продолжить.
В блоке Сетевые настройки выберите:
- Подсеть — подсеть со sNAT-шлюзом и с DNS-сервером.
  
  Если нужной подсети нет, создайте новую, нажав Создать новую подсеть.
В блоке Настройки доступа:
- Подключить публичный хост — активируйте опцию, чтобы опубликовать инстанс в интернете. Интерфейсы Spark History Server и Spark UI станут доступны из интернета.
- Логин — задайте логин для доступа к Spark.
- Пароль — выберите секрет для доступа к Spark.
  
  Вы можете создать новый секрет, нажав Создать новый секрет.
Нажмите Создать.

Создание инстанса занимает около 15 минут. Пока создается инстанс, выполните шаги по подготовке структуры бакета Object Storage, данных и скрипта.

Подготовьте файл CSV

Скачайте CSV-таблицы client-spark-image.csv и sales-spark-image.csv. Нажмите Скачать в правом верхнем углу.
В файловом менеджере Object Storage создайте папку input и загрузите CSV-таблицы.

Подготовьте скрипт

Скопируйте скрипт и назовите файл script-spark-image.py.

Python-скрипт
В строке bucket_name = 'your-bucket-name' замените your-bucket-name на название бакета Object Storage.
В файловом менеджере Object Storage создайте папку jobs и загрузите скрипт.

В результате должна получиться следующая структура:

<bucket>
- input
  - sales-spark-image.csv
  - client-spark-image.csv
- jobs
  - script-spark-image.py

Подготовьте образ в Artifact Registry

Создайте образ в формате Dockerfile.

FROM apache/spark:3.5.0-scala2.12-java11-python3-ubuntu

# add S3 libs
RUN curl https://repo1.maven.org/maven2/com/amazonaws/aws-java-sdk-bundle/1.12.262/aws-java-sdk-bundle-1.12.262.jar -o /opt/spark/jars/aws-java-sdk-bundle-1.12.262.jar
RUN curl https://repo1.maven.org/maven2/org/apache/hadoop/hadoop-aws/3.3.4/hadoop-aws-3.3.4.jar -o /opt/spark/jars/hadoop-aws-3.3.4.jar

ARG spark_uid=root
USER ${spark_uid}

# install compartible numpy version
RUN pip install numpy==1.21.6

Чтобы собрать образ, выполните команду:
```
docker build . --tag <IMAGE-NAME>:<TAG> --platform linux/amd64
```
Где:
- <IMAGE-NAME> — имя образа.
- <TAG> — тэг образа.
В сервисе Artifact Registry:
1. Создайте репозиторий.
2. Загрузите образ.

Создайте задачу

Для продолжения работы убедитесь, что статус инстанса Spark изменился на «Готов».

Перейдите в раздел Evolution и выберите сервис Managed Spark.
В списке инстансов Managed Spark откройте карточку инстанса «spark-image».
Перейдите на вкладку Задачи.
Нажмите Создать задачу.
В блоке Общие параметры введите название задачи, например spark-image-sales.
В блоке Образ:
1. Выберите Пользовательский.
2. Под полем URI образа нажмите Выбрать из реестра и выберите добавленный ранее образ.
В блоке Скрипт приложения выберите Python.
Укажите путь к запускаемой программе. В данном случае путь s3a://{bucket_name}/jobs/script-spark-image.py, где {bucket_name} — название созданного бакета Object Storage.
Нажмите Создать.

Задача Spark начнет выполняться и отобразится на странице инстанса на вкладке Задачи.

Мониторинг выполнения задачи

Вы можете посмотреть логи задачи, когда задача находится в статусах «Выполняется» и «Готово», то есть как в процессе выполнения, так и по завершению задачи.

Перейдите к логам

Откройте карточку инстанса.
Во вкладке Задачи скопируйте ID задачи.
Нажмите и выберите Перейти к логам.
В поле Запрос введите labels.spark_job_id="ID", где ID — идентификатор задачи, скопированный ранее.
Нажмите Обновить.

В таблице отобразятся логи задачи. Нажмите на строку, чтобы развернуть запись.

Перейдите в Spark UI

Откройте карточку инстанса.
Во вкладке Задачи нажмите Spark UI.

В соседней вкладке откроется интерфейс Spark UI.
Вернитесь на карточку инстанса и откройте вкладку Информация.
Скопируйте данные из блока Настройки доступа.
Введите данные инстанса:
- Username — значение поля Пользователь.
- Password — значение секрета в поле Пароль.

В интерфейсе Spark UI вы найдете информацию о ходе выполнения задачи.

Проверьте результат

Когда задача перейдет в статус «Выполнено», откройте файловый менеджер Object Storage.

В бакете появится новая папка output. В ней хранится сводная таблица данных.

Предыдущая статья

Обработка данных из Object Storage

Следующая статья

Работа с таблицами Iceberg

Эта статья полезна?

Поддержка Юридические документы