Быстрый старт
С помощью быстрого старта вы создадите инстанс Spark для обработки больших данных и запустите задачу из бакета Object Storage.
Перед началом работы
Если вы уже зарегистрированы, войдите под своей учетной записью.
После входа выполните шаги, необходимые для работы Spark:
-
Создайте бакет Object Storage, в котором будет храниться журнал событий и код задачи Spark.
-
Добавьте в Object Storage файл с кодом задачи Spark.
-
Создайте кластер Data Platform, в котором будет размещен инстанс.
Назовите кластер «dp-start».
-
Создайте пароль и добавьте его в Secret Manager. Этот секрет станет паролем для доступа к интерфейсу Spark.
Создайте инстанс
-
Перейдите в раздел Evolution и выберите сервис Managed Spark.
-
Нажмите Создать инстанс.
-
В блоке Общие параметры:
-
Название — spark.
-
Кластер — dp-start.
-
-
В блоке Конфигурация выберите:
-
Вычислительные ресурсы — Small (vCPU 2, RAM 4).
-
Количество воркеров — 2.
-
-
В блоке Настройки:
-
Место сохранения — Object Storage.
-
Бакет — выберите бакет из списка.
-
-
В блоке Логирование в поле Лог-группа выберите группу логов.
-
Нажмите Продолжить.
-
В блоке Сетевые настройки выберите:
-
Зона доступности — зону доступности.
-
Подсеть — подсеть со sNAT-шлюзом и с DNS-сервером.
Если нужной подсети нет, создайте новую, нажав Создать новую подсеть.
-
-
В блоке Настройки доступа:
-
Подключить публичный хост — активируйте опцию, чтобы опубликовать инстанс в интернете. Интерфейсы Spark History Server и Spark UI станут доступны из интернета.
-
Логин — задайте логин для доступа к Spark.
-
Пароль — выберите секрет для доступа к Spark.
Вы можете создать новый секрет, нажав Создать новый секрет.
-
-
Нажмите Создать.
Создание инстанса займет около 15 минут.
Создайте задачу
-
В списке инстансов Managed Spark откройте нужный инстанс.
-
Перейдите на вкладку Задачи.
-
Нажмите Создать задачу.
-
В блоке Общие параметры введите название задачи.
-
В блоке Образ выберите базовый образ Spark-3.5.0.
-
В блоке Скрипт приложения:
-
Тип запускаемой задачи — язык программирования, на котором написана задача Spark.
-
Путь к запускаемому файлу — путь к задаче в Object Storage.
-
-
(Опционально) Активируйте опцию Добавить аргумент, чтобы указать дополнительные аргументы командной строки для запуска скрипта задачи.
-
В блоке Вычислительные ресурсы задайте вычислительные ресурсы для Driver и Executors.
-
(Опционально) В блоке Настройки активируйте опции:
-
Добавить параметры окружения (ENV), чтобы настроить окружение.
-
Добавить Spark конфигурацию (–conf), чтобы указать дополнительные параметры выполнения задачи.
-
Добавить зависимости, чтобы добавить необходимые пакеты и библиотеки.
-
-
Нажмите Создать.
Задача Spark начнет выполняться и отобразится на странице инстанса во вкладке Задачи.
Что дальше
Вы можете посмотреть логи задачи.
- Перед началом работы
- Создайте инстанс
- Создайте задачу
- Что дальше