Быстрый старт
С помощью быстрого старта вы создадите инстанс Spark для обработки больших данных и запустите задачу из бакета Object Storage.
Перед началом работы
Если вы уже зарегистрированы, войдите под своей учетной записью.
После входа выполните шаги, необходимые для работы Spark:
Создайте бакет Object Storage, в котором будет храниться журнал событий и код задачи Spark.
Добавьте в Object Storage файл с кодом задачи Spark.
Создайте кластер Data Platform, в котором будет размещен инстанс.
Назовите кластер «dp-start».
Создайте пароль и добавьте его в Secret Manager. Этот секрет станет паролем для доступа к интерфейсу Spark.
Создайте инстанс
Перейдите в раздел Evolution и выберите сервис Managed Spark.
Нажмите Создать инстанс.
В блоке Общие параметры:
Название — spark.
Кластер — dp-start.
В блоке Конфигурация выберите:
Вычислительные ресурсы — Small (vCPU 2, RAM 4).
Количество воркеров — 2.
В блоке Настройки:
Место сохранения — Object Storage.
Бакет — выберите бакет из списка.
В блоке Логирование в поле Лог-группа выберите группу логов.
Нажмите Продолжить.
В блоке Сетевые настройки выберите:
Зона доступности — зону доступности.
Подсеть — подсеть со sNAT-шлюзом и с DNS-сервером.
Если нужной подсети нет, создайте новую, нажав Создать новую подсеть.
В блоке Настройки доступа:
Подключить публичный хост — активируйте опцию, чтобы опубликовать инстанс в интернете. Интерфейсы Spark History Server и Spark UI станут доступны из интернета.
Логин — задайте логин для доступа к Spark.
Пароль — выберите секрет для доступа к Spark.
Вы можете создать новый секрет, нажав Создать новый секрет.
Нажмите Создать.
Создание инстанса займет около 15 минут.
Создайте задачу
В списке инстансов Managed Spark откройте нужный инстанс.
Перейдите на вкладку Задачи.
Нажмите Создать задачу.
В блоке Общие параметры введите название задачи.
В блоке Образ выберите базовый образ Spark-3.5.0.
В блоке Скрипт приложения:
Тип запускаемой задачи — язык программирования, на котором написана задача Spark.
Путь к запускаемому файлу — путь к задаче в Object Storage.
(Опционально) Активируйте опцию Добавить аргумент, чтобы указать дополнительные аргументы командной строки для запуска скрипта задачи.
В блоке Вычислительные ресурсы задайте вычислительные ресурсы для Driver и Executors.
(Опционально) В блоке Настройки активируйте опции:
Добавить параметры окружения (ENV), чтобы настроить окружение.
Добавить Spark конфигурацию (–conf), чтобы указать дополнительные параметры выполнения задачи.
Добавить зависимости, чтобы добавить необходимые пакеты и библиотеки.
Нажмите Создать.
Задача Spark начнет выполняться и отобразится на странице инстанса во вкладке Задачи.
Что дальше
Вы можете посмотреть логи задачи.
- Перед началом работы
- Создайте инстанс
- Создайте задачу
- Что дальше