- tocdepth
2
Быстрый старт
С помощью быстрого старта вы создадите инстанс Spark для обработки больших данных и запустите задачу из бакета Object Storage.
Перед началом работы
Зарегистрируйтесь в личном кабинете Cloud.ru.
Если вы уже зарегистрированы, войдите под своей учетной записью.
После входа выполните шаги, необходимые для работы Spark:
Создайте публичный SNAT-шлюз для доступа инстанса в интернет и связи с внешними источниками.
Создайте подсеть, в которой будут размещены инстанс Spark и связанные сервисы Cloud.ru, например базы данных.
Создайте секрет в сервисе Secret Manager.
Создайте бакет Object Storage, в котором будет храниться журнал событий и код задачи Spark.
Добавьте в Object Storage файл с кодом задачи Spark.
Создайте инстанс
Перейдите в раздел Evolution и выберите сервис Managed Spark.
Нажмите Создать инстанс.
В блоке Общие параметры укажите название инстанса, например
spark
.В блоке Конфигурация выберите:
Вычислительные ресурсы — Small (vSPU 2, RAM 4).
Количество воркеров — 2.
В блоке Настройки:
Место хранения журнала событий — выберите Object Storage.
Бакет — выберите бакет из списка.
В блоке Логирование в поле Группа логов выберите группу логов.
Нажмите Продолжить.
В блоке Сетевые настройки:
Подсеть — выберите подсеть для инстанса Spark.
Если нужной подсети нет, создайте новую, нажав Создать новую подсеть.
Группа безопасности — выберите группу безопасности с разрешающим правилом на входящий и исходящий трафик.
Если нужной группы безопасности нет, создайте новую, нажав Создать новую группу.
В блоке Настройки доступа:
Подключить публичный хост — активируйте опцию, чтобы опубликовать инстанс в интернете. Интерфейсы Spark History Server и Spark UI станут доступны из интернета.
Логин — задайте логин для доступа к Spark.
Пароль — выберите секрет для доступа к Spark.
Вы можете создать новый секрет, нажав Создать новый секрет.
Нажмите Создать.
Создание инстанса займет около 15 минут.
Создайте задачу
В списке инстансов Managed Spark откройте нужный инстанс.
Перейдите на вкладку Задачи.
Нажмите Создать задачу.
В блоке Общие параметры введите название задачи.
В блоке Образ выберите базовый образ
spark-3.5
.В блоке Скрипт приложения:
Тип запускаемой задачи — язык программирования, на котором написана задача Spark.
Путь к запускаемому файлу — путь к задаче в Object Storage.
(Опционально) Активируйте опцию Добавить аргумент, чтобы указать дополнительные аргументы командной строки для запуска скрипта задачи.
В блоке Вычислительные ресурсы задайте вычислительные ресурсы для Driver и Executors.
(Опционально) В блоке Настройки активируйте опции:
Добавить параметры окружения (ENV), чтобы настроить окружение.
Добавить Spark конфигурацию (–conf), чтобы указать дополнительные параметры выполнения задачи.
Добавить зависимости, чтобы добавить необходимые пакеты и библиотеки.
Нажмите Создать.
Задача Spark начнет выполняться и отобразится на странице инстанса во вкладке Задачи.
Что дальше
Вы можете посмотреть логи задачи.
для Dev & Test