С помощью этого руководства вы создадите и настроите ноутбук для работы со Spark Connect.
Вы будете использовать следующие сервисы:
Managed Spark — сервис, который позволяет развернуть кластерное вычислительное решение на основе Apache Spark для распределенной обработки данных.
Notebooks — сервис для запуска сред ML и работы DS-специалистов в ноутбуках на платформе Evolution.
Шаги:
Если вы уже зарегистрированы, войдите под своей учетной записью.
Создайте бакет Object Storage, в котором будут храниться необходимые файлы и логи.
Скачайте и установите root-сертификат на устройство.
Создайте кластер Data Platform, в котором будет размещен инстанс.
Когда статус инстанса Managed Spark сменится на «Готов», создайте Spark Connect.
На этом шаге вы подготовите данные, необходимые для настройки соединения.
Перейдите в раздел Пользователи → Сервисные аккаунты.
Создайте cервисный аккаунт или откройте уже существующий.
Перейдите на вкладку API-ключи.
Нажмите Создать API-ключ.
Введите название ключа, например «spark-api-key».
Введите описание ключа.
В поле Сервисы выберите Evolution Data Platform.
Нажмите Создать.
Сохраните значение API-ключа. После закрытия окна получить его будет нельзя.
На верхней панели слева нажмите и выберите Управление → Secret Management.
Нажмите Добавить секрет.
Укажите путь к папке в формате имя_папки/имя_секрета, в которой будет создан секрет. Если указанной папки нет в системе, она добавится одновременно с секретом.
В поле Значение секрета выберите Стандартный режим и укажите сохраненное ранее значение API-ключа.
Нажмите Создать.
Перейдите в сервис Managed Spark.
Откройте карточку созданного ранее инстанса. Информация из нее понадобится при создании ноутбука.
На этом шаге вы создадите и запустите ноутбук для работы со Spark Connect.
Откройте сервис AI Factory → Notebooks.
Нажмите Создать.
В блоке Образ выберите базовый образ Cloud.ru Jupyter (Root). Выберите версию 0.4.0.
Нажмите Продолжить.
В блоке Окружение и данные нажмите Добавить переменную.
В поле Ключ введите SPARK_HOST.
В поле Значение введите публичный хост из карточки созданного ранее инстанса Managed Spark.
В блоке Окружение и данные нажмите Добавить переменную с секретом.
В поле Ключ введите API_KEY.
В поле Секрет выберите созданный ранее секрет.
Нажмите Создать.
Дождитесь, когда статус ноутбука сменится на «Запущен».
В строке с названием ноутбука нажмите JupyterLab.
На этом шаге вы установите на ноутбук скрипт для работы со Spark Connect.
Cкачайте файл со скриптом notebook_for_spark_connect.ipynb.
В интерфейсе ноутбука на панели слева нажмите HOME.
Нажмите Upload Files.
Укажите скачанный ранее файл notebook_for_spark_connect и нажмите Открыть.
Когда загрузка файла завершится, запустите его.
Выберите первую ячейку с кодом. Запустите выполнение кода: на верхней панели нажмите Run this cell and advance.
Нажмите Ok, чтобы подтвердить перезагрузку.
Когда перезагрузка завершится, последовательно запустите выполнение кода в остальных ячейках.
Вы создали и настроили ноутбук для работы со Spark Connect.