Облачная платформаEvolution

Настройка ноутбука для работы со Spark Connect


С помощью этого руководства вы создадите и настроите ноутбук для работы со Spark Connect.

Вы будете использовать следующие сервисы:

  • Managed Spark — сервис, который позволяет развернуть кластерное вычислительное решение на основе Apache Spark для распределенной обработки данных.

  • Notebooks — сервис для запуска сред ML и работы DS-специалистов в ноутбуках на платформе Evolution.

Шаги:

Перед началом работы

  1. Если вы уже зарегистрированы, войдите под своей учетной записью.

  2. Создайте бакет Object Storage, в котором будут храниться необходимые файлы и логи.

  3. Создайте кластер Data Platform, в котором будет размещен инстанс.

  4. Когда статус инстанса Managed Spark сменится на «Готов», создайте Spark Connect.

1. Подготовьте окружение

На этом шаге вы подготовите данные, необходимые для настройки соединения.

  1. Перейдите в раздел Пользователи → Сервисные аккаунты.

  2. Создайте cервисный аккаунт или откройте уже существующий.

  3. Перейдите на вкладку API-ключи.

  4. Нажмите Создать API-ключ.

  5. Введите название ключа, например «spark-api-key».

  6. Введите описание ключа.

  7. В поле Сервисы выберите Evolution Data Platform.

  8. Нажмите Создать.

  9. Сохраните значение API-ключа. После закрытия окна получить его будет нельзя.

  10. На верхней панели слева нажмите Кнопка с изображением девяти точек и выберите Управление → Secret Management.

  11. Нажмите Добавить секрет.

  12. Укажите путь к папке в формате имя_папки/имя_секрета, в которой будет создан секрет. Если указанной папки нет в системе, она добавится одновременно с секретом.

  13. В поле Значение секрета выберите Стандартный режим и укажите сохраненное ранее значение API-ключа.

  14. Нажмите Создать.

  15. Перейдите в сервис Managed Spark.

  16. Откройте карточку созданного ранее инстанса. Информация из нее понадобится при создании ноутбука.

2. Создайте ноутбук

На этом шаге вы создадите и запустите ноутбук для работы со Spark Connect.

  1. Откройте сервис AI Factory → Notebooks.

  2. Нажмите Создать.

  3. В блоке Образ выберите базовый образ Cloud.ru Jupyter (Root). Выберите версию 0.4.0.

  4. Нажмите Продолжить.

  5. В блоке Окружение и данные нажмите Добавить переменную.

    • В поле Ключ введите SPARK_HOST.

    • В поле Значение введите публичный хост из карточки созданного ранее инстанса Managed Spark.

  6. В блоке Окружение и данные нажмите Добавить переменную с секретом.

    • В поле Ключ введите API_KEY.

    • В поле Секрет выберите созданный ранее секрет.

  7. Нажмите Создать.

  8. Дождитесь, когда статус ноутбука сменится на «Запущен».

  9. В строке с названием ноутбука нажмите JupyterLab.

3. Установите скрипт для работы со Spark Connect

На этом шаге вы установите на ноутбук скрипт для работы со Spark Connect.

  1. Cкачайте файл со скриптом notebook_for_spark_connect.ipynb.

  2. В интерфейсе ноутбука на панели слева нажмите HOME.

  3. Нажмите Upload Files.

  4. Укажите скачанный ранее файл notebook_for_spark_connect и нажмите Открыть.

  5. Когда загрузка файла завершится, запустите его.

  6. Выберите первую ячейку с кодом. Запустите выполнение кода: на верхней панели нажмите Run this cell and advance.

  7. Нажмите Ok, чтобы подтвердить перезагрузку.

  8. Когда перезагрузка завершится, последовательно запустите выполнение кода в остальных ячейках.

Результат

Вы создали и настроили ноутбук для работы со Spark Connect.