С помощью этого руководства вы настроите AI-агента для анализа производительности и оптимизации задач Managed Spark. Вы запустите тестовую задачу Managed Spark, и AI-агент выполнит поиск параметров, которые можно изменить для уменьшения времени выполнения задачи.
Вы будете использовать следующие сервисы:
Managed Spark — сервис, который позволяет развернуть кластерное вычислительное решение на основе Apache Spark для распределенной обработки данных.
AI Agents для разработки, развертывания и эксплуатации автономных AI-агентов в единой среде.
Object Storage — объектное S3-хранилище с бесплатным хранением файлов объемом до 15 ГБ.
Шаги:
Если вы уже зарегистрированы, войдите под своей учетной записью.
Создайте пароль и добавьте его в Secret Management. Этот секрет станет паролем для доступа к интерфейсу Managed Spark.
Создайте бакет Object Storage, в котором будут храниться необходимые файлы и логи.
Скачайте и установите root-сертификат на устройство.
Создайте кластер Data Platform, в котором будет размещен инстанс.
Создайте инстанс Managed Spark. В блоке Настройки доступа активируйте опцию Подключить публичный хост.
На этом шаге вы подготовите и загрузите в хранилище Object Storage файлы с данными для задачи Managed Spark.
В ранее созданном бакете Object Storage создайте папку data.
Внутри папки data создайте папки client и sales.
Загрузите набор файлов client в папку client.
Загрузите набор файлов sales в папку sales.
На этом шаге вы подготовите и загрузите в хранилище Object Storage файл, содержащий скрипт задачи Spark.
Скопируйте скрипт и назовите файл example.py.
В строке BASE = "s3a://bucket-name/data" замените bucket-name на название ранее созданного бакета.
В ранее созданном бакете Object Storage создайте папку jobs.
Загрузите файл со скриптом в папку jobs.
Проверьте размещение файлов в Object Storage.
На этом шаге вы создадите задачу Managed Spark с использованием подготовленного скрипта.
Для продолжения работы убедитесь, что статус инстанса Managed Spark изменился на «Готов».
Перейдите в сервис Managed Spark.
Откройте созданный ранее инстанс.
Перейдите на вкладку Задачи.
Нажмите Создать задачу.
В блоке Общие параметры введите название задачи, например spark-example.
В блоке Образ выберите базовый образ Spark-4.0.0.
В блоке Скрипт приложения:
В поле Тип запускаемой задачи выберите Python.
В поле Путь к запускаемому файлу укажите путь к файлу example.py. В данном случае путь s3a://bucket-name/jobs/example.py, где bucket-name — название созданного ранее бакета Object Storage.
Нажмите Создать.
Задача Managed Spark начнет выполняться и отобразится на странице инстанса на вкладке Задачи.
На этом шаге вы настроите соединение AI-агента и инстанса Managed Spark.
Откройте созданный ранее инстанс Managed Spark.
Перейдите на вкладку Информация. Данные из раздела Настройки доступа понадобятся для настройки соединения.
Откройте сервис AI Agents в новой вкладке.
Перейдите в раздел Каталог → AI-агенты.
С помощью поиска по названию найдите агента Apache Spark аналитик.
Нажмите на карточку агента и нажмите Запустить.
Введите данные из раздела Настройки доступа инстанса Managed Spark:
SPARK_SERVER_AUTH_USERNAME — имя пользователя.
SPARK_SERVER_URL — https://<external-spark-URL>, где <external-spark-URL> — значение публичного хоста.
SPARK_SERVER_AUTH_PASSWORD — значение созданного ранее секрета в Secret Management.
Нажмите Запустить.
На этом шаге вы отправите запросы AI-агенту и посмотрите детали выполнения задачи Managed Spark.
Для продолжения работы убедитесь, что статус AI-агента изменился на «Запущен», а статус задачи Managed Spark — на «Завершена».
На вкладке с сервисом Managed Spark откройте вкладку Задачи.
В строке с завершенной задачей нажмите Spark UI. В соседней вкладке откроется интерфейс Spark UI.
Перейдите на вкладку Информация.
Для входа в интерфейс Spark UI введите данные из блока Настройки доступа инстанса Managed Spark:
Username — значение поля Пользователь.
Password — значение секрета в поле Пароль.
В интерфейсе Spark UI скопируйте значение App ID.
Перейдите на вкладку с сервисом AI Agents.
В списке агентов выберите настроенного ранее агента.
На панели слева нажмите Чат.
Введите запрос: Покажи детали задачи <App ID>, вместо <App ID> вставьте значение App ID. Посмотрите время выполнения задачи.
На этом шаге вы отправите запросы AI-агенту и внесете изменения в настройки задачи Managed Spark.
На вкладке Чат введите запрос: Ускорь задачу.
На вкладке с сервисом Managed Spark откройте вкладку Задачи.
В строке с выполненной задачей нажмите нажмите и выберите Скопировать задачу.
Внесите поправки, предложенные AI-агентом.
Нажмите Создать. Задача Managed Spark начнет выполняться и отобразится на странице инстанса на вкладке Задачи.
Когда задача сменит статус на «Завершена», повторите запрос Покажи детали задачи <App ID>. Вместо <App ID> вставьте App ID второй задачи. Проверьте, как изменилось время выполнения задачи.
Вы настроили AI-агента, который проанализировал задачу Managed Spark и указал параметры, изменение которых уменьшило время выполнения задачи.