Облачная платформаEvolution

Оптимизация задач Managed Spark с помощью AI-агента


С помощью этого руководства вы настроите AI-агента для анализа производительности и оптимизации задач Managed Spark. Вы запустите тестовую задачу Managed Spark, и AI-агент выполнит поиск параметров, которые можно изменить для уменьшения времени выполнения задачи.

Вы будете использовать следующие сервисы:

  • Managed Spark — сервис, который позволяет развернуть кластерное вычислительное решение на основе Apache Spark для распределенной обработки данных.

  • AI Agents для разработки, развертывания и эксплуатации автономных AI-агентов в единой среде.

  • Object Storage — объектное S3-хранилище с бесплатным хранением файлов объемом до 15 ГБ.

Шаги:

Перед началом работы

  1. Если вы уже зарегистрированы, войдите под своей учетной записью.

  2. Создайте пароль и добавьте его в Secret Management. Этот секрет станет паролем для доступа к интерфейсу Managed Spark.

  3. Создайте бакет Object Storage, в котором будут храниться необходимые файлы и логи.

  4. Создайте кластер Data Platform, в котором будет размещен инстанс.

  5. Создайте инстанс Managed Spark. В блоке Настройки доступа активируйте опцию Подключить публичный хост.

1. Подготовьте файлы с данными

На этом шаге вы подготовите и загрузите в хранилище Object Storage файлы с данными для задачи Managed Spark.

  1. Скачайте наборы файлов с данными client и sales.

  2. В ранее созданном бакете Object Storage создайте папку data.

  3. Внутри папки data создайте папки client и sales.

  4. Загрузите набор файлов client в папку client.

  5. Загрузите набор файлов sales в папку sales.

2. Подготовьте скрипт задачи Managed Spark

На этом шаге вы подготовите и загрузите в хранилище Object Storage файл, содержащий скрипт задачи Spark.

  1. Скопируйте скрипт и назовите файл example.py.

  2. В строке BASE = "s3a://bucket-name/data" замените bucket-name на название ранее созданного бакета.

  3. В ранее созданном бакете Object Storage создайте папку jobs.

  4. Загрузите файл со скриптом в папку jobs.

  5. Проверьте размещение файлов в Object Storage.

3. Запустите задачу Managed Spark

На этом шаге вы создадите задачу Managed Spark с использованием подготовленного скрипта.

Для продолжения работы убедитесь, что статус инстанса Managed Spark изменился на «Готов».

  1. Перейдите в сервис Managed Spark.

  2. Откройте созданный ранее инстанс.

  3. Перейдите на вкладку Задачи.

  4. Нажмите Создать задачу.

  5. В блоке Общие параметры введите название задачи, например spark-example.

  6. В блоке Образ выберите базовый образ Spark-4.0.0.

  7. В блоке Скрипт приложения:

    1. В поле Тип запускаемой задачи выберите Python.

    2. В поле Путь к запускаемому файлу укажите путь к файлу example.py. В данном случае путь s3a://bucket-name/jobs/example.py, где bucket-name — название созданного ранее бакета Object Storage.

  8. Нажмите Создать.

Задача Managed Spark начнет выполняться и отобразится на странице инстанса на вкладке Задачи.

4. Настройте AI-агента

На этом шаге вы настроите соединение AI-агента и инстанса Managed Spark.

  1. Откройте созданный ранее инстанс Managed Spark.

  2. Перейдите на вкладку Информация. Данные из раздела Настройки доступа понадобятся для настройки соединения.

  3. Откройте сервис AI Agents в новой вкладке.

  4. Перейдите в раздел Каталог → AI-агенты.

  5. С помощью поиска по названию найдите агента Apache Spark аналитик.

  6. Нажмите на карточку агента и нажмите Запустить.

  7. Введите данные из раздела Настройки доступа инстанса Managed Spark:

    • SPARK_SERVER_AUTH_USERNAME — имя пользователя.

    • SPARK_SERVER_URLhttps://<external-spark-URL>, где <external-spark-URL> — значение публичного хоста.

    • SPARK_SERVER_AUTH_PASSWORD — значение созданного ранее секрета в Secret Management.

  8. Нажмите Запустить.

5. Получите детали задачи Managed Spark с помощью AI-агента

На этом шаге вы отправите запросы AI-агенту и посмотрите детали выполнения задачи Managed Spark.

Для продолжения работы убедитесь, что статус AI-агента изменился на «Запущен», а статус задачи Managed Spark — на «Завершена».

  1. На вкладке с сервисом Managed Spark откройте вкладку Задачи.

  2. В строке с завершенной задачей нажмите Spark UI. В соседней вкладке откроется интерфейс Spark UI.

  3. Перейдите на вкладку Информация.

  4. Для входа в интерфейс Spark UI введите данные из блока Настройки доступа инстанса Managed Spark:

    • Username — значение поля Пользователь.

    • Password — значение секрета в поле Пароль.

  5. В интерфейсе Spark UI скопируйте значение App ID.

  6. Перейдите на вкладку с сервисом AI Agents.

  7. В списке агентов выберите настроенного ранее агента.

  8. На панели слева нажмите Чат.

  9. Введите запрос: Покажи детали задачи <App ID>, вместо <App ID> вставьте значение App ID. Посмотрите время выполнения задачи.

6. Измените параметры задачи Managed Spark

На этом шаге вы отправите запросы AI-агенту и внесете изменения в настройки задачи Managed Spark.

  1. На вкладке Чат введите запрос: Ускорь задачу.

  2. На вкладке с сервисом Managed Spark откройте вкладку Задачи.

  3. В строке с выполненной задачей нажмите нажмите Горизонтальное меню и выберите Скопировать задачу.

  4. Внесите поправки, предложенные AI-агентом.

  5. Нажмите Создать. Задача Managed Spark начнет выполняться и отобразится на странице инстанса на вкладке Задачи.

  6. Когда задача сменит статус на «Завершена», повторите запрос Покажи детали задачи <App ID>. Вместо <App ID> вставьте App ID второй задачи. Проверьте, как изменилось время выполнения задачи.

Результат

Вы настроили AI-агента, который проанализировал задачу Managed Spark и указал параметры, изменение которых уменьшило время выполнения задачи.