tocdepth

2

DLI Spark Jobs

Создание задания Spark

  1. В списке сервисов выберите Data Lake Insight.

  2. В боковом меню слева выберите Job Management → Spark Jobs.

  3. Нажмите Create Job.

    ../_images/s__job-spark-create-1.jpeg
  4. Заполните следующие поля и нажмите Execute:

    1. Queue — выберите из списка очередь.

    2. Job Name — укажите имя задания.

    3. Application — выберите или создайте пакет с приложением.

    4. Main Class — укажите имя главного класса.

      ../_images/s__job-spark-create-2.jpeg
    5. Application Parameters — введите через запятую параметры приложения.

    6. Spark Arguments — введите параметры в следующем формате: ключ = значение (Key = Value). Нажмите клавишу Enter, чтобы разделить несколько пар ключ — значение.

    7. Image — выберите из списка образ и его версию. Если нужного образа нет, то загрузите его через сервис SWR — нажмите Configure Image.

    8. JAR Package Dependencies — выберите из списка JAR-файл.

    9. Python File Dependencies — выберите из списка Python-файл.

    10. Other Dependencies — выберите из списка нужный файл.

      ../_images/s__job-spark-create-3.jpeg
    11. Save Job Log — укажите нужно («Yes») или нет («No») сохранять журналы заданий.

      При выборе «Yes» в поле OBS Bucket нужно указать бакет OBS для хранения журналов. Если бакет не авторизован, то появится соответствующее сообщение — нажмите Authorize → ОК.

    12. Retry upon Failure — укажите нужно («Yes») или нет («No») повторять неудачно завершенное задание.

      При выборе «Yes» в поле Maximum Retries нужно указать максимальное количество повторных попыток (до 100).

    13. Advanced Settings — укажите нужно («Configure Now») или нет («Do not configure») определять дополнительные настройки задания.

      При выборе «Configure Now» перейдите к п.5 Advanced Settings.

      ../_images/s__job-spark-create-4.jpeg
  5. При выборе в поле Advanced Settings — «Configure Now» заполните следующие поля:

    1. Module Name — модули зависимостей, предоставляемые DLI для выполнения заданий по подключению к источнику данных (datasource connection). Для получения доступа к различным сервисам нужно выбрать соответствующие модули.

    2. Group Name — выберите из списка название группы, к которой принадлежит пакет ресурсов.

    3. Resource Package — выберите JAR-файл, от которого зависит задание Spark SQL.

    4. Resource Specifications — в раскрывающемся списке выберите одну из трех спецификаций ресурса. Поля, следующие ниже (Executor Memory, Executor Cores, Executors, Driver Cores и Driver Memory) — опции спецификации, у которых можно изменить значение по умолчанию.

    5. Executor Memory — укажите требуемое количество ресурсов.

    6. Executor Cores — укажите требуемое количество ресурсов.

    7. Executors — укажите требуемое количество ресурсов.

    8. Driver Cores — укажите требуемое количество ресурсов.

    9. Driver Memory — укажите требуемое количество ресурсов.

    ../_images/s__job-spark-create-5.jpeg

Изменение задания Spark

  1. В списке сервисов выберите Data Lake Insight.

  2. В области навигации слева выберите Job Management → Spark Jobs.

  3. В строке с нужным заданием нажмите Edit.

    ../_images/s__job-spark-edit-1.jpeg
  4. На странице редактирования можно изменить код задания и выполнить операции аналогичные действиям при создании задания Spark. После внесения изменений нажмите Execute.

    ../_images/s__job-spark-edit-2.jpeg

Прочие операции с заданиями Spark

  1. В списке сервисов выберите Data Lake Insight.

  2. В области навигации слева выберите Job Management → Spark Jobs.

  3. На данной странице можно выполнить следующие операции:

    1. Editизменение задания Spark.

    2. SparkUI — после нажатия этой кнопки отобразится страница выполнения задания Spark.

      Примечание

      Нельзя посмотреть страницу SparkUI при статусе задания «Starting».

    3. More — включает в себя следующие опции:

      • Terminate Jobsудаление задания.

      • Commit Log — просмотр журналов отправленных заданий.

      • Run Log — просмотр журналов выполняемых заданий.

      • Export Log — экспорт журнала логов в бакет OBS.

      Примечание

      Нельзя выгрузить журнал при статусе задания «Running».

      ../_images/s__job-spark-operations.jpeg

Удаление задания Spark

  1. В списке сервисов выберите Data Lake Insight.

  2. В области навигации слева выберите Job Management → Spark Jobs.

  3. В строке с нужным заданием нажмите More и выберите из списка Terminate Jobs.

    Примечание

    Нельзя удалить задание, если его статус «Failed» или «Successful».

    ../_images/s__job-spark-delete-1.jpeg
  4. Нажмите ОК.

    ../_images/s__job-spark-delete-2.jpeg
Запустили Evolution free tier
для Dev & Test
Получить