Облачная платформаEvolution

Метрики мониторинга сервиса Managed Spark


Сервис мониторинга позволяет получать информацию о состоянии кластера, например, об использовании оперативной памяти или количестве выполняемых задач.

В разделе описаны преднастроенные дашборды для мониторинга состояния инфраструктуры и приложений в реальном времени, а также приведен полный список метрик, которые сервис Managed Spark передает в сервис мониторинга.

Сервисные дашборды

Сервисные (преднастроенные) дашборды мониторинга доступны в личном кабинете в разделе Мониторинг → Дашборды → Сервисные → Evolution Managed Spark. Дашборды состоят из виджетов, которые отображают значения метрик сервиса.

Для Managed Spark существует два сервисных дашборда: Задачи Managed Spark и Инстансы Managed Spark. После создания инстанса Managed Spark сервисные дашборды доступны в карточке инстанса на вкладке Мониторинг.

Дашборд Задачи Managed Spark

Название виджета

Описание

Загрузка CPU (%)

Отношение фактически использованного процессорного времени (container_cpu_usage_seconds_total) к запрошенному (kube_pod_container_resource_requests). Для просмотра данных по конкретной задаче необходимо применить фильтр.

Загрузка RAM (%)

Отношение фактически использованного объема оперативной памяти (container_memory_usage_bytes) к запрошенному (kube_pod_container_resource_requests). Для просмотра данных по конкретной задаче необходимо применить фильтр.

Запрошенный объем RAM (ГБ)

Объем оперативной памяти, запрошенный задачей (kube_pod_container_resource_requests).

Запрошенный объем CPU

Объем CPU, запрошенный задачей (kube_pod_container_resource_requests).

Запрошенный объем GPU

Объем GPU, запрошенный задачей (kube_pod_container_resource_requests).

Загрузка памяти GPU (%)

Отношение использованного объема фреймбуфера (Frame Buffer) (DCGM_FI_DEV_FB_USED) к доступному (DCGM_FI_DEV_FB_FREE).

Этапы выполнения задачи

Статус задачи (kube_pod_status_phase).

Дашборд Инстансы Managed Spark

Название виджета

Описание

Отправлено на выполнение

Количество задач Managed Spark, запущенных в выбранный интервал времени (spark_application_submit_count).

Выполнено успешно

Количество задач Managed Spark, успешно завершенных в выбранный интервал времени (spark_application_success_count).

Выполнено с ошибкой

Количество задач Managed Spark со статусом «Ошибка» в выбранный интервал времени (spark_application_failure_count).

Запущено задач

График изменения количества запущенных задач (spark_application_submit_count, spark_application_failure_count, spark_application_success_count, spark_application_running_count).

Количество нод

Количество активных нод (kube_node_status_condition). Позволяет оценить, как работает автомасштабирование.

Загрузка CPU (%)

График использованния процессорного времени (node_cpu_seconds_total).

Загрузка RAM (%)

Отношение фактически использованного инстансом объема оперативной памяти (node_memory_MemAvailable_bytes) к запрошенному (node_memory_MemTotal_bytes).

Загрузка памяти GPU (%)

Отношение фактически использованного инстансом объема фреймбуфера (Frame Buffer) (DCGM_FI_DEV_FB_USED) к доступному (DCGM_FI_DEV_FB_FREE).

Дашборды поддерживают следующие настройки и опции:

  • Выбор периода сбора данных. По умолчанию отображаются данные за последние 2 часа.

  • Выбор интервала автообновления данных. По умолчанию данные обновляются каждые 5 минут.

  • Выгрузка графика в PNG-файл.

  • Просмотр графика в развернутом режиме.

Примечание

Сервисный дашборд можно дублировать как пользовательский, а затем настроить его под себя или посмотреть, какие метрики и запросы используются в виджетах.

Метрики сервиса

Метрика представляет собой временной ряд, показывающий изменение какого-либо показателя. Например, это может быть использование оперативной памяти или количество выполняемых задач.

В сервисе мониторинга метрики используются для создания виджетов дашборда и настройки правил алертов. Значения метрик для этого получают и преобразуют с помощью запроса в PromQL-формате.

В таблице ниже приведены описания метрик, применяемых для построения сервисных дашбордов Managed Spark.

Метрики сервиса Managed Spark

Название метрики, единица измерения

Описание

container_cpu_usage_seconds_total, с

Процессорное время, использованное задачей.

container_memory_usage_bytes, Б

Объем оперативной памяти, использованный задачей.

kube_pod_container_resource_requests

Объем запрошенных вычислительных ресурсов. Для расчета метрики используется переменная resource со следующими значениями:

  • memory — объем RAM;

  • cpu — объем CPU;

  • nvidia_com_gpu — объем GPU.

spark_application_submit_count, шт.

Количество задач Managed Spark, запущенных в выбранный интервал времени.

spark_application_success_count, шт.

Количество задач Managed Spark, успешно завершенных в выбранный интервал времени.

spark_application_failure_count, шт.

Количество задач Managed Spark со статусом «Ошибка» в выбранный интервал времени.

spark_application_running_count, шт.

Количество задач Managed Spark со статусом «Выполняется» в выбранный интервал времени.

kube_pod_status_phase

Логический индикатор статуса задачи, который принимает следующие значения:

  • 1 — задача находится в состоянии, соответствующем значению переменной phase;

  • 0 — задача находится в другом состоянии.

Возможные значения переменной phase:

  • Pending — статус задачи «Запускается»;

  • Running — статус задачи «Выполняется»;

  • Succeeded — статус задачи «Завершена»;

  • Failed — статус задачи «Ошибка».

kube_node_status_condition

Логический индикатор статуса, который принимает следующие значения:

  • 0 — для неактивных нод;

  • 1 — для активных нод.

node_cpu_seconds_total, с

Процессорное время, использованное инстансом.

node_memory_MemAvailable_bytes, Б

Объем оперативной памяти, запрошенный инстансом.

node_memory_MemTotal_bytes, Б

Объем оперативной памяти, использованный инстансом.

DCGM_FI_DEV_FB_USED, МиБ

Использованный объем фреймбуфера (Frame Buffer).

DCGM_FI_DEV_FB_FREE, МиБ

Доступный объем фреймбуфера (Frame Buffer).