Облачная платформаEvolution

Метрики мониторинга сервиса Managed Spark

Эта статья полезна?

Сервис мониторинга позволяет получать информацию о состоянии кластера, например, об использовании оперативной памяти или количестве выполняемых задач.

В разделе описаны преднастроенные дашборды для мониторинга состояния инфраструктуры и приложений в реальном времени, а также приведен полный список метрик, которые сервис Managed Spark передает в сервис мониторинга.

Сервисные дашборды

Сервисные (преднастроенные) дашборды мониторинга доступны в личном кабинете в разделе Мониторинг → Дашборды → Сервисные → Evolution Managed Spark. Дашборды состоят из виджетов, которые отображают значения метрик сервиса.

Для Managed Spark существует два сервисных дашборда: Задачи Managed Spark и Инстансы Managed Spark. После создания инстанса Managed Spark сервисные дашборды доступны в карточке инстанса на вкладке Мониторинг.

Дашборд Задачи Managed Spark
Название виджета	Описание
Загрузка CPU (%)	Отношение фактически использованного процессорного времени (container_cpu_usage_seconds_total) к запрошенному (kube_pod_container_resource_requests). Для просмотра данных по конкретной задаче необходимо применить фильтр.
Загрузка RAM (%)	Отношение фактически использованного объема оперативной памяти (container_memory_usage_bytes) к запрошенному (kube_pod_container_resource_requests). Для просмотра данных по конкретной задаче необходимо применить фильтр.
Запрошенный объем RAM (ГБ)	Объем оперативной памяти, запрошенный задачей (kube_pod_container_resource_requests).
Запрошенный объем CPU	Объем CPU, запрошенный задачей (kube_pod_container_resource_requests).
Запрошенный объем GPU	Объем GPU, запрошенный задачей (kube_pod_container_resource_requests).
Загрузка памяти GPU (%)	Отношение использованного объема фреймбуфера (Frame Buffer) (DCGM_FI_DEV_FB_USED) к доступному (DCGM_FI_DEV_FB_FREE).
Этапы выполнения задачи	Статус задачи (kube_pod_status_phase).

Дашборд Инстансы Managed Spark
Название виджета	Описание
Отправлено на выполнение	Количество задач Managed Spark, запущенных в выбранный интервал времени (spark_application_submit_count).
Выполнено успешно	Количество задач Managed Spark, успешно завершенных в выбранный интервал времени (spark_application_success_count).
Выполнено с ошибкой	Количество задач Managed Spark со статусом «Ошибка» в выбранный интервал времени (spark_application_failure_count).
Запущено задач	График изменения количества запущенных задач (spark_application_submit_count, spark_application_failure_count, spark_application_success_count, spark_application_running_count).
Количество нод	Количество активных нод (kube_node_status_condition). Позволяет оценить, как работает автомасштабирование.
Загрузка CPU (%)	График использованния процессорного времени (node_cpu_seconds_total).
Загрузка RAM (%)	Отношение фактически использованного инстансом объема оперативной памяти (node_memory_MemAvailable_bytes) к запрошенному (node_memory_MemTotal_bytes).
Загрузка памяти GPU (%)	Отношение фактически использованного инстансом объема фреймбуфера (Frame Buffer) (DCGM_FI_DEV_FB_USED) к доступному (DCGM_FI_DEV_FB_FREE).

Дашборды поддерживают следующие настройки и опции:

Выбор периода сбора данных. По умолчанию отображаются данные за последние 2 часа.
Выбор интервала автообновления данных. По умолчанию данные обновляются каждые 5 минут.
Выгрузка графика в PNG-файл.
Просмотр графика в развернутом режиме.

Примечание

Сервисный дашборд можно дублировать как пользовательский, а затем настроить его под себя или посмотреть, какие метрики и запросы используются в виджетах.

Метрики сервиса

Метрика представляет собой временной ряд, показывающий изменение какого-либо показателя. Например, это может быть использование оперативной памяти или количество выполняемых задач.

В сервисе мониторинга метрики используются для создания виджетов дашборда и настройки правил алертов. Значения метрик для этого получают и преобразуют с помощью запроса в PromQL-формате.

Подробнее о работе с метриками.

В таблице ниже приведены описания метрик, применяемых для построения сервисных дашбордов Managed Spark.

Метрики сервиса Managed Spark
Название метрики, единица измерения	Описание
container_cpu_usage_seconds_total, с	Процессорное время, использованное задачей.
container_memory_usage_bytes, Б	Объем оперативной памяти, использованный задачей.
kube_pod_container_resource_requests	Объем запрошенных вычислительных ресурсов. Для расчета метрики используется переменная resource со следующими значениями: memory — объем RAM; cpu — объем CPU; nvidia_com_gpu — объем GPU.
spark_application_submit_count, шт.	Количество задач Managed Spark, запущенных в выбранный интервал времени.
spark_application_success_count, шт.	Количество задач Managed Spark, успешно завершенных в выбранный интервал времени.
spark_application_failure_count, шт.	Количество задач Managed Spark со статусом «Ошибка» в выбранный интервал времени.
spark_application_running_count, шт.	Количество задач Managed Spark со статусом «Выполняется» в выбранный интервал времени.
kube_pod_status_phase	Логический индикатор статуса задачи, который принимает следующие значения: 1 — задача находится в состоянии, соответствующем значению переменной phase; 0 — задача находится в другом состоянии. Возможные значения переменной phase: Pending — статус задачи «Запускается»; Running — статус задачи «Выполняется»; Succeeded — статус задачи «Завершена»; Failed — статус задачи «Ошибка».
kube_node_status_condition	Логический индикатор статуса, который принимает следующие значения: 0 — для неактивных нод; 1 — для активных нод.
node_cpu_seconds_total, с	Процессорное время, использованное инстансом.
node_memory_MemAvailable_bytes, Б	Объем оперативной памяти, запрошенный инстансом.
node_memory_MemTotal_bytes, Б	Объем оперативной памяти, использованный инстансом.
DCGM_FI_DEV_FB_USED, МиБ	Использованный объем фреймбуфера (Frame Buffer).
DCGM_FI_DEV_FB_FREE, МиБ	Доступный объем фреймбуфера (Frame Buffer).

Предыдущая статья

Мониторинг и управление

Следующая статья

Вопросы и ответы про сервис Managed Spark

Эта статья полезна?

Поддержка Юридические документы Политика конфиденциальности