Сервис мониторинга позволяет получать информацию о состоянии кластера, например, об использовании оперативной памяти или количестве выполняемых задач.
В разделе описаны преднастроенные дашборды для мониторинга состояния инфраструктуры и приложений в реальном времени, а также приведен полный список метрик, которые сервис Managed Spark передает в сервис мониторинга.
Сервисные (преднастроенные) дашборды мониторинга доступны в личном кабинете в разделе Мониторинг → Дашборды → Сервисные → Evolution Managed Spark. Дашборды состоят из виджетов, которые отображают значения метрик сервиса.
Для Managed Spark существует два сервисных дашборда: Задачи Managed Spark и Инстансы Managed Spark. После создания инстанса Managed Spark сервисные дашборды доступны в карточке инстанса на вкладке Мониторинг.
Название виджета | Описание |
|---|---|
Загрузка CPU (%) | Отношение фактически использованного процессорного времени (container_cpu_usage_seconds_total) к запрошенному (kube_pod_container_resource_requests). Для просмотра данных по конкретной задаче необходимо применить фильтр. |
Загрузка RAM (%) | Отношение фактически использованного объема оперативной памяти (container_memory_usage_bytes) к запрошенному (kube_pod_container_resource_requests). Для просмотра данных по конкретной задаче необходимо применить фильтр. |
Запрошенный объем RAM (ГБ) | Объем оперативной памяти, запрошенный задачей (kube_pod_container_resource_requests). |
Запрошенный объем CPU | Объем CPU, запрошенный задачей (kube_pod_container_resource_requests). |
Запрошенный объем GPU | Объем GPU, запрошенный задачей (kube_pod_container_resource_requests). |
Загрузка памяти GPU (%) | Отношение использованного объема фреймбуфера (Frame Buffer) (DCGM_FI_DEV_FB_USED) к доступному (DCGM_FI_DEV_FB_FREE). |
Этапы выполнения задачи | Статус задачи (kube_pod_status_phase). |
Название виджета | Описание |
|---|---|
Отправлено на выполнение | Количество задач Managed Spark, запущенных в выбранный интервал времени (spark_application_submit_count). |
Выполнено успешно | Количество задач Managed Spark, успешно завершенных в выбранный интервал времени (spark_application_success_count). |
Выполнено с ошибкой | Количество задач Managed Spark со статусом «Ошибка» в выбранный интервал времени (spark_application_failure_count). |
Запущено задач | График изменения количества запущенных задач (spark_application_submit_count, spark_application_failure_count, spark_application_success_count, spark_application_running_count). |
Количество нод | Количество активных нод (kube_node_status_condition). Позволяет оценить, как работает автомасштабирование. |
Загрузка CPU (%) | График использованния процессорного времени (node_cpu_seconds_total). |
Загрузка RAM (%) | Отношение фактически использованного инстансом объема оперативной памяти (node_memory_MemAvailable_bytes) к запрошенному (node_memory_MemTotal_bytes). |
Загрузка памяти GPU (%) | Отношение фактически использованного инстансом объема фреймбуфера (Frame Buffer) (DCGM_FI_DEV_FB_USED) к доступному (DCGM_FI_DEV_FB_FREE). |
Дашборды поддерживают следующие настройки и опции:
Выбор периода сбора данных. По умолчанию отображаются данные за последние 2 часа.
Выбор интервала автообновления данных. По умолчанию данные обновляются каждые 5 минут.
Выгрузка графика в PNG-файл.
Просмотр графика в развернутом режиме.
Сервисный дашборд можно дублировать как пользовательский, а затем настроить его под себя или посмотреть, какие метрики и запросы используются в виджетах.
Метрика представляет собой временной ряд, показывающий изменение какого-либо показателя. Например, это может быть использование оперативной памяти или количество выполняемых задач.
В сервисе мониторинга метрики используются для создания виджетов дашборда и настройки правил алертов. Значения метрик для этого получают и преобразуют с помощью запроса в PromQL-формате.
В таблице ниже приведены описания метрик, применяемых для построения сервисных дашбордов Managed Spark.
Название метрики, единица измерения | Описание |
|---|---|
container_cpu_usage_seconds_total, с | Процессорное время, использованное задачей. |
container_memory_usage_bytes, Б | Объем оперативной памяти, использованный задачей. |
kube_pod_container_resource_requests | Объем запрошенных вычислительных ресурсов. Для расчета метрики используется переменная resource со следующими значениями:
|
spark_application_submit_count, шт. | Количество задач Managed Spark, запущенных в выбранный интервал времени. |
spark_application_success_count, шт. | Количество задач Managed Spark, успешно завершенных в выбранный интервал времени. |
spark_application_failure_count, шт. | Количество задач Managed Spark со статусом «Ошибка» в выбранный интервал времени. |
spark_application_running_count, шт. | Количество задач Managed Spark со статусом «Выполняется» в выбранный интервал времени. |
kube_pod_status_phase | Логический индикатор статуса задачи, который принимает следующие значения:
Возможные значения переменной phase:
|
kube_node_status_condition | Логический индикатор статуса, который принимает следующие значения:
|
node_cpu_seconds_total, с | Процессорное время, использованное инстансом. |
node_memory_MemAvailable_bytes, Б | Объем оперативной памяти, запрошенный инстансом. |
node_memory_MemTotal_bytes, Б | Объем оперативной памяти, использованный инстансом. |
DCGM_FI_DEV_FB_USED, МиБ | Использованный объем фреймбуфера (Frame Buffer). |
DCGM_FI_DEV_FB_FREE, МиБ | Доступный объем фреймбуфера (Frame Buffer). |