Managed Spark собирает метрики кластера и отправляет их в сервис «Мониторинг». Метрика — показатель инфраструктуры и приложений в реальном времени. Например, использование оперативной памяти или количество выполняемых задач.
Следить за изменением метрик в реальном времени или анализировать накопленные метрики в динамике можно с помощью дашбордов. Дашборды содержат наборы виджетов для отслеживания различных параметров. Виджеты отображают информацию, полученную с помощью метрик, в виде графика или текста.
Для Managed Spark существует два сервисных дашборда с преднастроенным набором виджетов: Задачи Managed Spark и Инстансы Managed Spark. Они доступны в личном кабинете в разделе Мониторинг.
Дашборд Задачи Managed Spark
Дашборд Задачи Managed Spark содержит виджеты для отслеживания метрик, связанных с задачами Managed Spark:
Название метрики, единица измерения | Описание |
|---|---|
Загрузка CPU, % | Показывает отношение реально использованного процессорного времени к запрошенному (container_cpu_usage_seconds_total, kube_pod_container_resource_requests). Для просмотра данных по конкретной задаче необходимо применить фильтр. |
Загрузка RAM, % | Показывает отношение реально использованного объема оперативной памяти к запрошенному (container_memory_usage_bytes, kube_pod_container_resource_requests). Для просмотра данных по конкретной задаче необходимо применить фильтр. |
Запрошенный объем RAM, kube_pod_container_resource_requests, ГБ | Объем оперативной памяти, запрошенный задачей. |
Запрошенный объем CPU, kube_pod_container_resource_requests | Объем CPU, запрошенный задачей. |
Дашборд Инстансы Managed Spark
Дашборд Инстансы Managed Spark содержит виджеты для отслеживания метрик, связанных с инстансами Managed Spark:
Название метрики, единица измерения | Описание |
|---|---|
Отправлено на выполнение, spark_application_submit_count | Количество задач Managed Spark, запущенных в выбранный интервал времени. |
Выполнено успешно, spark_application_success_count | Количество задач Managed Spark, успешно завершенных в выбранный интервал времени. |
Выполнено с ошибкой, spark_application_failure_count | Количество задач Managed Spark со статусом «Ошибка» в выбранный интервал времени. |
Запущено задач, spark_application_running_count | График отображает, как со временем меняется количество задач со статусом «Выполняется». |
Количество нод, kube_node_status_condition | Показывает количество активных нод. Позволяет оценить, как работает автомасштабирование. |
Загрузка CPU, node_cpu_seconds_total, % | Показывает отношение реально использованного процессорного времени к запрошенному. |
Загрузка RAM, % | Показывает отношение реально использованного инстансом объема оперативной памяти к запрошенному (node_memory_MemAvailable_bytes, node_memory_MemTotal_bytes). |
Дашборды поддерживают следующие настройки и опции:
Выбор периода сбора данных. По умолчанию отображаются данные за последние 2 часа.
Выбор интервала автообновления данных. По умолчанию данные обновляются каждые 5 минут.
Выгрузка графика в PNG-файл.
Просмотр графика в развернутом режиме.
Подробные инструкции о работе с дашбордами читайте в документации сервиса «Мониторинг»:
Сервисные дашборды — работа с преднастроенными дашбордами.
Пользовательские дашборды — создание пользовательских дашбордов с кастомными виджетами и метриками.
Алерты — настройка алертов и уведомлений об изменении в метриках.
Вычисляемые метрики — создание сложных запросов на основе существующих метрик.