Облачная платформаEvolution

Метрики мониторинга сервиса Managed Kubernetes

Эта статья полезна?

Сервис мониторинга позволяет получать информацию о состоянии кластера.

Сервисный (преднастроенный) дашборд мониторинга доступен в личном кабинете в разделе Контейнеры → Managed Kubernetes. Чтобы увидеть данные о состоянии кластера, выберите его и перейдите на вкладку Мониторинг.

Чтобы получать метрики объектов кластера и системные метрики, в кластере обязательно должны быть установлены плагины Node Exporter и Kube State Metrics. Если при создании кластера активирована опция Мониторинг, плагины установятся автоматически. По умолчанию опция активна.

Если вы не хотите отправлять метрики в сервис «Мониторинг», но планируете их собирать для другой системы визуализации данных, при создании кластера отключите опцию Мониторинг и выберите плагины Node Exporter и Kube State Metrics вручную.

Описание метрик, которые собирают плагины, читайте в документации Node Exporter и Kube State Metrics.

Кластер

Для кластера отслеживаются следующие метрики:

Название метрики, единица измерения

Описание

Global CPU usage, %

Общая загрузка процессора всеми подами, сервисами и системными процессами в кластере.

Показывает, какая часть процессора используется для выполнения задач по сравнению с запрошенным CPU. Помогает оценить, насколько эффективно распределяются ресурсы в кластере, и есть ли риск недостатка ресурсов для работы приложений.

  • Real — среднее значение CPU, которое используется на узле кластера за последнюю минуту (node_cpu_seconds_total).

  • Requests — доля от общего количества ресурсов CPU кластера, зарезервированная под минимальные запросы ресурсов контейнеров (kube_pod_container_resource_requests, machine_cpu_cores).

Global RAM Usage, %

Общий процент использования оперативной памяти всеми подами, сервисами и системными процессами в кластере.

Показатель дает представление о том, как ресурсы оперативной памяти распределяются и используются в кластере, и помогает определить, достаточно ли памяти для текущих и будущих задач .

  • Real — общий процент используемой оперативной памяти (RAM) в кластере (node_memory_MemTotal_bytes, node_memory_MemAvailable_bytes).

  • Requests — доля общей оперативной памяти узлов кластера, зарезервированная под нужды контейнеров согласно их запросам на ресурсы (kube_pod_container_resource_requests, machine_memory_bytes).

  • Limits — доля общей оперативной памяти узлов кластера, которая потенциально может быть использована подами, если они достигнут своих максимальных лимитов потребления памяти (kube_pod_container_resource_limits, machine_memory_bytes).

CPU usage, cores

Использование процессорных ресурсов в ядрах процессора для подов, контейнеров или кластера.

Позволяет понять, сколько процессорного времени, выраженного в ядрах, реально используется приложениями и службами, работающими в кластере.

  • Real — общая загрузка процессора (CPU) в кластере, исключая время простоя (node_cpu_seconds_total).

  • Requests — общее количество процессорных ресурсов (в единицах CPU), запрошенных всеми контейнерами на всех подах в кластере (kube_pod_container_resource_requests).

  • Total — общее количество процессорных единиц, которое может быть максимально использовано всеми контейнерами в кластере в соответствии с их конфигурацией (machine_cpu_cores).

RAM Usage, Gb

Общий объем оперативной памяти (RAM), используемой всеми подами, сервисами и системными процессами в кластере.

Показатель дает представление о том, как ресурсы оперативной памяти распределяются и используются в кластере.

  • Real — общее количество используемой оперативной памяти в ГБ на всех узлах кластера (node_memory_MemTotal_ bytes, node_memory_MemAvailable_bytes).

  • Requests — общий объем памяти в ГБ, который запрошен для всех контейнеров на всех подах в кластере (kube_pod_container_resource_requests).

  • Limits — максимальный объем памяти в ГБ, который потенциально может быть использован контейнерами в кластере (kube_pod_container_resource_limits).

  • Total — общий объем оперативной памяти (RAM), доступный для всех узлов кластера (machine_memory_bytes).

Kubernetes Resource Count

Количественный показатель, который отражает общее количество ресурсов в кластере.

  • Namespaces — количество созданных пространств имен (kube_namespace_created).

  • Running containers — количество запущенных контейнеров (kube_pod_container_status_running).

  • Running pods — количество запущенных подов (kube_pod_status_phase).

  • Services — количество сервисов (kube_service_info).

  • Persistent Volume Claims — общее количество запросов на постоянные тома (kube_deployment_labels).

  • Configmaps — общее количество ConfigMaps (kube_statefulset_labels).

  • Secrets — количество секретов (kube_daemonset_labels).

  • Nodes — общее количество рабочих узлов (kube_persistentvolumeclaim_info).

OOM Events by namespace

Общее число рестартов подов, вызванных превышением лимитов по памяти или общей нехваткой памяти на узле, по каждому пространству имен (container_oom_events_total).

Container Restarts by namespace

Количество перезапусков контейнеров в пространстве имен за выбранный временной промежуток. (kube_pod_container_status_restarts_total).

Мастер-узлы

Для мастер-узлов отслеживаются следующие метрики:

Название метрики, единица измерения

Описание

CPU Usage

Использование процессорных ресурсов (CPU) в ядрах на мастер-узле за определенный период. Отображается нагрузка по каждому ядру (node_cpu_seconds_total).

Load Average

Средняя загрузка системы. Средняя загрузка системы на рабочем узле за последнюю минуту (node_load1, node_load5, node_load15, node_cpu_seconds_total).

Memory usage, Gb

Используемая память в ГБ.

  • memory buffers — общая буферизированная память (node_memory_Buffers_bytes).

  • memory cached — общая кешированная память (node_memory_Cached_bytes).

  • memory free — свободная память (node_memory_MemFree_bytes).

  • memory used — общая используемая память (node_memory_MemTotal_bytes).

CPU Usage, %

Загрузка процессора (CPU) в процентах на момент просмотра (node_cpu_seconds_total).

CPU Cores

Количество ядер (node_cpu_seconds_total).

Total RAM, GB

Общая оперативная память (node_memory_MemTotal_bytes).

Memory usage, %

Используемая память в процентах (node_memory_MemAvailable_bytes).

Рабочие узлы

Для рабочих узлов отслеживаются следующие метрики:

Название метрики, единица измерения

Описание

CPU Usage

Использование процессорных ресурсов (CPU) в ядрах на рабочем узле за определенный период. Отображается нагрузка по каждому ядру (node_cpu_seconds_total)

Load Average

Средняя загрузка системы (node_load1, node_load5, node_load15, node_cpu_seconds_total).

  • 1m load average — средняя загрузка системы на рабочем узле за последнюю минуту.

  • 5m load average — средняя загрузка на рабочем узле за последние пять минут.

  • 15m load average — средняя загрузка на рабочем узле за последние 15 минут.

  • logical cores — количество логических ядер на выбранном узле.

Memory usage, Gb

Используемая память в ГБ.

  • memory used — общая используемая память (node_memory_MemTotal_bytes).

  • memory buffers — общая буферизированная память (node_memory_Buffers_bytes).

  • memory cached — общая кешированная память (node_memory_Cached_bytes).

  • memory free — свободная память (node_memory_MemFree_bytes).

Network Usage

Скорость передачи трафика в Mb/s.

  • enp3s0 received (Mb/s) — скорость приема данных сетевым интерфейсом в Mbps на рабочем узле за последние 5 минут (node_network_receive_bytes_total).

  • enp3s0 transmitted (Mb/s) — скорость отправки данных сетевым интерфейсом в Mbps на рабочем узле за последние 5 минут (node_network_transmit_bytes_total).

Disk I/O, KB/s

Скорость чтения и записи на дисковые устройства в KB/s.

  • vda read — скорость чтения данных с дисковых устройств в KB/s на рабочем узле за последнюю минуту (node_disk_read_bytes_total).

  • vda written — скорость записи данных с дисковых устройств в KB/s на рабочем узле за последнюю минуту (node_disk_written_bytes_total).

Pods per Node

Количество подов на рабочем узле (kubelet_running_pods).

Контейнеры

Для контейнеров отслеживаются следующие метрики:

Название метрики, единица измерения

Описание

CPU usage by container

Потребление CPU каждым контейнером за последнюю минуту (container_cpu_usage_seconds_total, kube_pod_container_resource_requests, kube_pod_container_resource_limits).

Memory Usage by container, Gb

Потребление оперативной памяти каждым контейнером в ГБ (container_memory_working_set_bytes, kube_pod_container_resource_limits, kube_pod_container_resource_requests).

Network-Bandwidth, KiB

Скорость приема и передачи сетевых данных контейнерами за минуту.

  • Received — полученный трафик (container_network_receive_bytes_total).

  • Transmitted — переданный трафик (container_network_transmit_bytes_total).

Network-Packets Rate

Общая скорость приема и передачи сетевых пакетов контейнерами за последнюю минуту.

  • Received — полученный трафик (container_network_receive_packets_total).

  • Transmitted — передача данных (container_network_transmit_packets_total).

Network-Packets Dropped

Общее количество отброшенных пакетов за минуту.

  • Received — полученный трафик (container_network_receive_packets_dropped_total).

  • Transmitted — переданный трафик (container_network_transmit_packets_dropped_total).

Network-Errors, p/s

Общее количество пакетов с ошибками за минуту.

  • Received — полученный трафик (container_network_receive_errors_total).

  • Transmitted — переданный трафик (container_network_transmit_errors_total).

Дашборд поддерживает следующие настройки и опции:

  • Выбор периода сбора данных. По умолчанию отображаются данные за последние 2 часа.

  • Выбор интервала автообновления данных. По умолчанию обновляются каждые 30 секунд.

  • Выгрузка графика в PNG-файл.

  • Просмотр графика в развернутом режиме.

Подробные инструкции о работе с дашбордами читайте в документации сервиса «Мониторинг»: