Сервис мониторинга позволяет получать информацию о состоянии кластера.
Сервисный (преднастроенный) дашборд мониторинга доступен в личном кабинете в разделе Контейнеры → Managed Kubernetes. Чтобы увидеть данные о состоянии кластера, выберите его и перейдите на вкладку Мониторинг.
Чтобы получать метрики объектов кластера и системные метрики, в кластере обязательно должны быть установлены плагины Node Exporter и Kube State Metrics. Если при создании кластера активирована опция Мониторинг, плагины установятся автоматически. По умолчанию опция активна.
Если вы не хотите отправлять метрики в сервис «Мониторинг», но планируете их собирать для другой системы визуализации данных, при создании кластера отключите опцию Мониторинг и выберите плагины Node Exporter и Kube State Metrics вручную.
Описание метрик, которые собирают плагины, читайте в документации Node Exporter и Kube State Metrics.
Кластер
Для кластера отслеживаются следующие метрики:
Название метрики, единица измерения | Описание |
|---|---|
Global CPU usage, % | Общая загрузка процессора всеми подами, сервисами и системными процессами в кластере. Показывает, какая часть процессора используется для выполнения задач по сравнению с запрошенным CPU. Помогает оценить, насколько эффективно распределяются ресурсы в кластере, и есть ли риск недостатка ресурсов для работы приложений.
|
Global RAM Usage, % | Общий процент использования оперативной памяти всеми подами, сервисами и системными процессами в кластере. Показатель дает представление о том, как ресурсы оперативной памяти распределяются и используются в кластере, и помогает определить, достаточно ли памяти для текущих и будущих задач .
|
CPU usage, cores | Использование процессорных ресурсов в ядрах процессора для подов, контейнеров или кластера. Позволяет понять, сколько процессорного времени, выраженного в ядрах, реально используется приложениями и службами, работающими в кластере.
|
RAM Usage, Gb | Общий объем оперативной памяти (RAM), используемой всеми подами, сервисами и системными процессами в кластере. Показатель дает представление о том, как ресурсы оперативной памяти распределяются и используются в кластере.
|
Kubernetes Resource Count | Количественный показатель, который отражает общее количество ресурсов в кластере.
|
OOM Events by namespace | Общее число рестартов подов, вызванных превышением лимитов по памяти или общей нехваткой памяти на узле, по каждому пространству имен (container_oom_events_total). |
Container Restarts by namespace | Количество перезапусков контейнеров в пространстве имен за выбранный временной промежуток. (kube_pod_container_status_restarts_total). |
Мастер-узлы
Для мастер-узлов отслеживаются следующие метрики:
Название метрики, единица измерения | Описание |
|---|---|
CPU Usage | Использование процессорных ресурсов (CPU) в ядрах на мастер-узле за определенный период. Отображается нагрузка по каждому ядру (node_cpu_seconds_total). |
Load Average | Средняя загрузка системы. Средняя загрузка системы на рабочем узле за последнюю минуту (node_load1, node_load5, node_load15, node_cpu_seconds_total). |
Memory usage, Gb | Используемая память в ГБ.
|
CPU Usage, % | Загрузка процессора (CPU) в процентах на момент просмотра (node_cpu_seconds_total). |
CPU Cores | Количество ядер (node_cpu_seconds_total). |
Total RAM, GB | Общая оперативная память (node_memory_MemTotal_bytes). |
Memory usage, % | Используемая память в процентах (node_memory_MemAvailable_bytes). |
Рабочие узлы
Для рабочих узлов отслеживаются следующие метрики:
Название метрики, единица измерения | Описание |
|---|---|
CPU Usage | Использование процессорных ресурсов (CPU) в ядрах на рабочем узле за определенный период. Отображается нагрузка по каждому ядру (node_cpu_seconds_total) |
Load Average | Средняя загрузка системы (node_load1, node_load5, node_load15, node_cpu_seconds_total).
|
Memory usage, Gb | Используемая память в ГБ.
|
Network Usage | Скорость передачи трафика в Mb/s.
|
Disk I/O, KB/s | Скорость чтения и записи на дисковые устройства в KB/s.
|
Pods per Node | Количество подов на рабочем узле (kubelet_running_pods). |
Контейнеры
Для контейнеров отслеживаются следующие метрики:
Название метрики, единица измерения | Описание |
|---|---|
CPU usage by container | Потребление CPU каждым контейнером за последнюю минуту (container_cpu_usage_seconds_total, kube_pod_container_resource_requests, kube_pod_container_resource_limits). |
Memory Usage by container, Gb | Потребление оперативной памяти каждым контейнером в ГБ (container_memory_working_set_bytes, kube_pod_container_resource_limits, kube_pod_container_resource_requests). |
Network-Bandwidth, KiB | Скорость приема и передачи сетевых данных контейнерами за минуту.
|
Network-Packets Rate | Общая скорость приема и передачи сетевых пакетов контейнерами за последнюю минуту.
|
Network-Packets Dropped | Общее количество отброшенных пакетов за минуту.
|
Network-Errors, p/s | Общее количество пакетов с ошибками за минуту.
|
Дашборд поддерживает следующие настройки и опции:
Выбор периода сбора данных. По умолчанию отображаются данные за последние 2 часа.
Выбор интервала автообновления данных. По умолчанию обновляются каждые 30 секунд.
Выгрузка графика в PNG-файл.
Просмотр графика в развернутом режиме.
Подробные инструкции о работе с дашбордами читайте в документации сервиса «Мониторинг»:
Сервисные дашборды — работа с преднастроенными дашбордами.
Пользовательские дашборды — создание пользовательских дашбордов с кастомными виджетами и метриками.
Алерты — настройка алертов и уведомлений об изменении в метриках.
Вычисляемые метрики — создание сложных запросов на основе существующих метрик.