Сервис мониторинга позволяет получать информацию о состоянии инфраструктуры, например об использовании оперативной памяти или количестве запросов к контейнеру.
В разделе описан преднастроенный дашборд для мониторинга состояния инфраструктуры и приложений в реальном времени, а также приведен полный список метрик, которые сервис Managed Trino передает в сервис мониторинга.
Сервисный (преднастроенный) дашборд мониторинга доступен в личном кабинете в разделе Мониторинг → Дашборды → Сервисные → Evolution Managed Trino. Дашборд состоит из виджетов, которые отображают значения метрик сервиса.
После создания инстанса Managed Trino сервисный дашборд доступен в карточке инстанса на вкладке Мониторинг.
Название виджета | Описание |
|---|---|
Число выполняемых запросов | Текущее количество выполняющихся запросов в кластере (trino_execution_querymanager_runningqueries). Показывает активную нагрузку на систему в реальном времени. |
Число отмененных запросов | Общее количество отмененных пользователем или автоматически по истечении тайм-аута запросов с момента запуска кластера (trino_execution_querymanager_canceledqueries_totalcount). |
Число выполненных запросов | Общее количество выполненных запросов в кластере (trino_execution_querymanager_completedqueries_totalcount). |
Число запросов в очереди (queued) | Когда достигнут лимит на параллельное выполнение, запросы попадают в очередь. Виджет показывает, сколько запросов ожидают выполнения в очереди (trino_execution_querymanager_queuedqueries). Постоянно высокое число ожидающих запросов означает, что в кластере недостаточно вычислительных ресурсов. |
Число запросов с ошибкой | Общее количество запросов, завершившихся с ошибкой (trino_execution_querymanager_failedqueries_totalcount). Включает как внутренние ошибки Trino, так и синтаксические или логические ошибки в запросах пользователя. |
Продолжительность выполнения запросов, мс | Время выполнения завершенных запросов в миллисекундах (trino_execution_querymanager_executiontime_alltime_count). |
Объем входящих данных, байт | Общий объем данных, прочитанных всеми задачами с момента запуска кластера (trino_execution_sqltaskmanager_inputdatasize_totalcount). Показывает суммарный объем обработанных входных данных и помогает оценить нагрузку на систему хранения. |
Объем исходящих данных, байт | Общий объем данных, записанных всеми задачами с момента запуска (trino_execution_sqltaskmanager_outputdatasize_totalcount). Отражает объем результатов запросов и промежуточных данных и помогает оценить нагрузку на сеть и выходные системы хранения. |
Объем wall, байт | Суммарная скорость чтения входных данных за все время работы кластера (trino_execution_querymanager_wallinputbytesrate_alltime_total). Используется для анализа производительности операций чтения и пропускной способности систем хранения данных. |
Загрузка CPU, % | Загрузка процессора в процентах (node_cpu_seconds_total). |
Загрузка RAM, % | Загрузка оперативной памяти. Рассчитывается как процентное соотношение между доступным (node_memory_MemAvailable_bytes) и использованным (node_memory_MemTotal_bytes) объемом оперативной памяти. |
Загрузка RAM (Gb) | Загрузка оперативной памяти в гигабайтах. Рассчитывается как разница между использованным (node_memory_MemTotal_bytes) и доступным (node_memory_MemAvailable_bytes) объемом оперативной памяти. |
Количество нод | График изменения количества узлов в состоянии «Ready», на которых развернут Trino (kube_node_status_condition). |
Дашборд поддерживает следующие настройки и опции:
Выбор периода сбора данных. По умолчанию отображаются данные за последние 2 часа.
Выбор интервала автообновления данных. По умолчанию данные обновляются каждые 5 минут.
Выгрузка графика в PNG-файл.
Просмотр графика в развернутом режиме.
Сервисный дашборд можно дублировать как пользовательский, а затем настроить его под себя или посмотреть, какие метрики и запросы используются в виджетах.
Метрика представляет собой временной ряд, показывающий изменение какого-либо показателя. Например, это может быть использование оперативной памяти или количество выполняемых запросов.
В сервисе мониторинга метрики используются для создания виджетов дашборда и настройки правил алертов. Значения метрик для этого получают и преобразуют с помощью запроса в PromQL-формате.
Подробнее о работе с метриками.
Метрика, единица измерения | Описание |
|---|---|
trino_execution_querymanager_runningqueries, шт. | Количество выполняемых запросов. |
trino_execution_querymanager_canceledqueries_totalcount, шт. | Количество отмененных запросов. |
trino_execution_querymanager_completedqueries_totalcount, шт. | Количество выполненных запросов. |
trino_execution_querymanager_queuedqueries, шт. | Количество запросов в очереди (queued). |
trino_execution_querymanager_failedqueries_totalcount, шт. | Количество запросов с ошибкой. |
trino_execution_querymanager_executiontime_alltime_count, мс | Продолжительность выполнения запросов. |
trino_execution_sqltaskmanager_inputdatasize_totalcount, Б | Объем входящих данных. |
trino_execution_sqltaskmanager_outputdatasize_totalcount, Б | Объем исходящих данных. |
trino_execution_querymanager_wallinputbytesrate_alltime_total, Б | Объем wall. |
node_cpu_seconds_total, с | Использованное процессорное время. |
node_memory_MemAvailable_bytes, Б | Доступный объем оперативной памяти. |
node_memory_MemTotal_bytes, Б | Использованный объем оперативной памяти. |
kube_node_status_condition, шт. | Количество узлов в состоянии «Ready», на которых развернут Trino. |