Облачная платформаEvolution

Метрики мониторинга сервиса Managed ClickHouse®

Эта статья полезна?

Сервис мониторинга позволяет получать информацию о состоянии кластера.

Сервисный (преднастроенный) дашборд мониторинга доступен в личном кабинете в разделе Managed ClickHouse → Мониторинг. Чтобы увидеть данные, выберите кластер и перейдите на вкладку Мониторинг.

Для Managed ClickHouse® метрики сгруппированы по двум вкладкам.

Инстанс

Название метрики, единица измерения

Описание

Нерабочие инстансы, шт

chi_clickhouse_metric_fetch_errors

Количество инстансов, которые не удалось успешно запустить или которые вышли из строя при получении метрик от сервера.

Реплики «только для чтения», шт

chi_clickhouse_metric_ReadonlyReplica

Количество реплицируемых таблиц в режиме «только для чтения».

Таблицы / Базы данных, шт

chi_clickhouse_metric_NumberOfTables / chi_clickhouse_metric_NumberOfDatabases

Количество таблиц и баз данных.

Статистика по таблицам

Основные метрики таблиц базы данных:

  • chi_clickhouse_table_parts_bytes — размер таблицы в байта;

  • chi_clickhouse_table_parts_rows — число строк в таблице;

  • chi_clickhouse_table_parts — число партиций таблицы.

Сервер

Название метрики, единица измерения

Описание

Запросы в секунду

chi_clickhouse_event_Query

Количество запросов, выполняемых каждую секунду.

SELECT-запросы в секунду

chi_clickhouse_event_SelectQuery

Количество SELECT-запросов, выполняемых каждую секунду.

INSERT-запросы в секунду

chi_clickhouse_event_InsertQuery

Количество INSERT-запросов, выполняемых каждую секунду.

Время работы

chi_clickhouse_metric_Uptime

Среднее время непрерывной работы сервера (логарифмическая шкала).

Ошибки DNS и распределенных подключений

Количество ошибок:

  • chi_clickhouse_event_NetworkErrors — сетевые ошибки при работе сервера;

  • chi_clickhouse_event_DistributedConnectionFailAtAll — неудачные попытки подключения к удаленным узлам в кластере;

  • chi_clickhouse_event_DistributedConnectionFailTry — попытки подключения к удаленным узлам, завершившиеся ошибкой;

  • chi_clickhouse_event_DNSError — ошибки DNS при обращении к другим серверам.

Репликация

Информация о репликах в режимах «только для чтения» (chi_clickhouse_metric_ReadonlyReplica) и «частичное отключение» (chi_clickhouse_event_ReplicaPartialShutdown), сессиях (chi_clickhouse_metric_ZooKeeperSession) и запросах на инициализацию Keeper (chi_clickhouse_event_ZooKeeperInit).

INSERT-запросы: Отложенные / Отклоненные / В ожидании выполнения

Количество запросов INSERT, которые были отложены (delayed), отклонены (rejected) или находятся в ожидании выполнения (pending):

  • Отложенные (chi_clickhouse_event_NetworkErrors) — запросы, отложенные перед обработкой из-за временной перегрузки системы, когда ресурсы ограничены, и ClickHouse регулирует поток данных.

  • Отклоненные (chi_clickhouse_event_DistributedConnectionFailTry) — запросы, которые были отклонены, например из-за проблем с сетью или неправильных форматов данных.

  • В ожидании (chi_clickhouse_event_DNSError) — запросы, которые в состоянии ожидания обработки из-за большого числа одновременно выполняемых вставок или из-за временной недоступности ресурсов системы.

Используемая память для запросов

chi_clickhouse_metric_MemoryTracking

Общий объем памяти в байтах, выделенной для выполняемых в данный момент запросов.

Вставленные строки

chi_clickhouse_event_InsertedRows

Количество строк, вставленных через INSERT-запросы во все таблицы.

Очередь репликации

Суммарная очередь репликации всех таблиц.

Максимальная задержка репликации

chi_clickhouse_metric_ReplicasMaxAbsoluteDelay

Максимальная задержка репликации в секундах среди всех таблиц.

Запросы к транзакциям Keeper

chi_clickhouse_event_ZooKeeperTransactions

Количество запросов на транзакции в Keeper в секунду.

Фоновые слияния

chi_clickhouse_event_Merge

Интенсивность фоновых процессов слияния данных.

Объединенные строки

chi_clickhouse_event_MergedRows

Количество строк, которые были обработаны и объединены в процессе фоновых слияний.

Несжатые данные при слиянии

chi_clickhouse_event_MergedUncompressedBytes

Количество несжатых байт данных, обработанных в процессе фоновых слияний.

Активные части данных

chi_clickhouse_table_parts

Количество активных частей данных, которые доступны для запросов и не участвуют в процессах слияния или удаления.

Отключенные части данных

chi_clickhouse_metric_DetachedParts

Количество частей данных на диске, которые были отделены от активных частей данных и не участвуют в запросах.

Максимальное количество частей для партиции

chi_clickhouse_metric_MaxPartCountForPartition

Максимальное количество частей данных в одной партиции таблицы.

Используемая память ClickHouse

Объем памяти, выделенный для работы сервера ClickHouse:

  • VIRT (Virtual Memory) — виртуальная память chi_clickhouse_metric_MemoryVirtual, используемая процессом или задачей. Включает в себя весь код, данные и общие библиотеки, а также страницы, которые были вытеснены. VIRT = SWAP + RES, где SWAP — часть виртуальной памяти, которая была выгружена на диск из оперативной памяти.

  • RES (Resident size) — физическая память chi_clickhouse_metric_MemoryResident, используемая процессом, который не был вытеснен. RES = CODE + DATA

  • CODE — часть RES-памяти chi_clickhouse_metric_MemoryCode, занимаемая исполняемым кодом программы.

  • DATA — часть RES-памяти chi_clickhouse_metric_MemoryDataAndStack, используемой для хранения данных помимо исполняемого кода.

  • SHR (Shared Memory) — память chi_clickhouse_metric_MemoryShared, которая делится между несколькими процессами.

Память первичных ключей

chi_clickhouse_metric_MemoryPrimaryKeyBytesAllocated

Объем памяти для хранения первичных ключей в таблицах.

Память словарей

chi_clickhouse_metric_MemoryDictionaryBytesAllocated

Объем памяти для хранения словарей.

Свободное дисковое пространство

Объем свободного места на диске. Рассчитывается как отношение свободного пространства на диске (chi_clickhouse_metric_DiskFreeBytes) к общему объему диска (chi_clickhouse_metric_DiskTotalBytes) для каждого сервера ClickHouse.

Объем данных на диске

chi_clickhouse_metric_DiskDataBytes

Общий объем дискового пространства, который занимают данные, хранящиеся в базе данных ClickHouse.

Подключения

Число текущих подключений для каждого сервера:

  • chi_clickhouse_metric_TCPConnection — TCP-подключения;

  • chi_clickhouse_metric_HTTPConnection — HTTP-подключения;

  • chi_clickhouse_metric_InterserverConnection — межсерверные соединения;

  • chi_clickhouse_metric_MySQLConnection — MySQL-подключения.

Фоновые задачи

На графике отображаются:

  • BackgroundPoolTask (chi_clickhouse_metric_BackgroundPoolTask) — количество задач, выполняемых в фоновом режиме.

  • BackgroundMovePoolTask (chi_clickhouse_metric_BackgroundMovePoolTask) — количество задач, связанных с перемещением данных в фоновом режиме.

  • BackgroundSchedulePoolTask (chi_clickhouse_metric_BackgroundSchedulePoolTask) — количество задач, выполняемых по расписанию в фоновом режиме.

Мутации данных

Количество активных мутаций данных ALTER DELETE/ALTER UPDATE (chi_clickhouse_table_mutations) и число затронутых партиций таблиц (chi_clickhouse_table_mutations_parts_to_do).

Процент попаданий в кеш меток

Процент успешных обращений к кешу меток, когда данные были извлечены из кеша в оперативной памяти вместо чтения с диска. Рассчитывается как отношение суммы обращений, завершившихся попаданием в кеш (chi_clickhouse_event_MarkCacheHits), к общему количеству обращений к кешу (chi_clickhouse_event_MarkCacheHits + chi_clickhouse_event_MarkCacheMisses).

CPU

Метрики загрузки процессора для каждого сервера:

  • chi_clickhouse_event_RealTimeMicroseconds — суммарное «реальное» (wall-clock) время выполнения;

  • chi_clickhouse_event_UserTimeMicroseconds — время работы в пользовательском режиме (user time);

  • chi_clickhouse_event_SystemTimeMicroseconds — время работы в системном режиме (system time);

  • chi_clickhouse_event_OSIOWaitMicroseconds — время ожидания ввода-вывода на уровне ОС (I/O wait);

  • chi_clickhouse_event_OSCPUWaitMicroseconds — время ожидания выделения CPU со стороны ОС (CPU wait);

  • chi_clickhouse_event_OSCPUVirtualTimeMicroseconds — «виртуальное» процессорное время, выделенное процессу ОС.

CPU (сеть/диск)

Время, затраченное процессором на сетевые и дисковые операции:

  • chi_clickhouse_event_DiskReadElapsedMicroseconds — время, затраченное на системные вызовы чтения с диска (Disk Read syscall);

  • chi_clickhouse_event_DiskWriteElapsedMicroseconds — время, затраченное на системные вызовы записи на диск (Disk Write syscall);

  • chi_clickhouse_event_NetworkReceiveElapsedMicroseconds — время, затраченное на прием данных по сети (Network Receive);

  • chi_clickhouse_event_NetworkSendElapsedMicroseconds — время, затраченное на отправку данных по сети (Network Send).

Средняя нагрузка за 1 минуту

Показатель нагрузки на систему за последнюю минуту (chi_clickhouse_metric_LoadAverage1).

Общее время CPU

Общее время, затраченное процессором на выполнение всех операций.

Дашборд поддерживает следующие настройки и опции:

  • Выбор периода сбора данных. По умолчанию отображаются данные за последние 2 часа.

  • Выбор интервала автообновления данных. По умолчанию обновляются каждые 30 секунд.

  • Выгрузка графика в PNG-файл.

  • Просмотр графика в развернутом режиме.

Подробные инструкции о работе с дашбордами читайте в документации сервиса «Мониторинг»: