14 критичных метрик для настройки мониторинга PostgreSQL

Руководство о том, какие показатели отслеживать в PostgreSQL, как читать их в связке и какие warning- и critical-сигналы учитывать при настройке алертов

Зоны мониторинга

Для кого

О чем это руководство

Мы собрали 14 метрик для базового мониторинга PostgreSQL. Для каждой показали, что она означает, зачем за ней следить, как она помогает при разборе инцидента и какие пороги можно взять за основу для warning- и critical-алертов.

Какие зоны мониторинга покрывает руководство

CPU и память

Как отслеживать загрузку процессора, свободную память, риск swap и признаки того, что запросы или фоновые процессы начинают давить на инстанс

Диск, I/O и сеть

Как смотреть на операции чтения и записи, заполнение диска и пропускную способность сети, чтобы не доводить ситуацию до аварийных действий

Подключения и пул соединений

Как отличать активные подключения, следить за серверными соединениями и находить пользователей или базы, которые создают неравномерную нагрузку

Запросы, данные, WAL и репликация

Как отслеживать среднее время выполнения запросов, рост баз данных, объем WAL и конфликты репликации

14 критичных метрик PostgreSQL

Используйте их как основу для настройки мониторинга, алертов и разбора инцидентов

Получить руководство

Для кого это руководство

Инженеры по эксплуатации

Настроят базовые алерты по PostgreSQL и быстрее поймут, где начинается проблема: в ресурсах, сети, диске или подключениях

Администраторы баз данных

Будут держать под контролем состояние базы, рост данных, WAL, запросы и репликацию

Инженеры по надежности

Свяжут метрики PostgreSQL с инцидентами, SLA и пользовательской задержкой

Backend- и platform-инженеры

Увидят, как поведение приложения влияет на подключения, нагрузку, запросы и рост данных

Тимлиды инфраструктурные команды

Договорятся с командой о базовых метриках, порогах алертов и правилах реакции