О чем это руководство
Мы собрали 14 метрик для базового мониторинга PostgreSQL. Для каждой показали, что она означает, зачем за ней следить, как она помогает при разборе инцидента и какие пороги можно взять за основу для warning- и critical-алертов.
Какие зоны мониторинга покрывает руководство
CPU и память
Как отслеживать загрузку процессора, свободную память, риск swap и признаки того, что запросы или фоновые процессы начинают давить на инстанс
Диск, I/O и сеть
Как смотреть на операции чтения и записи, заполнение диска и пропускную способность сети, чтобы не доводить ситуацию до аварийных действий
Подключения и пул соединений
Как отличать активные подключения, следить за серверными соединениями и находить пользователей или базы, которые создают неравномерную нагрузку
Запросы, данные, WAL и репликация
Как отслеживать среднее время выполнения запросов, рост баз данных, объем WAL и конфликты репликации
Используйте их как основу для настройки мониторинга, алертов и разбора инцидентов

Для кого это руководство
Инженеры по эксплуатации
Настроят базовые алерты по PostgreSQL и быстрее поймут, где начинается проблема: в ресурсах, сети, диске или подключениях
Администраторы баз данных
Будут держать под контролем состояние базы, рост данных, WAL, запросы и репликацию
Инженеры по надежности
Свяжут метрики PostgreSQL с инцидентами, SLA и пользовательской задержкой
Backend- и platform-инженеры
Увидят, как поведение приложения влияет на подключения, нагрузку, запросы и рост данных
Тимлиды инфраструктурные команды
Договорятся с командой о базовых метриках, порогах алертов и правилах реакции