Описание статусов
Мониторинг кластера осуществляется через Grafana или утилиту storage. Команды для storage — storage top, storage stat.
Статусы кластера
Healthy — все чанк-сервера находятся в состоянии Active. Восстановление чанков не требуется.
Degraded — в кластере присутствуют чанк-сервера в состоянии Failed, Inactive, Offline. Возможно, требуется восстановление чанков.
Failed — количество хостов c offline CS превышает или равно значению cluster.max_offline_hosts(default: 3). Восстановление не начнется, пока один из хостов с чанк-серверами не станет доступен.
Maintained — кластер переходит в это состояние при наличии одного и более чанк-сервера в статусе maintaining. Если чанк-сервер становится inactive, при этом режим maintenance выключен, кластер переходит в статус Degraded.
Статусы MDS
Network статус
Online — метадата-сервер доступен для всех участников Raft.
Offline — метадата-сервер недоступен для всех участников Raft.
Out of quorum — метадата-сервер недоступен для лидера, но доступен минимум для одного follower.
Splitted — метадата-сервер доступен для лидера, но недоступен для follower.
RAFT статус
Ready — метадата-сервер имеет актуальный state.
Stale — метадата-сервер отстает от лидера.
Recovering — метадата-сервер восстанавливает состояние из снапшота Raft, например, после перезагрузки.
Статус CS
Active — чанк-сервер доступен и может обрабатывать IO запросы.
Inactive — чанк-сервер недоступен более cs.inactive_period_ms (default: 10 секунд). Процедура восстановления для чанков этого чанк-сервера не начнется, если в чанк нет IO.
Offline — чанк-сервер недоступен более cs.offline_period_sec (default: 15 минут). Начинается процедура восстановления для всех чанков этого чанк-сервера.
Releasing — чанк-сервер удаляется. Все чанки переносятся на другие чанк-сервера. После переноса всех чанков чанк-сервер переходит в состояние Dropped.
Unavailable — чанк-сервер недоступен для аллокации новых чанков. Одна из причин: возникла кратковременная сетевая ошибка.
Nospace — дисковое пространство на чанк-сервере закончилось.
Failed — диск чанк-сервера вернул EIO ошибку. Одна из причин: диск вышел из строя. Начинается процедура восстановления для всех чанков этого чанк-сервера.
Maintenance — чанк-сервер находится в maintenance режиме. Offline период повышается до cs.maintenance_offline_period_sec (default: 24h). Если чанк-сервер находится в режиме maintenance, то чанклеты с него не перемещаются на другие хосты до тех пор, пока write tolerance позволяет пользователям писать в этот чанк. Чанки, имеющие outdated чанклет на чанк-сервере в maintenance, находятся в статусе maintaining. По истечению срока maintenance чанк-сервер перейдет в состояние offline, при этом все его чанклеты переместятся на другие хосты.
Dropped — чанк-сервер удален.
Статус чанка
Allocated — чанк аллоцирован на MDS, но еще не существует на чанк-сервере. Одна из причин: в него не поступали IO запросы.
Lost — количество реплик чанка меньше, чем необходимо для восстановления. Данные потеряны. Одна из причин: чанк-сервер был удален с --forced.
Offline — недостаточно доступных реплик для восстановления. Чанк-сервер может вернуться в статус Active, начнется восстановление.
Blocked — чанк имеет меньше доступных реплик, чем допустимо лимитом write tolerance. Пользовательские IO запросы заблокированы, ожидается завершение восстановления.
Readonly — чанк имеет меньше доступных реплик, чем допустимо лимитом write tolerance. Пользовательские IO запросы заблокированы. Чанк доступен для чтения.
Urgent — количество доступных реплик равно лимиту write tolerance. Потеря еще одной реплики приведет к блокированию пользовательских IO запросов.
Degraded — количество доступных реплик превышает лимит write tolerance, но меньше требуемого.
Maintaining — чанк имеет одну недоступную реплику, которая находится на чанк-сервере, находящемся в maintenance режиме.
Healthy — все реплики доступны.
Recovering — чанк восстанавливается.
Migrating — чанк мигрирует для балансировки дискового пространства.
Cloning Active/Cloning Scheduling — чанк клонируется из другого чанка.
Deleting — чанк удаляется.
Чанки имеют разный приоритет для процедуры восстановления. Приоритет восстановления в порядке убывания:
Blocke;
Readonly;
Urgent;
Degraded.