nav-img
Evolution

Описание статусов

Мониторинг кластера осуществляется через Grafana или утилиту storage. Команды для storage — storage top, storage stat.

Статусы кластера

  • Healthy — все чанк-сервера находятся в состоянии Active. Восстановление чанков не требуется.

  • Degraded — в кластере присутствуют чанк-сервера в состоянии Failed, Inactive, Offline. Возможно, требуется восстановление чанков.

  • Failed — количество хостов c offline CS превышает или равно значению cluster.max_offline_hosts(default: 3). Восстановление не начнется, пока один из хостов с чанк-серверами не станет доступен.

  • Maintained — кластер переходит в это состояние при наличии одного и более чанк-сервера в статусе maintaining. Если чанк-сервер становится inactive, при этом режим maintenance выключен, кластер переходит в статус Degraded.

Статусы MDS

Network статус

  • Online — метадата-сервер доступен для всех участников Raft.

  • Offline — метадата-сервер недоступен для всех участников Raft.

  • Out of quorum — метадата-сервер недоступен для лидера, но доступен минимум для одного follower.

  • Splitted — метадата-сервер доступен для лидера, но недоступен для follower.

RAFT статус

  • Ready — метадата-сервер имеет актуальный state.

  • Stale — метадата-сервер отстает от лидера.

  • Recovering — метадата-сервер восстанавливает состояние из снапшота Raft, например, после перезагрузки.

Статус CS

  • Active — чанк-сервер доступен и может обрабатывать IO запросы.

  • Inactive — чанк-сервер недоступен более cs.inactive_period_ms (default: 10 секунд). Процедура восстановления для чанков этого чанк-сервера не начнется, если в чанк нет IO.

  • Offline — чанк-сервер недоступен более cs.offline_period_sec (default: 15 минут). Начинается процедура восстановления для всех чанков этого чанк-сервера.

  • Releasing — чанк-сервер удаляется. Все чанки переносятся на другие чанк-сервера. После переноса всех чанков чанк-сервер переходит в состояние Dropped.

  • Unavailable — чанк-сервер недоступен для аллокации новых чанков. Одна из причин: возникла кратковременная сетевая ошибка.

  • Nospace — дисковое пространство на чанк-сервере закончилось.

  • Failed — диск чанк-сервера вернул EIO ошибку. Одна из причин: диск вышел из строя. Начинается процедура восстановления для всех чанков этого чанк-сервера.

  • Maintenance — чанк-сервер находится в maintenance режиме. Offline период повышается до cs.maintenance_offline_period_sec (default: 24h). Если чанк-сервер находится в режиме maintenance, то чанклеты с него не перемещаются на другие хосты до тех пор, пока write tolerance позволяет пользователям писать в этот чанк. Чанки, имеющие outdated чанклет на чанк-сервере в maintenance, находятся в статусе maintaining. По истечению срока maintenance чанк-сервер перейдет в состояние offline, при этом все его чанклеты переместятся на другие хосты.

  • Dropped — чанк-сервер удален.

Статус чанка

  • Allocated — чанк аллоцирован на MDS, но еще не существует на чанк-сервере. Одна из причин: в него не поступали IO запросы.

  • Lost — количество реплик чанка меньше, чем необходимо для восстановления. Данные потеряны. Одна из причин: чанк-сервер был удален с --forced.

  • Offline — недостаточно доступных реплик для восстановления. Чанк-сервер может вернуться в статус Active, начнется восстановление.

  • Blocked — чанк имеет меньше доступных реплик, чем допустимо лимитом write tolerance. Пользовательские IO запросы заблокированы, ожидается завершение восстановления.

  • Readonly — чанк имеет меньше доступных реплик, чем допустимо лимитом write tolerance. Пользовательские IO запросы заблокированы. Чанк доступен для чтения.

  • Urgent — количество доступных реплик равно лимиту write tolerance. Потеря еще одной реплики приведет к блокированию пользовательских IO запросов.

  • Degraded — количество доступных реплик превышает лимит write tolerance, но меньше требуемого.

  • Maintaining — чанк имеет одну недоступную реплику, которая находится на чанк-сервере, находящемся в maintenance режиме.

  • Healthy — все реплики доступны.

  • Recovering — чанк восстанавливается.

  • Migrating — чанк мигрирует для балансировки дискового пространства.

  • Cloning Active/Cloning Scheduling — чанк клонируется из другого чанка.

  • Deleting — чанк удаляется.

Чанки имеют разный приоритет для процедуры восстановления. Приоритет восстановления в порядке убывания:

  • Blocke;

  • Readonly;

  • Urgent;

  • Degraded.