Облачная платформаAdvanced

События, поддерживаемые мониторингом событий

Язык статьи: Русский
Показать оригинал
Страница переведена автоматически и может содержать неточности. Рекомендуем сверяться с английской версией.

Note

Имя ресурса, поддерживающего отчёт о событиях, может содержать максимум 128 символов, включая буквы, цифры, подчёркивания (_), дефисы (-) и точки (.). Если оно содержит другие символы, событие может не быть отправлено в Cloud Eye.

Таблица 1 Elastic Cloud Server (ECS)

Источник события

Имя события

ID события

Тяжесть события

Описание

Решение

Влияние

ECS

Перезапуск инициирован из‑за системных сбоев

startAutoRecovery

Критический

ECS, находящиеся на неисправном хосте, будут автоматически перенесены на другой правильно работающий хост. Во время миграции ECS были перезапущены.

Подождите завершения события и проверьте, затронуты ли сервисы.

Сервисы могут быть прерваны.

Перезапуск завершён из‑за системных сбоев

endAutoRecovery

Major

ECS был восстановлен после автоматической миграции.

Это событие указывает на то, что ECS восстановлен и работает должным образом.

None

Тайм‑аут автоматического восстановления (обрабатывается на backend)

faultAutoRecovery

Major

Время миграции ECS на обычный хост истекло.

Переместите сервисы на другие ECS.

Сервисы прерваны.

Сбой линии GPU

GPULinkFault

Critical

GPU Хоста, на котором размещён ECS, был неисправен или восстанавливался после сбоя.

Деплой сервисных приложений в режиме HA.

После устранения неисправности GPU проверьте, восстановлены ли сервисы.

Сервисы прерваны.

ECS удалён

deleteServer

Критический

ECS был удалён.

  • на консоли управления.
  • вызовом API.

Проверьте, было ли удаление выполнено намеренно пользователем.

Сервисы прерваны.

ECS перезапущен

rebootServer

Незначительный

ECS был перезапущен.

  • на консоли управления.
  • вызовом API.

Проверьте, был ли перезапуск выполнен намеренно пользователем.

  • Деплой сервисных приложений в режиме HA.
  • После запуска ECS проверьте, восстановились ли сервисы.

Сервисы прерваны.

ECS был остановлен

stopServer

Незначительный

ECS был остановлен

  • в консоли управления.
  • вызовом API.
ПРИМЕЧАНИЕ:

ECS останавливается только после включения CTS. Подробнее см Cloud Trace Service User Guide.

  • Проверьте, был ли перезапуск выполнен намеренно пользователем.
  • Деплой сервисных приложений в режиме HA.
  • После запуска ECS проверьте, восстановились ли сервисы.

Сервисы прерваны.

NIC удалён

deleteNic

Критический

ECS NIC был удалён

  • в консоли управления.
  • вызовом API.
  • Проверьте, было ли удаление выполнено намеренно пользователем.
  • Деплой сервисных приложений в режиме HA.
  • После удаления NIC, проверьте, восстановились ли сервисы.

Сервисы могут быть прерваны.

ECS изменён

resizeServer

Minor

Спецификации ECS были изменены

  • в консоли управления.
  • вызовом API.
  • Проверьте, была ли операция выполнена пользователем.
  • Деплой сервисных приложений в режиме HA.
  • После изменения размера ECS, проверьте, восстановились ли сервисы.

Сервисы прерваны.

GuestOS перезапущен

Перезапуск гостевой ОС

Незначительный

Гостевая ОС была перезапущена.

Обратитесь к персоналу O&M.

Сервисы могут быть прерваны.

Сбой ECS, вызванный системными ошибками

VMFaultsByHostProcessExceptions

Критический

Хост, на котором расположен ECS, неисправен. Система автоматически попытается запустить ECS.

После запуска ECS проверьте, могут ли этот ECS и сервисы на нём работать корректно.

ECS неисправен.

Ошибка запуска

Ошибка включения

Серьёзный

Не удалось запустить ECS.

Запустите ECS повторно. Если проблема сохраняется, обратитесь к персоналу O&M.

ECS не может запуститься.

Риск отказа хоста

hostMayCrash

Критический

Хост, на котором размещён ECS, может выйти из строя, и риск нельзя предотвратить с помощью живой миграции по некоторым причинам.

Переместите сервисы, работающие на ECS, сначала и удалите или остановите ECS. Запустите ECS только после того, как персонал O&M устранит риск.

Хост может выйти из строя, вызывая прерывание сервиса.

Запланированная миграция завершена

instance_migrate_completed

Критический

Запланированная миграция ECS завершена.

Подождите, пока ECS станут доступными, и проверьте, затронуты ли сервисы.

Сервисы могут быть прерваны.

Запланированная миграция выполняется

instance_migrate_executing

Критический

ECS мигрируются по расписанию.

Подождите, пока событие завершится, и проверьте, затронуты ли сервисы.

Сервисы могут быть прерваны.

Запланированная миграция отменена

instance_migrate_canceled

Major

Запланированная миграция ECS отменена.

None

None

Запланированная миграция не выполнена

instance_migrate_failed

Major

ECS не удалось мигрировать в соответствии с расписанием.

Обратитесь к сотрудникам O&M.

Сервисы прерваны.

Запланированная миграция будет выполнена

instance_migrate_scheduled

Major

ECS будут мигрированы в соответствии с расписанием.

Проверьте влияние на сервисы в окно выполнения.

None

Запланированное изменение спецификации не удалось

instance_resize_failed

Критический

Не удалось изменить спецификации в соответствии с расписанием.

Обратитесь к персоналу O&M.

Сервисы прерваны.

Запланированное изменение спецификации выполнено

instance_resize_completed

Критический

Запланированное изменение спецификаций выполнено.

Нет

Нет

Запланированное изменение спецификации выполняется

instance_resize_executing

Критический

Спецификации изменяются в соответствии с расписанием.

Подождите завершения события и проверьте, затронуты ли сервисы.

Сервисы прерваны.

Запланированное изменение спецификации отменено

instance_resize_canceled

Major

Запланированное изменение спецификаций отменено.

None

None

Запланированное изменение спецификации будет выполнено

instance_resize_scheduled

Major

Спецификации будут изменены согласно расписанию.

Проверьте влияние на сервисы во время окна выполнения.

None

Запланированное переразвёртывание будет выполнено

instance_redeploy_scheduled

Major

ECSs будут переразвернуты на новых хостах согласно расписанию.

Проверьте влияние на сервисы во время окна выполнения.

None

Запланированный перезапуск будет выполнен

instance_reboot_scheduled

Major

ECS будут перезапущены согласно расписанию.

Проверьте влияние на сервисы во время окна выполнения.

Нет

Запланированная остановка будет выполнена

instance_stop_scheduled

Major

ECS будут остановлены согласно расписанию, так как они затронуты базовым оборудованием или системным O&M.

Проверьте влияние на сервисы во время окна выполнения.

Нет

Live миграция начата

liveMigrationStarted

Major

Хост, где расположен ECS, может быть неисправен. Выполните Live миграцию ECS заранее, чтобы предотвратить сбои в работе, вызванные поломкой хоста.

Дождитесь завершения события и проверьте, затронуты ли сервисы.

Сервисы могут быть прерваны менее чем на 1s.

Live migration завершена

liveMigrationCompleted

Критический

Live migration завершена, и ECS работает должным образом.

Проверьте, работают ли сервисы должным образом.

Нет

Live migration failure

liveMigrationFailed

Критический

Во время Live migration ECS произошла ошибка.

Проверьте, работают ли сервисы должным образом.

Существует низкая вероятность прерывания сервисов.

Сгенерирована тревога о некорректируемой ошибке ECC на GPU SRAM

SRAMUncorrectableEccError

Критический

Сгенерированы некорректируемые ошибки ECC на GPU SRAM.

Если сервисы затронуты, отправьте запрос в службу поддержки.

Аппаратное обеспечение GPU может быть неисправным. В результате SRAM неисправен, и сервисы завершаются аномально.

Сбой связи FPGA

FPGALinkFault

Critical

FPGA хоста, на котором расположен ECS, был

  • неисправен.
  • восстанавливается после сбоя.

Развернуть сервисные приложения в режиме HA.

После устранения сбоя FPGA проверьте, восстановлены ли сервисы.

Сервисы прерваны.

Запланированное переразвертывание должно быть одобрено

instance_redeploy_inquiring

Major

В случае влияния базового оборудования или системного O&M, ECS будут переразвернуты на новых хостах согласно расписанию.

Одобрить запланированное переразвертывание.

None

Замена локального диска отменена

localdisk_recovery_canceled

Major

Отказ локального диска

Нет

Нет

Замена локального диска будет выполнена

localdisk_recovery_scheduled

Major

Отказ локального диска

Проверьте влияние на сервисы в течение окна выполнения.

Нет

Событие тревоги Xid сгенерировано на GPU

commonXidError

Major

Событие тревоги xid происходит на GPU.

Если сервисы затронуты, откройте заявку в службу поддержки.

Проблемы с оборудованием GPU, драйвером и приложениями приводят к событиям Xid, что может вызвать некорректный выход бизнес‑приложений.

nvidia-smi suspended

nvidiaSmiHangEvent

Major

nvidia-smi превысил время ожидания.

Если сервисы затронуты, отправьте заявку в службу поддержки.

Драйвер может сообщать об ошибке во время работы сервиса.

NPU: некорректируемая ошибка ECC

UncorrectableEccErrorCount

Major

На GPU SRAM возникли некорректируемые ошибки ECC.

Если сервисы затронуты, замените NPU другим.

Сервисы могут быть прерваны.

Запланированное переразвертывание отменено

instance_redeploy_canceled

Major

Поскольку они затронуты нижележающим оборудованием или системным O&M, ECSs будут переразвернуты на новых хостах согласно расписанию.

Нет

Нет

Выполняется запланированное переразвертывание

instance_redeploy_executing

Major

Поскольку затронуты базовое оборудование или система O&M, ECSs будут переразвернуты на новых хостах по расписанию.

Подождите, пока событие завершится, и проверьте, затронуты ли сервисы.

Сервисы прерваны.

Scheduled redeployment completed

instance_redeploy_completed

Major

Поскольку затронуты базовое оборудование или система O&M, ECSs будут переразвернуты на новых хостах по расписанию.

Подождите, пока переразвернутые ECSs станут доступными, и проверьте, затронуты ли сервисы.

None

Scheduled redeployment failed

instance_redeploy_failed

Major

Поскольку затронуты базовое оборудование или система O&M, ECSs будут переразвернуты на новых хостах по расписанию.

Свяжитесь с персоналом O&M.

Сервисы прерваны.

Требуется авторизация замены локального диска

localdisk_recovery_inquiring

Major

Локальные диски неисправны.

Авторизуйте замену локального диска.

Локальные диски недоступны.

Локальные диски заменяются

localdisk_recovery_executing

Major

Сбой локального диска

Подождите, пока локальные диски заменятся, и проверьте, доступны ли локальные диски.

Локальные диски недоступны.

Локальные диски заменены

localdisk_recovery_completed

Major

Сбой локального диска

Подождите, пока сервисы работают корректно, и проверьте, доступны ли локальные диски.

Нет

Не удалось заменить локальный диск

localdisk_recovery_failed

Критичный

Локальные диски неисправны.

Обратитесь к персоналу O&M.

Локальные диски недоступны.

NPU: устройство не найдено по информации npu-smi

NPUSMICardNotFound

Критичный

Драйвер Ascend неисправен или NPU отключён.

Передайте эту проблему команде Ascend или аппаратной команде для обработки.

NPU нельзя использовать нормально.

NPU: ошибка PCIe link

PCIeErrorFound

Критичный

Возможная причина — переполнение deskew_fifo, событие symbol_unlock, deskew_unlock или тайм‑аут phystatus.

Передайте эту проблему аппаратной команде для обработки.

NPU не может использоваться должным образом.

NPU: устройство не найдено с помощью lspci

LspciCardNotFound

Major

NPU отключён.

Передайте эту проблему в аппаратную команду для обработки.

NPU не может использоваться нормально.

NPU: перегрев

TemperatureOverUpperLimit

Major

Температура DDR или программного обеспечения слишком высока.

Остановите службы, перезапустите BMS, проверьте систему охлаждения и сбросьте устройства.

ECS может быть выключен из‑за перегрева, и устройства могут не быть найдены.

NPU: запрос на перезапуск экземпляра

RebootVirtualMachine

Informational

Возникла неисправность, и BMS необходимо перезапустить.

Соберите информацию об ошибке, и перезапустите BMS.

Сервисы могут быть прерваны.

NPU: запрос на сброс SoC

ResetSOC

Информационный

Произошла ошибка, и необходимо сбросить SoC.

Соберите информацию об ошибке, и сбросьте SoC.

Сервисы могут быть прерваны.

NPU: запрос на перезапуск процесса AI

RestartAIProcess

Информационный

Произошла ошибка, и процесс AI необходимо перезапустить.

Соберите информацию об ошибке, и перезапустите процесс AI.

Текущая задача AI будет прервана.

NPU: коды ошибок

NPUErrorCodeWarning

Критический

Возвращается большое количество кодов ошибок NPU, указывающих на критические или более высокоуровневые ошибки. Вы можете дополнительно определить неисправности на основе кодов ошибок.

Найдите неисправности согласно Список информации о кодах ошибок Black Box и Определение ошибок управления здоровьем.

Сервисы могут быть прерваны.

DAVP: узел устройства не найден vasme

DAVPSMICardNotFound

Критический

Драйвер может быть неисправен, или карта может быть отключена.

Перезапустите VM. Если устройство всё ещё не может быть загружено, передайте эту проблему команде аппаратного обеспечения для обработки.

DAVP не может использоваться корректно.

DAVP: устройство не найдено lspci

DAVPLspciCardNotFound

Критический

DAVP отключён.

Переведите эту проблему в команду аппаратного обеспечения для обработки.

DAVP не может использоваться должным образом.

DAVP: температура выше порогового значения 85°C

TemperatureOverDfLimit

Критический

Температура основного модуля превышает 85°C, что приводит к снижению частоты.

Остановите сервисы. Свяжитесь с командой аппаратного обеспечения, чтобы проверить систему охлаждения и перезагрузить устройство.

Частота карты DAVP снижена.

DAVP: температура выше порогового значения 105°C

TemperatureOverSdLimit

Критический

Температура основного модуля превышает 105°C, что вызывает сигнал тревоги о высокой температуре.

Остановите сервисы. Свяжитесь с командой аппаратного обеспечения, чтобы проверить систему охлаждения и перезагрузить устройство.

Сработала защита от отключения питания. DAVP не может использоваться должным образом.

DAVP: исключение ядра устройства в узле

DeviceCoreAbnormal

Major

Возможно, вам потребуется перезапустить узел устройства die.

Соберите информацию об ошибке и перезапустите die.

Сервисы могут быть прерваны.

GPU NVML library API ошибка

gpuNvmlApiError

Major

Неизвестные ошибки существуют в API питания, часов или вентилятора библиотеки NVML, предоставляемой драйвером GPU.

Перезапустите сервер или обновите драйвер. Если ошибка сохраняется, передайте эту проблему команде аппаратного обеспечения.

GPU могут быть недоступны.

VM ошибка удаления

faultDeleteServer

Major

Не удалось удалить ECS.

Проверьте, затронуты ли сервисы.

Не удалось удалить ресурсы ECS.

Не удалось удалить ECS.

Проверьте, затронуты ли сервисы.

Note

Автоматическое восстановление: Если оборудование, на котором расположен ECS, неисправно, система автоматически перемещает его на обычный физический хост. ECS перезапустится во время миграции.

Таблица 2 Elastic IP (EIP)

Источник события

Пространство имён

Имя события

ID события

Серьёзность события

Описание

Решение

Влияние

EIP

SYS.EIP

Превышена пропускная способность EIP

EIPBandwidthOverflow

Критический

Используемая пропускная способность превысила приобретённую, что может замедлить сеть или вызвать потерю пакетов. Значение этого события — максимальное значение за период мониторинга, а значение входящей и исходящей пропускной способности EIP — значение в конкретный момент времени за этот период.

Метрики описываются следующим образом:

egressDropBandwidth: потерянные исходящие пакеты (байты)

egressAcceptBandwidth: принятые исходящие пакеты (байты)

egressMaxBandwidthPerSec: пиковая исходящая пропускная способность (byte/s)

ingressAcceptBandwidth: принятые входящие пакеты (байты)

ingressMaxBandwidthPerSec: пиковая входящая пропускная способность (byte/s)

ingressDropBandwidth: потерянные входящие пакеты (байты)

Проверьте, продолжает ли увеличиваться пропускная способность EIP и нормальны ли сервисы. Увеличьте пропускную способность при необходимости.

Сеть становится медленной или пакеты теряются.

EIP освобожден

deleteEip

Незначительный

EIP был освобожден.

Проверьте, был ли EIP освобожден по ошибке.

Сервер, к которому привязан EIP, не может получить доступ к Интернету.

EIP заблокирован

blockEIP

Критический

Используемая пропускная способность EIP превысила 5 Gbit/s, EIP были заблокированы, и пакеты были отброшены. Такое событие может быть вызвано атаками DDoS.

Замените EIP, чтобы предотвратить влияние на сервисы.

Найдите и устраните неисправность.

Сервисы затронуты.

EIP разблокирован

unblockEIP

Критический

EIP был разблокирован.

Используйте предыдущий EIP еще раз.

Нет

EIP очистка трафика началась

ddosCleanEIP

Серьёзный

Очистка трафика на EIP была начата для предотвращения DDoS-атак.

Проверьте, был ли атакован EIP.

Службы могут быть прерваны.

EIP очистка трафика завершена

ddosEndCleanEip

Серьёзный

Очистка трафика на EIP для предотвращения DDoS-атак была завершена.

Проверьте, был ли атакован EIP.

Службы могут быть прерваны.

Превышена пропускная способность QoS

EIPBandwidthRuleOverflow

Серьёзный

Используемая пропускная способность QoS превысила выделенную, что может замедлить сеть или вызвать потерю пакетов. Значение этого события — максимальное значение за период мониторинга, а значение входящей и исходящей пропускной способности EIP — значение в конкретный момент времени в этом периоде.

egressDropBandwidth: отброшенные исходящие пакеты (bytes)

egressAcceptBandwidth: принятые исходящие пакеты (bytes)

egressMaxBandwidthPerSec: пиковая исходящая пропускная способность (byte/s)

ingressAcceptBandwidth: принятые входящие пакеты (bytes)

ingressMaxBandwidthPerSec: пиковая входящая пропускная способность (byte/s)

ingressDropBandwidth: отброшенные входящие пакеты (bytes)

Проверьте, продолжается ли рост пропускной способности EIP и находятся ли службы в нормальном состоянии. Увеличьте пропускную способность при необходимости.

Сеть становится медленной или пакеты теряются.

Таблица 3 Elastic Load Balance (ELB)

Источник события

Пространство имён

Имя события

ID события

Серьёзность события

Описание

Решение

Воздействие

ELB

SYS.ELB

Серверы бэкэнда находятся в нездоровом состоянии.

healthCheckUnhealthy

Критический

Как правило, эта проблема возникает из‑за того, что службы бэкэнд‑серверов отключены. Это событие не будет сообщаться после того, как оно будет зафиксировано несколько раз.

Убедитесь, что серверы бэкэнда работают корректно.

ELB не перенаправляет запросы к нездоровым серверным узлам. Если все серверные узлы в группе серверных узлов обнаружены нездоровыми, службы будут прерваны.

Сервер бэкенда обнаружен здоровым.

healthCheckRecovery

Незначительный

Сервер бэкенда обнаружен здоровым.

Дополнительные действия не требуются.

Балансировщик нагрузки может корректно направлять запросы к серверу бэкенда.

Таблица 4 Cloud Backup and Recovery (CBR)

Источник события

Имя события

ID события

Серьезность события

Описание

Решение

Влияние

CBR

Не удалось создать бэкап.

backupFailed

Критический

Не удалось создать бэкап.

Создайте бэкап вручную или обратитесь в службу поддержки.

Потеря данных может произойти.

Не удалось восстановить ресурс с помощью бэкапа.

restorationFailed

Критический

Не удалось восстановить ресурс с использованием бэкапа.

Восстановите ресурс с помощью другого бэкапа или обратитесь в службу поддержки.

Потеря данных может произойти.

Не удалось удалить бэкап.

backupDeleteFailed

Критический

Не удалось удалить бэкап.

Повторите попытку позже или обратитесь в службу поддержки.

Зарядка может быть аномальной.

Не удалось удалить хранилище.

vaultDeleteFailed

Критический

Не удалось удалить хранилище.

Повторите попытку позже или обратитесь в техническую поддержку.

Зарядка может быть аномальной.

Сбой репликации

replicationFailed

Критический

Не удалось реплицировать бэкап.

Повторите попытку позже или обратитесь в техническую поддержку.

Возможно возникновение потери данных.

Бэкап успешно создан.

backupSucceeded

Серьёзный

Бэкап создан.

Нет

Нет

Восстановление ресурса с помощью бэкапа успешно завершено.

restorationSucceeded

Серьёзный

Ресурс был восстановлен с помощью бэкапа.

Проверьте, успешно ли восстановлены данные.

None

Бэкап успешно удалён.

backupDeletionSucceeded

Серьёзный

Бэкап был удалён.

None

None

Хранилище удалено успешно.

vaultDeletionSucceeded

Серьёзный

Хранилище было удалено.

None

None

Успех репликации

replicationSucceeded

Серьёзный

Бэкап был реплицирован успешно.

None

None

Клиент не в сети

agentOffline

Критический

Бэкап клиент был отключён.

Убедитесь, что статус Agent нормален и к бэкап клиенту можно подключиться .

Бэкап задачи могут завершиться с ошибкой.

Клиент онлайн

agentOnline

Серьезный

Бэкап клиент был онлайн.

Нет

Нет

Таблица 5 Relational Database Service (RDS) — исключение ресурса

Источник события

Пространство имен

Имя события

ID события

Серьезность события

Описание

Решение

Влияние

RDS

SYS.RDS

Ошибка создания экземпляра DB

createInstanceFailed

Критичный

Как правило, причина заключается в том, что количество дисков недостаточно из‑за ограничений квоты, или базовые ресурсы исчерпаны.

Выбранные спецификации ресурса недостаточны. Выберите другие доступные спецификации и повторите попытку.

Экземпляры DB не могут быть созданы.

Ошибка полного бэкапа

fullBackupFailed

Критичный

Один отдельный сбой полного бэкапа не влияет на файлы, которые были успешно сохранены, но удлиняет время инкрементального бэкапа при восстановлении в определённый момент времени (PITR).

Повторить.

Восстановление с использованием бэкапов будет затронуто.

Ошибка продвижения Read-реплики

activeStandBySwitchFailed

Критический

Резервный DB‑экземпляр не берет на себя рабочие нагрузки с основного DB‑экземпляра из‑за сбоев сети или сервера. Исходный основной DB‑экземпляр продолжает предоставлять услуги в течение короткого времени.

Повторите операцию в часы непикового трафика.

Сбой продвижения Read-реплики.

Состояние репликации ненормальное

abnormalReplicationStatus

Критический

Возможные причины следующие:

Задержка репликации между основным экземпляром и резервным экземпляром или Read-репликой слишком велика, что обычно происходит при записи большого объёма данных в базы данных или обработке крупной транзакции. В часы пик данные могут блокироваться.

Сеть между основным экземпляром и резервным экземпляром или Read-репликой отключена.

Проблема устраняется. Пожалуйста, дождитесь наших уведомлений.

Состояние репликации ненормально.

Состояние репликации восстановлено

replicationStatusRecovered

Критичный

Задержка репликации между основным и резервным экземплярами находится в пределах нормального диапазона, либо сетевое соединение между ними восстановилось.

Проверьте, работают ли сервисы должным образом.

Состояние репликации восстановлено.

Экземпляр DB неисправен

faultyDBInstance

Критичный

Отдельный или основной экземпляр DB был неисправен из‑за катастрофического сбоя, например, сбоя сервера.

Проблема исправляется. Пожалуйста, дождитесь наших уведомлений.

Состояние экземпляра ненормально.

Экземпляр DB восстановлен

DBInstanceRecovered

Критичный

RDS восстанавливает резервный экземпляр DB с использованием высокой доступности. После восстановления экземпляра это событие будет отражено.

Состояние экземпляра DB в норме. Проверьте, работают ли службы должным образом.

Экземпляр восстановлен.

Сбой при изменении одиночного экземпляра DB на основной/резервный

singleToHaFailed

Критический

Ошибка возникает, когда RDS создает резервный экземпляр DB или настраивает репликацию между основным и резервным экземплярами DB. Ошибка может возникнуть из‑за недостатка ресурсов в центре обработки данных, где находится резервный экземпляр DB.

Автоматическая повторная попытка выполняется.

Не удалось изменить одиночный экземпляр DB на основной/резервный.

Процесс базы данных перезапущен

DatabaseProcessRestarted

Критический

Процесс базы данных остановлен из‑за недостатка памяти или высокой нагрузки.

Проверьте, работают ли службы должным образом.

Основной экземпляр перезапущен. Службы прерываются на короткое время.

Хранилище экземпляра заполнено

instanceDiskFull

Критический

Обычно причина в том, что использование объёма данных слишком велико.

Увеличьте объём хранилища.

Хранилище экземпляра использовано полностью. Данные нельзя записать в базы данных.

Хранилище экземпляра полностью восстановлено

instanceDiskFullRecovered

Критический

Диск экземпляра восстановлен.

Проверьте, работают ли службы должным образом.

У экземпляра есть доступное хранилище.

Ошибка соединения с Kafka

kafkaConnectionFailed

Критический

Сеть нестабильна или сервер Kafka работает неправильно.

Проверьте, затронуты ли службы.

Отсутствует

Таблица 6 Document Database Service (DDS)

Источник события

Пространство имён

Имя события

ID события

Серьёзность события

Описание

Решение

Воздействие

DDS

SYS.DDS

DB instance creation failure

DDSCreateInstanceFailed

Серьёзный

Экземпляр DDS не может быть создан из‑за недостаточного количества дисков, квот и основных ресурсов.

Проверьте количество и квоты дисков. Освободите ресурсы и создайте экземпляры DDS повторно.

Не удаётся создать экземпляры DDS.

Сбой репликации

DDSAbnormalReplicationStatus

Серьёзный

Возможные причины перечислены ниже:

  1. Задержка репликации между основным экземпляром и резервным экземпляром или Read-репликой слишком велика, что обычно происходит, когда в базы данных записывается большое количество данных или обрабатывается большая транзакция. В пиковые часы данные могут блокироваться.
  2. Сеть между основным экземпляром и резервным экземпляром или Read-репликой отключена.

Отправьте заявку в службу поддержки.

  1. Операции чтения и записи на оригинальном экземпляре не прерываются, но обновления данных на резервном экземпляре могут задерживаться.
  2. Задержка репликации продолжает расти между основным и резервным экземплярами, и резервный экземпляр может быть отключён.

Репликация восстановлена

DDSReplicationStatusRecovered

Серьёзный

Задержка репликации между основным и резервным экземплярами находится в пределах нормы, либо сетевое соединение между ними восстановилось.

Никаких действий не требуется.

Нет

Сбой экземпляра DB

DDSFaultyDBInstance

Критичный

Это событие является ключевым событием тревоги и фиксируется, когда экземпляр неисправен из‑за катастрофы или отказа сервера.

Отправьте заявку в службу поддержки.

Сервис базы данных может быть недоступен.

Экземпляр DB восстановлен.

DDSDBInstanceRecovered

Критичный

В случае катастрофы NoSQL предоставляет HA‑инструмент для автоматического или ручного исправления неисправности. После исправления неисправности это событие фиксируется.

Действие не требуется.

Нет

Неисправный узел

DDSFaultyDBNode

Критичный

Это событие является ключевым событием тревоги и фиксируется, когда узел базы данных неисправен из‑за катастрофы или отказа сервера.

Проверьте, доступна ли служба базы данных, и отправьте запрос в службу поддержки.

Служба базы данных может быть недоступна.

Узел восстановлен

DDSDBNodeRecovered

Критический

Если происходит катастрофа, NoSQL предоставляет HA‑инструмент для автоматического или ручного исправления ошибки. После исправления ошибки об этом событии сообщается.

Действия не требуются.

Нет

Primary/standby switchover or failover

DDSPrimaryStandbySwitched

Критический

Выполняется переключение primary/standby или инициируется отказ.

Действия не требуются.

Нет

Недостаточный объём хранения

DDSRiskyDataDiskUsage

Критический

Объём хранения недостаточен.

Увеличьте объем хранения. Для получения подробностей см. раздел "Scaling Up Storage Space" в соответствующем руководстве пользователя.

Экземпляр установлен в режим только для чтения, и данные нельзя записывать в экземпляр.

Диск с данными расширен и стал доступным для записи

DDSDataDiskUsageRecovered

Критический

Ёмкость диска с данными была расширена, и диск с данными стал доступным для записи.

Дальнейшие действия не требуются.

Отрицательного воздействия нет.

План удаления KMS-ключа

planDeleteKmsKey

Критический

Запрос на плановое удаление KMS-ключа был отправлен.

После того как KMS-ключ будет запланирован к удалению, следует своевременно расшифровать данные, зашифрованные KMS-ключом, или отменить удаление ключа.

После удаления KMS-ключа пользователи не смогут шифровать диски.

Таблица 7 Промежуточное программное обеспечение распределённой базы данных (DDM)

Источник события

Пространство имён

Имя события

ID события

Важность события

Описание

Решение

Воздействие

DDM

SYS.DDM

Не удалось создать экземпляр DDM

createDdmInstanceFailed

Критический

Недостаточно базовых ресурсов.

Освободите ресурсы и создайте экземпляр заново.

Экземпляры DDM не могут быть созданы.

Не удалось изменить класс экземпляра DDM

resizeFlavorFailed

Критический

Исходные ресурсы недостаточны.

Отправьте заявку в службу O&M персоналу для координации ресурсов и повторите попытку.

Сервисы на некоторых узлах прерваны.

Не удалось масштабировать DDM‑инстанс.

enlargeNodeFailed

Major

Исходные ресурсы недостаточны.

Отправьте заявку в службу O&M персоналу для координации ресурсов, удалите узел, который не удалось добавить, и снова добавьте узел.

Не удалось масштабировать инстанс.

Не удалось масштабировать DDM‑инстанс в обратную сторону.

reduceNodeFailed

Major

Исходные ресурсы не удалось освободить.

Отправьте заявку в службу O&M персоналу для освобождения ресурсов.

Не удалось уменьшить масштаб инстанса.

Не удалось перезапустить DDM‑инстанс.

restartInstanceFailed

Major

Связанные DB‑экземпляры находятся в ненормальном состоянии.

Проверьте, находятся ли связанные DB‑экземпляры в нормальном состоянии. Если экземпляры в норме, отправьте заявку в службу поддержки O&M.

Сервисы на некоторых узлах прерваны.

Не удалось создать схему

createLogicDbFailed

Major

Возможные причины перечислены ниже:

  • Пароль учётной записи DB‑экземпляра неверен.
  • Группа безопасности экземпляра DDM и связанного DB‑экземпляра настроены неверно. В результате экземпляр DDM не может связаться с связанным DB‑экземпляром.

Проверьте

  • Имя пользователя и пароль DB‑экземпляра корректны.
  • Группы безопасности, связанные с экземпляром DDM и базовым экземпляром базы данных, настроены правильно.

Сервисы не могут работать корректно.

Не удалось привязать EIP

bindEipFailed

Критический

EIP аномален.

Повторите попытку позже. В случае аварийной ситуации свяжитесь с персоналом O&M для устранения неисправности.

Экземпляр DDM недоступен из Интернета.

Не удалось масштабировать схему.

migrateLogicDbFailed

Критический

Не удалось обработать базовые ресурсы.

Отправьте заявку в службу поддержки O&M.

Схема не может быть масштабирована.

Не удалось повторно масштабировать схему.

retryMigrateLogicDbFailed

Критический

Не удалось обработать базовые ресурсы.

Отправьте заявку в службу поддержки O&M.

Схема не может быть масштабирована.

Таблица 8 Elastic IP и пропускная способность

Источник события

Пространство имён

Имя события

ID события

Тяжесть события

Elastic IP и пропускная способность

SYS.VPC

VPC удалена

deleteVpc

Major

VPC изменена

modifyVpc

Minor

Подсеть удалена

deleteSubnet

Minor

Подсеть изменена

modifySubnet

Minor

Пропускная способность изменена

modifyBandwidth

Незначительный

VPN удалён

deleteVpn

Критический

VPN изменён

modifyVpn

Незначительный

Таблица 9 Elastic Volume Service (EVS)

Источник события

Пространство имён

Имя события

ID события

Важность события

Описание

Решение

Влияние

EVS

SYS.EVS

Обновить диск

updateVolume

Незначительный

Обновить имя и описание диска EVS.

Никаких дальнейших действий не требуется.

Нет

Расширить диск

extendVolume

Незначительный

Расширить диск EVS.

Никаких дальнейших действий не требуется.

Нет

Удалить диск

deleteVolume

Критический

Удалить диск EVS.

Никаких дальнейших действий не требуется.

Удалённые диски нельзя восстановить.

Достигнут верхний предел QoS

NOTE:

Это событие больше не поддерживается для EVS и будет удалено из Cloud Eye.

reachQoS

Критический

Латентность I/O увеличивается, так как верхние пределы QoS диска часто достигаются, и активируется управление потоком.

Измените тип диска на более высокую спецификацию.

Текущий диск может не соответствовать требованиям сервиса.

Таблица 10 Identity and Access Management (IAM)

Источник события

Пространство имён

Имя события

ID события

Серьёзность события

IAM

SYS.IAM

Вход

вход

Незначительный

Выход

выход

Незначительный

Пароль изменён

changePassword

Критический

Пользователь создан

createUser

Незначительный

Пользователь удалён

deleteUser

Критический

Пользователь обновлен

updateUser

Незначительный

Группа пользователей создана

createUserGroup

Незначительный

Группа пользователей удалена

deleteUserGroup

Критический

Группа пользователей обновлена

updateUserGroup

Незначительный

Провайдер идентификации создан

createIdentityProvider

Незначительный

Провайдер идентификации удалён

deleteIdentityProvider

Критический

Провайдер идентификации обновлен

updateIdentityProvider

Незначительный

Метаданные обновлены

updateMetadata

Незначительный

Политика безопасности обновлена

updateSecurityPolicies

Критический

Учетные данные добавлены

addCredential

Критический

Учетные данные удалены

deleteCredential

Критический

Проект создан

createProject

Незначительный

Проект обновлен

updateProject

Незначительный

Проект приостановлен

suspendProject

Критический

Таблица 11 Служба управления ключами (KMS)

Источник события

Пространство имён

Имя события

ID события

Тяжесть события

KMS

SYS.KMS

Ключ отключён

disableKey

Критический

Запланировано удаление ключа

scheduleKeyDeletion

Незначительный

Грант отозван

retireGrant

Критический

Грант отозван

revokeGrant

Критический

Таблица 12 Object Storage Service (OBS)

Источник события

Пространство имён

Имя события

ID события

Тяжесть события

OBS

SYS.OBS

Бакет удалён

deleteBucket

Major

Политика бакета удалена

deleteBucketPolicy

Major

Бакет ACL настроен

setBucketAcl

Minor

Политика бакета настроена

setBucketPolicy

Minor

Таблица 13 Cloud Eye

Источник события

Пространство имён

Имя события

ID события

Серьёзность события

Описание

Решение

Cloud Eye

SYS.CES

Прерывание heartbeat агента

agentHeartbeatInterrupted

Major

Процесс сбора агента неисправен.

  • Подтвердите, что доменное имя агента не может быть разрешено.
  • Проверьте, находится ли ваш аккаунт в просрочке.
  • Процесс агента неисправен. Перезапустите агент. Если процесс агента всё ещё неисправен после перезапуска, файлы агента могут быть повреждены. В этом случае переустановите агент.
  • Подтвердите, что время сервера не совпадает с локальным стандартным временем.
  • Обновите агент до последней версии.

Агент вернулся к нормальному состоянию

agentResumed

Информационный

Агент вернулся к нормальному состоянию.

Дальнейшие действия не требуются.

Агент неисправен

agentFaulty

Критический

Агент был неисправен, и этот статус был отправлен в Cloud Eye.

Процесс агента неисправен. Перезапустите агента. Если процесс агента все еще неисправен после перезапуска, файлы агента могут быть повреждены. В этом случае переустановите агента.

Обновите агент до последней версии.

Агент отключен

agentDisconnected

Критический

Процесс коммуникации агента неисправен.

Подтвердите, что доменное имя агента не может быть разрешено.

Проверьте, находится ли ваш аккаунт в задолженности.

Процесс Agent неисправен. Перезапустите Agent. Если процесс Agent всё ещё неисправен после перезапуска, файлы Agent могут быть повреждены. В этом случае переустановите Agent.

Подтвердите, что время сервера отличается от локального стандартного времени.

Обновите Agent до последней версии.

Таблица 14 Distributed Cache Service (DCS)

Источник события

Пространство имён

Имя события

ID события

Серьёзность события

Описание

Решение

Влияние

DCS

SYS.DCS

Повторная полная синхронизация во время онлайн‑миграции

migrationFullResync

Незначительный

Если онлайн‑миграция не удалась, будет запущена полная синхронизация, поскольку инкрементальная синхронизация выполнить невозможно.

Проверьте, повторно запускаются ли попытки полной синхронизации. Проверьте, подключён ли исходный инстанс и не перегружен ли он. Если попытки полной синхронизации повторяются, обратитесь к сотрудникам O&M.

Задача миграции отключена от исходного инстанса, что вызывает ещё одну полную синхронизацию. В результате использование CPU исходным инстансом может резко возрасти.

Переключение master/standby в Memcached

memcachedMasterStandbyFailover

Незначительный

Узел master был аномальным, переводя standby‑узел в статус master.

Проверьте, могут ли сервисы восстановиться автоматически. Если приложения не восстанавливаются, перезапустите их.

Постоянные соединения с инстансом будут прерваны.

Сервер Redis аномален

redisNodeStatusAbnormal

Критический

Состояние сервера Redis было аномальным.

Проверьте, затронуты ли сервисы. Если да, свяжитесь с персоналом O&M.

Если главный узел аномален, выполняется автоматическое переключение. Если резервный узел аномален и клиент напрямую подключается к резервному узлу для разделения чтения/записи, данные не могут быть прочитаны.

Сервер Redis восстановлен

redisNodeStatusNormal

Major

Состояние сервера Redis восстановлено.

Проверьте, могут ли сервисы восстановиться. Если приложения не переподключились, перезапустите их.

Восстановление после исключения.

Сбой синхронизации при миграции данных

migrateSyncDataFail

Major

Онлайн-миграция не удалась.

Перенастройте задачу миграции и выполните миграцию данных заново. Если ошибка сохраняется, свяжитесь с персоналом O&M.

Миграция данных не удалась.

Экземпляр Memcached аномален

memcachedInstanceStatusAbnormal

Критический

Состояние узла Memcached было аномальным.

Проверьте, затронуты ли сервисы. Если да, обратитесь к персоналу O&M.

Экземпляр Memcached находится в аномальном состоянии и может быть недоступен.

Экземпляр Memcached восстановлен

memcachedInstanceStatusNormal

Критический

Состояние узла Memcached восстановилось.

Проверьте, могут ли сервисы восстановиться. Если приложения не переподключены, перезапустите их.

Восстановление после исключения.

Сбой бэкапа экземпляра

instanceBackupFailure

Критический

Экземпляр DCS не удалось создать бэкап из‑за сбоя доступа к OBS.

Повторите бэкап вручную.

Автоматический бэкап не удался.

Аномальный перезапуск узла экземпляра

instanceNodeAbnormalRestart

Критический

Узлы DCS перезапустились неожиданно, когда стали неисправными.

Проверьте, могут ли службы восстановиться. Если приложения не могут восстановиться, перезапустите их.

Постоянные соединения с экземпляром будут прерваны.

Длительные Lua-скрипты остановлены

scriptsStopped

Информационный

Lua‑скрипты, которые вышли за время выполнения, автоматически остановились.

Оптимизируйте Lua-скрипты, чтобы предотвратить превышение времени выполнения.

Если выполнение Lua‑скриптов занимает длительное время, они будут принудительно остановлены, чтобы избежать блокировки всего экземпляра.

Узел перезапущен

nodeRestarted

Информационный

После выполнения операций записи узел автоматически перезапустился, чтобы остановить Lua‑скрипты, превысившие время выполнения.

Проверьте, могут ли сервисы восстанавливаться самостоятельно. Если приложения не могут восстановиться, перезапустите их.

Постоянные соединения с инстансом будут прерваны.

Автоматическое переключение

masterStandbyFailover

Major

Мастер‑узел отказал из‑за аппаратного/программного сбоя, вызвав переход реплика‑узла к обслуживанию.

Проверьте, что приложение переподключилось к инстансу, и сбой был устранён. В противном случае перезапустите приложение.

Ошибки доступа прерывают постоянные соединения с инстансом.

Ручное переключение

masterStandbySwitchover

Major

Выполнение переключений master/standby через консоль или вызов API переключения master/standby инициирует эти события. Master/Standby переключения происходят при изменении спецификаций или после перезапусков инстансов. Ручное O&M на бекенде, необходимое для отработки сбоев или миграции ресурсов, инициирует переключения master/standby.

Проверьте, что приложение повторно подключилось к инстансу и ошибка была исправлена. В противном случае перезапустите приложение.

Ошибки доступа прерывают постоянные соединения с инстансом.

Таблица 15 Host Security Service (HSS)

Источник события

Пространство имён

Имя события

ID события

Серьёзность события

Описание

Решение

Влияние

HSS

SYS.HSS

HSS агент отключён

hssAgentAbnormalOffline

Критический

Связь между агентом и сервером является аномальной, либо процесс агента на сервере аномален.

Исправьте подключение к сети. Если агент всё ещё остаётся офлайн длительное время после восстановления сети, процесс агента может быть аномальным. В этом случае, войдите в сервер и перезапустите процесс агента.

Сервисы прерваны.

Аномальный статус агента HSS

hssAgentAbnormalProtection

Критический

Агент аномален, вероятно, из‑за недостаточного количества ресурсов.

Войдите в сервер и проверьте свои ресурсы. Если использование памяти или других системных ресурсов слишком высоко, сначала увеличьте их ёмкость. Если ресурсы достаточны, но проблема сохраняется после перезапуска процесса агента, отправьте сервисный тикет персоналу O&M.

Сервисы прерваны.

Таблица 16 Image Management Service (IMS)

Источник события

Пространство имён

Имя события

ID события

Серьёзность события

Описание

Решение

Воздействие

IMS

SYS.IMS

Создать образ

createImage

Серьезный

Образ был создан.

Нет

Вы можете использовать этот образ для создания облачных серверов.

Обновить образ

updateImage

Серьезный

Метаданные образа были изменены.

Нет

Создание облачных серверов из этого образа может завершиться неудачей.

Удалить образ

deleteImage

Серьезный

Образ был удалён.

Нет

Это изображение будет недоступно в консоли управления.

Таблица 17 MapReduce Service (MRS)

Источник события

Пространство имён

Имя события

ID события

Серьёзность события

Описание

Решение

Влияние

MRS

SYS.MRS

Переключение DBServer

dbServerSwitchover

Незначительный

Происходит переключение DBServer.

Подтвердите с персоналом O&M, вызвано ли переключение active/standby нормальными операциями.

Последовательные переключения active/standby могут повлиять на доступность службы Hive.

Переполнение канала Flume

flumeChannelOverflow

Незначительный

Переполнение канала Flume

Проверьте, правильно ли настроена конфигурация канала Flume и резко ли увеличивается объём сервиса.

Задачи Flume не могут записать данные в бэкенд.

Переключение NameNode

namenodeSwitchover

Незначительный

Происходит переключение NameNode.

Подтвердите у персонала O&M, вызвано ли переключение active/standby обычными операциями.

Последовательные переключения active/standby могут вызвать сбои чтения/записи файлов HDFS.

Переключение ResourceManager

resourceManagerSwitchover

Незначительный

Переключение ResourceManager

Подтвердите у персонала O&M, вызвано ли переключение active/standby обычными операциями.

Последовательные переключения active/standby могут вызвать исключения или даже сбои задач YARN

JobHistoryServer Переключение

jobHistoryServerSwitchover

Незначительный

Происходит переключение JobHistoryServer

Подтвердите с персоналом O&M, вызвано ли переключение active/standby обычными операциями

Последовательные переключения active/standby могут вызвать сбои чтения журналов задач MapReduce

HMaster Переключение

hmasterFailover

Незначительный

Происходит переключение HMaster

Подтвердите с персоналом O&M, вызвано ли переключение active/standby обычными операциями

Последовательные переключения active/standby могут повлиять на доступность сервиса HBase

Hue Переключение

hueFailover

Незначительный

Отказовое переключение Hue происходит.

Подтвердите у персонала O&M, что переключение активный/резервный вызвано обычными операциями.

Переключение активный/резервный может повлиять на отображение страницы HUE.

Отказоустойчивость Impala HaProxy

impalaHaProxyFailover

Незначительный

Происходит переключение Impala HaProxy.

Подтвердите у персонала O&M, что переключение активный/резервный вызвано обычными операциями.

Последовательные переключения активный/резервный могут повлиять на доступность сервиса Impala.

Отказоустойчивость Impala StateStoreCatalog

impalaStateStoreCatalogFailover

Незначительный

Происходит отказоустойчивое переключение Impala StateStoreCatalog.

Подтвердите у персонала O&M, что переключение активный/резервный вызвано обычными операциями.

Последовательные переключения активный/резервный могут повлиять на доступность сервиса Impala.

LdapServer Failover

ldapServerFailover

Незначительный

Переключение LdapServer происходит.

Подтвердите с персоналом O&M, вызвано ли переключение активный/резервный нормальными операциями.

Последовательные переключения активный/резервный могут повлиять на доступность сервиса LdapServer.

Loader Switchover

loaderSwitchover

Незначительный

Переключение Loader происходит.

Подтвердите с персоналом O&M, вызвано ли переключение активный/резервный нормальными операциями.

Переключение активный/резервный может повлиять на доступность сервиса Loader.

Manager Switchover

managerSwitchover

Информационный

Переключение Manager происходит.

Подтвердите у персонала O&M, вызвано ли переключение active/standby нормальными операциями.

Переключение active/standby Manager может сделать страницу Manager недоступной и вызвать аномальные значения некоторых элементов мониторинга.

Выполнение задачи не удалось

jobRunningFailed

Информационный

Задача не выполнена.

На Задачи вкладке, проверьте, является ли неудавшаяся задача нормальной.

Задача не выполнена.

Задача завершена

jobkilled

Информационный

Задача завершена.

Проверьте, была ли задача завершена вручную.

Процесс выполнения задачи завершён.

Сбой выполнения Oozie Workflow

oozieWorkflowExecutionFailure

Незначительный

Рабочие процессы Oozie не выполняются.

Просмотрите журналы Oozie, чтобы найти причину сбоя.

Рабочие процессы Oozie не выполняются.

Сбой выполнения запланированного задания Oozie

oozieScheduledJobExecutionFailure

Незначительный

Запланированные задачи Oozie не выполняются.

Просмотрите журналы Oozie, чтобы найти причину сбоя.

Запланированные задачи Oozie не выполняются.

Служба ClickHouse недоступна

clickHouseServiceUnavailable

Критический

Служба ClickHouse недоступна.

Для получения подробностей см. раздел "ALM-45425 ClickHouse Service Unavailable" в Руководство пользователя службы MapReduce.

Служба ClickHouse находится в ненормальном состоянии. Операции кластера не могут быть выполнены для службы ClickHouse в FusionInsight Manager, и функция службы ClickHouse не может быть использована.

DBService Сервис недоступен

dbServiceServiceUnavailable

Критический

DBService недоступен

Для получения деталей см. раздел "ALM-27001 DBService Service Unavailable" в MapReduce Service Руководство пользователя.

Служба базы данных недоступна и не может предоставлять функции импорта данных и запросов для сервисов верхнего уровня. В результате происходят исключения сервиса.

DBService Прерывание сигнала Heartbeat между активным и резервным узлами

dbServiceHeartbeatInterruptionBetweentheActiveAndStandbyNodes

Серьезный

DBService Прерывание сигнала Heartbeat между активным и резервным узлами

Для получения деталей см. раздел "ALM-27003 Heartbeat Interruption Between the Active and Standby Nodes" в MapReduce Service Руководство пользователя.

Во время прерывания heartbeat сервиса DBService только один узел может предоставлять сервис. Если этот узел неисправен, резервный узел недоступен для failover и сервис недоступен.

Несоответствие данных между активными и резервными DBServices

dataInconsistencyBetweenActiveAndStandbyDBServices

Критический

Несоответствие данных между активными и резервными DBServices

Для получения подробностей см. раздел "ALM-27004 Data Inconsistency Between Active and Standby DBService" в MapReduce Service Руководство пользователя.

Когда данные не синхронизированы между активными и резервными DBServices, данные могут быть утеряны или некорректны, если активный экземпляр становится некорректным.

База данных переходит в режим только для чтения

databaseEnterstheReadOnlyMode

Критический

База данных переходит в режим только для чтения.

Для деталей см. раздел "ALM-27007 Database Enters the Read-Only Mode" в MapReduce Service Руководство пользователя.

База данных переходит в режим только для чтения, вызывая потерю данных службы.

Flume Service недоступна

flumeServiceUnavailable

Критический

Flume Service недоступна

Для деталей см. раздел "ALM-24000 Flume Service Unavailable" в MapReduce Service Руководство пользователя.

Flume работает аномально, и служба передачи данных прервана.

Исключение агента Flume

flumeAgentException

Важный

Агент Flume находится в аномальном состоянии.

Для деталей см. раздел "ALM-24001 Flume Agent Exception" в MapReduce Service Руководство пользователя.

Экземпляр агента Flume, для которого сгенерировано предупреждение, не может правильно предоставлять услуги, и задачи передачи данных экземпляра временно прерываются. Данные в режиме реального времени теряются во время передачи данных в реальном времени.

Тревога отключения клиента Flume

flumeClientDisconnected

Критический

Тревога отключения клиента Flume

Для получения подробностей см. раздел "ALM-24003 Flume Client Interrupted" в MapReduce Service Руководство пользователя.

Flume клиент, для которого сгенерировано предупреждение, не может взаимодействовать с сервером Flume, и данные клиента Flume не могут быть отправлены на сервер Flume.

Исключение происходит при чтении данных Flume

exceptionOccursWhenFlumeReadsData

Критический

Исключения происходят, когда Flume читает данные.

Для получения подробностей см. раздел "ALM-24004 Exception Occurs When Flume Reads Data" в MapReduce Service Руководство пользователя.

Если данные найдены в источнике данных и Flume Source постоянно не удаётся считывать данные, сбор данных прекращается.

Исключение происходит, когда Flume передаёт данные

exceptionOccursWhenFlumeTransmitsData

Серьёзный

Исключения происходят, когда flume передаёт данные.

Для получения подробностей см. раздел "ALM-24005 Exception Occurs When Flume Transmits Data" в MapReduce Service Руководство пользователя.

Если использование диска Flume Channel постоянно растёт, время, необходимое для импорта данных в указанное назначение, увеличивается. Когда использование диска Flume Channel достигает 100%, процесс агента Flume приостанавливается.

Файл сертификата Flume недействителен

flumeCertificateFileIsinvalid

Серьёзный

Файл сертификата Flume недействителен или повреждён.

Для получения подробностей см. раздел "ALM-24010 Flume Certificate File Is Invalid or Damaged" в MapReduce Service Руководство пользователя.

Файл сертификата Flume недействителен или повреждён, и клиент Flume не может получить доступ к серверу Flume.

Flume Certificate File Is About to Expire

flumeCertificateFileIsAboutToExpire

Major

Файл сертификата Flume скоро истечёт.

Для получения подробностей см. раздел "ALM-24011 Flume Certificate File Is About to Expire" в MapReduce Service Руководство пользователя.

Файл сертификата Flume скоро истечёт, что не оказывает негативного влияния на систему.

Flume Certificate File Is Expired

flumeCertificateFileIsExpired

Major

Файл сертификата Flume просрочен.

Для подробностей см. раздел "ALM-24012 Flume Certificate File Has Expired" в Руководство пользователя MapReduce Service.

Файл сертификата Flume просрочен, и функции ограничены. Клиент Flume не может получить доступ к серверу Flume.

Файл сертификата Flume MonitorServer недействителен

flumeMonitorServerCertificateFileIsInvalid

Major

Файл сертификата Flume MonitorServer недействителен.

Для подробностей см. раздел "ALM-24013 Flume MonitorServer Certificate File Is Invalid or Damaged" в Руководство пользователя MapReduce Service.

Файл сертификата MonitorServer недействителен или повреждён, и клиент Flume не может получить доступ к серверу Flume.

Срок действия файла сертификата Flume MonitorServer скоро истекает

flumeMonitorServerCertificate FileIsAboutToExpire

Важный

Файл сертификата Flume MonitorServer скоро истечёт.

Для получения подробностей см. раздел "ALM-24014 Flume MonitorServer Certificate Is About to Expire" в MapReduce Service User Guide.

Сертификат MonitorServer скоро истечёт, и это не окажет негативного влияния на систему.

Файл сертификата Flume MonitorServer истёк

flumeMonitorServerCertificateFileIsExpired

Важный

Файл сертификата Flume MonitorServer истёк.

Для получения подробностей см. раздел "ALM-24015 Flume MonitorServer Certificate File Has Expired" в MapReduce Service User Guide.

Файл сертификата MonitorServer истёк, и функции ограничены. Клиент Flume не может получить доступ к серверу Flume.

HDFS Service недоступен

hdfsServiceUnavailable

Критический

Служба HDFS недоступна.

Для получения подробностей смотрите раздел "ALM-14000 HDFS Service Unavailable" в Руководство пользователя MapReduce Service.

HDFS не может предоставлять сервисы для компонентов верхнего уровня, основанных на сервисе HDFS, таких как HBase и MapReduce. В результате пользователи не могут читать или записывать файлы.

NameService Service недоступен

nameServiceServiceUnavailable

Важный

Служба NameService ненормальна.

Для получения подробностей смотрите раздел "ALM-14010 NameService Service Is Abnormal" в Руководство пользователя MapReduce Service.

HDFS не может предоставлять сервисы для компонентов верхнего уровня, основанных на сервисе NameService, таких как HBase и MapReduce. В результате пользователи не могут читать или записывать файлы.

DataNode Data Directory не настроен должным образом

datanodeDataDirectoryIsNotConfiguredProperly

Major

Каталог данных DataNode не настроен должным образом.

Для получения подробностей см. раздел "ALM-14011 DataNode Data Directory Is Not Configured Properly" в MapReduce Service Руководство пользователя.

Если каталог данных DataNode смонтирован на критических каталогах, таких как корневой каталог, пространство диска корневого каталога будет исчерпано после длительной работы. Это приводит к системному сбою.

Если каталог данных DataNode настроен неправильно, производительность HDFS ухудшится.

Journalnode не синхронизирован

journalnodeIsOutOfSynchronization

Major

Данные Journalnode не синхронизированы.

Для получения подробностей см. раздел "ALM-14012 JournalNode Is Out of Synchronization" в MapReduce Service Руководство пользователя.

Когда JournalNode работает некорректно, данные на узле не синхронизируются с данными на других JournalNode. Если данные более чем на половине JournalNode не синхронизированы, NameNode не может работать корректно, из‑за чего сервис HDFS становится недоступным.

Не удалось обновить файл NameNode FsImage

failedToUpdateTheNameNodeFsImageFile

Критический

Не удалось обновить файл NameNode FsImage.

Для получения деталей см. раздел "ALM-14013 Failed to Update the NameNode FsImage File" в MapReduce Service Руководство пользователя.

Если файл FsImage в каталоге данных активного NameNode не обновляется, функция комбинирования метаданных HDFS работает аномально и требует исправления. Если исправление не выполнено, файлы Editlog постоянно увеличиваются после работы HDFS в течение периода. В этом случае перезапуск HDFS занимает много времени, так как необходимо загрузить большое количество файлов Editlog. Кроме того, это оповещение также указывает, что резервный NameNode находится в ненормальном состоянии, и механизм высокой доступности (HA) NameNode становится недействительным. Когда активный NameNode выходит из строя, сервис HDFS становится недоступным.

Ошибка диска DataNode

datanodeDiskFault

Major

Диск DataNode неисправен.

Для получения подробностей смотрите раздел "ALM-14027 DataNode Disk Fault" в MapReduce Service Руководство пользователя.

Если получено оповещение о неисправности диска DataNode, на DataNode существует повреждённый раздел диска. В результате записанные файлы могут быть потеряны.

Yarn Service недоступен

yarnServiceUnavailable

Critical

Служба Yarn недоступна.

Для получения подробной информации см. раздел "ALM-18000 Yarn Service Unavailable" в MapReduce Service Руководство пользователя.

Кластер не может предоставить сервис Yarn. Пользователи не могут запускать новые приложения. Отправленные приложения не могут быть запущены.

NodeManager Heartbeat потерян

nodemanagerHeartbeatLost

Major

NodeManager heartbeat утрачена.

Для получения подробной информации см. раздел "ALM-18002 NodeManager Heartbeat Lost" в MapReduce Service Руководство пользователя.

Потерянный узел NodeManager не может предоставить сервис Yarn.

Количество контейнеров уменьшается, поэтому производительность кластера ухудшается.

NodeManager в плохом состоянии

nodemanagerUnhealthy

Major

NodeManager находится в нездоровом состоянии.

Для получения подробной информации см. раздел "ALM-18003 NodeManager Unhealthy" в MapReduce Service Руководство пользователя.

Неисправный узел NodeManager не может предоставлять сервис Yarn.

Количество контейнеров уменьшается, поэтому производительность кластера ухудшается.

Тайм‑аут приложения Yarn

yarnApplicationTimeout

Незначительный

Выполнение задачи Yarn завершилось с тайм‑аутом.

Для получения подробной информации см. раздел "ALM-18020 Yarn Task Execution Timeout" в MapReduce Service Руководство пользователя.

Сигнал тревоги сохраняется после тайм‑аута выполнения задачи. Однако задача всё ещё может быть выполнена корректно, поэтому этот сигнал тревоги не оказывает никакого влияния на систему.

MapReduce Service недоступен

mapreduceServiceUnavailable

Критический

Служба MapReduce недоступна.

Для получения подробностей смотрите раздел "ALM-18021 MapReduce Service Unavailable" в Руководство пользователя службы MapReduce.

Кластер не может предоставить службу MapReduce. Например, MapReduce нельзя использовать для просмотра журналов задач, а функция архивирования журналов недоступна.

Недостаточно ресурсов очереди Yarn

insufficientYarnQueueResources

Незначительный

Ресурсы очереди Yarn недостаточны.

Для получения подробностей смотрите раздел "ALM-18022 Insufficient Yarn Queue Resources" в Руководство пользователя службы MapReduce.

Для завершения приложения требуется много времени.

Новое приложение не может работать длительное время после отправки.

Служба HBase недоступна

hbaseServiceUnavailable

Критический

Служба HBase недоступна.

Подробнее см. раздел "ALM-19000 HBase Service Unavailable" в MapReduce Service Руководство пользователя.

Операции не могут быть выполнены, например чтение или запись данных и создание таблиц.

Путь к системной таблице или файл HBase отсутствует

systemTablePathOrFileOfHBaseIsMissing

Критический

Каталоги таблиц или файлы системы HBase потеряны.

Подробнее см. раздел "ALM-19012 HBase System Table Directory or File Lost" в MapReduce Service Руководство пользователя.

Служба HBase не может перезапуститься или запуститься.

Hive Service недоступен

hiveServiceUnavailable

Критический

Сервис Hive недоступен.

Для подробностей см. раздел "ALM-16004 Hive Service Unavailable" в MapReduce Service Руководство пользователя.

Hive не может предоставлять услуги загрузки данных, запросов и извлечения.

Hive Data Warehouse удалён

hiveDataWarehouseIsDeleted

Критический

Хранилище данных Hive удалено.

Для подробностей см. раздел "ALM-16045 Hive Data Warehouse Is Deleted" в MapReduce Service Руководство пользователя.

Если удалено хранилище данных Hive по умолчанию, базы данных и таблицы не могут быть созданы в хранилище данных по умолчанию, что влияет на использование сервиса.

Разрешения Hive Data Warehouse изменены

hiveDataWarehousePermissionIsModified

Критический

Разрешения хранилища данных Hive изменены.

Для получения подробной информации см. раздел "ALM-16046 Hive Data Warehouse Permission Is Modified" в MapReduce Service Руководство пользователя.

Если разрешения в хранилище данных Hive по умолчанию изменены, разрешения для пользователей или групп пользователей создавать базы данных или таблицы в хранилище данных по умолчанию будут затронуты. Разрешения будут расширены или сокращены.

HiveServer был снят с регистрации в zookeeper

hiveServerHasBeenDeregisteredFromZookeeper

Major

HiveServer был снят с регистрации в zookeeper.

Для получения подробной информации см. раздел "ALM-16047 HiveServer Has Been Deregistered from ZooKeeper" в MapReduce Service Руководство пользователя.

Если конфигурации Hive невозможно прочитать из ZooKeeper, HiveServer будет недоступен.

Путь к библиотеке Tez или Spark не существует

tezlibOrSparklibIsNotExist

Major

Путь к библиотеке tez или spark не существует.

Для получения подробной информации см. раздел "ALM-16048 Tez or Spark Library Path Does Not Exist" в MapReduce Service User Guide.

Функции Hive on Tez и Hive on Spark затронуты.

Hue Service Unavailable

hueServiceUnavailable

Критический

Сервис Hue недоступен.

Для получения подробной информации см. раздел "ALM-20002 Hue Service Unavailable" в MapReduce Service User Guide.

Система не может предоставлять услуги по загрузке данных, запросам и извлечению.

Impala Service Unavailable

impalaServiceUnavailable

Критический

Сервис Impala недоступен.

Для получения подробной информации см. раздел "ALM-29000 Impala Service Unavailable" в MapReduce Service Руководство пользователя.

Сервис Impala находится в аварийном состоянии. Операции с кластером нельзя выполнить на Impala в FusionInsight Manager, и функции сервиса Impala не могут быть использованы.

Kafka Service недоступен.

kafkaServiceUnavailable

Критический

Сервис Kafka недоступен.

Для получения подробной информации см. раздел "ALM-38000 Kafka Service Unavailable" в MapReduce Service Руководство пользователя.

Кластер не может предоставлять сервис Kafka, и пользователи не могут выполнять новые задачи Kafka.

Статус стандартного пользователя Kafka в аварийном состоянии

statusOfKafkaDefaultUserIsAbnormal

Критический

Состояние пользователя Kafka по умолчанию аномально.

Для получения подробностей смотрите раздел "ALM-38007 Status of Kafka Default User Is Abnormal" в MapReduce Service Руководство пользователя.

Если состояние пользователя Kafka по умолчанию аномально, синхронизация метаданных между Brokers и взаимодействие между Kafka и ZooKeeper будут затронуты, что повлияет на производство сервисов, их потребление и создание и удаление тем.

Аномальное состояние каталога данных Kafka

abnormalKafkaDataDirectoryStatus

Критичный

Состояние каталога данных Kafka аномально.

Для получения подробностей смотрите раздел "ALM-38008 Abnormal Kafka Data Directory Status" в MapReduce Service Руководство пользователя.

Если состояние каталога данных Kafka аномально, текущие реплики всех разделов в каталоге данных выводятся из онлайн-режима, и состояние каталога данных нескольких узлов становится аномальным одновременно. В результате некоторые разделы могут стать недоступными.

Topics with Single Replica

topicsWithSingleReplica

Warning

Тема с одной репликой существует.

Для подробностей см. раздел "ALM-38010 Topics with Single Replica" в MapReduce Service User Guide.

Существует риск единой точки отказа (SPOF) для тем с только одной репликой. Когда узел, на котором находится реплика, становится аномальным, раздел не имеет лидера, и сервисы в теме затронуты.

KrbServer Service Unavailable

krbServerServiceUnavailable

Critical

Сервис KrbServer недоступен.

Для подробностей см. раздел "ALM-25500 KrbServer Service Unavailable" в MapReduce Service User Guide.

Когда генерируется эта тревога, операции для компонента KrbServer в кластере выполнить нельзя. Аутентификация KrbServer в других компонентах будет затронута. Состояние работы компонентов, зависящих от KrbServer в кластере, неисправно.

Kudu Service Недоступен

kuduServiceUnavailable

Критический

Сервис Kudu недоступен.

Для получения подробностей см. раздел "ALM-29100 Kudu Service Unavailable" в MapReduce Service Руководство пользователя.

Пользователи не могут использовать сервис Kudu.

LdapServer Service Недоступен

ldapServerServiceUnavailable

Критический

Сервис LdapServer недоступен.

Для получения подробностей см. раздел "ALM-25000 LdapServer Service Unavailable" в MapReduce Service Руководство пользователя.

Когда генерируется эта тревога, для пользователей KrbServer и пользователей LdapServer в кластере нельзя выполнять операции. Например, пользователи, группы пользователей или роли не могут быть добавлены, удалены или изменены, а пароли пользователей не могут быть изменены на портале FusionInsight Manager. Аутентификация существующих пользователей в кластере не затронута.

Ненормальная LdapServer Синхронизация Данных

abnormalLdapServerDataSynchronization

Критический

Синхронизация данных LdapServer ненормальна.

Подробнее см. раздел "ALM-25004 Abnormal LdapServer Data Synchronization" в MapReduce Service Руководство пользователя.

Несоответствие данных LdapServer происходит из‑за повреждения данных LdapServer на Manager или в кластере. Процесс LdapServer с повреждёнными данными не может предоставлять услуги внешне, и функции аутентификации Manager и кластера затронуты.

Nscd Service Ненормален

nscdServiceIsAbnormal

Важный

Служба Nscd является аномальной.

Для получения подробностей см. раздел "ALM-25005 nscd Service Exception" в MapReduce Service User Guide.

Если служба Nscd является аномальной, узел может не синхронизировать данные с LDAP сервером. В этом случае запуск команды id может не получить данные с LDAP сервера, что влияет на сервисы верхнего уровня.

Служба Sssd является аномальной

sssdServiceIsAbnormal

Major

Служба Sssd является аномальной.

Для получения подробностей см. раздел "ALM-25006 Sssd Service Exception" в MapReduce Service User Guide.

Если служба Sssd является аномальной, узел может не синхронизировать данные с LdapServer. В этом случае запуск команды id может не получить данные LDAP, что влияет на сервисы верхнего уровня.

Служба загрузчика недоступна

loaderServiceUnavailable

Критический

Служба Loader недоступна.

Для получения подробностей см. раздел "ALM-23001 Loader Service Unavailable" в MapReduce Service Руководство пользователя.

Когда служба Loader недоступна, функции загрузки данных, импорта и преобразования недоступны.

Служба Oozie недоступна.

oozieServiceUnavailable

Критический

Служба Oozie недоступна.

Для получения подробностей см. раздел "ALM-17003 Oozie Service Unavailable" в MapReduce Service Руководство пользователя.

Службу Oozie нельзя использовать для отправки заданий.

Служба Ranger недоступна.

rangerServiceUnavailable

Критический

Служба Ranger недоступна.

Для получения подробностей см. раздел "ALM-45275 Ranger Service Unavailable" в MapReduce Service User Guide.

Когда служба Ranger недоступна, Ranger не может работать должным образом, и нативный UI Ranger недоступен.

Ненормальный статус RangerAdmin

abnormalRangerAdminStatus

Серьёзный

Статус RangerAdmin ненормален.

Для получения подробностей см. раздел "ALM-45276 Abnormal RangerAdmin Status" в MapReduce Service User Guide.

Если статус одного RangerAdmin ненормален, доступ к нативному UI Ranger не нарушается. Если статус двух RangerAdmin ненормален, нативный UI Ranger недоступен, и операции, такие как создание, изменение и удаление политик, выполнить нельзя.

Spark2x Service Unavailable

spark2xServiceUnavailable

Критический

Сервис Spark2x недоступен.

Для получения подробностей см. раздел "ALM-43001 Spark2x Service Unavailable" в MapReduce Service Руководство пользователя.

Задачи Spark, отправленные пользователями, не могут быть выполнены.

Storm Service недоступен

stormServiceUnavailable

Критический

Сервис Storm недоступен.

Для получения подробностей см. раздел "ALM-26051 Storm Service Unavailable" в MapReduce Service Руководство пользователя.

Кластер не может предоставлять сервис Storm извне, и пользователи не могут выполнять новые задачи Storm.

ZooKeeper Service недоступен

zooKeeperServiceUnavailable

Критический

Сервис ZooKeeper недоступен.

Для получения деталей смотрите раздел "ALM-13000 ZooKeeper Service Unavailable" в MapReduce Service Руководство пользователя.

ZooKeeper не предоставляет координационные сервисы для компонентов верхнего уровня, и компоненты, зависящие от ZooKeeper, могут работать некорректно.

Не удалось установить квоту верхних каталогов компонента ZooKeeper

failedToSetTheQuotaOfTopDirectoriesOfZooKeeperComponent

Незначительный

Квота верхних каталогов компонентов ZooKeeper не была настроена.

Для получения деталей смотрите раздел "ALM-13005 Failed to Set the Quota of Top Directories of ZooKeeper Components" в MapReduce Service Руководство пользователя.

Компоненты могут записывать большой объём данных в каталог верхнего уровня ZooKeeper. В результате сервис ZooKeeper недоступен.