Имя ресурса, поддерживающего отчёт о событиях, может содержать максимум 128 символов, включая буквы, цифры, подчёркивания (_), дефисы (-) и точки (.). Если оно содержит другие символы, событие может не быть отправлено в Cloud Eye.
Источник события | Имя события | ID события | Тяжесть события | Описание | Решение | Влияние |
|---|---|---|---|---|---|---|
ECS | Перезапуск инициирован из‑за системных сбоев | startAutoRecovery | Критический | ECS, находящиеся на неисправном хосте, будут автоматически перенесены на другой правильно работающий хост. Во время миграции ECS были перезапущены. | Подождите завершения события и проверьте, затронуты ли сервисы. | Сервисы могут быть прерваны. |
Перезапуск завершён из‑за системных сбоев | endAutoRecovery | Major | ECS был восстановлен после автоматической миграции. | Это событие указывает на то, что ECS восстановлен и работает должным образом. | None | |
Тайм‑аут автоматического восстановления (обрабатывается на backend) | faultAutoRecovery | Major | Время миграции ECS на обычный хост истекло. | Переместите сервисы на другие ECS. | Сервисы прерваны. | |
Сбой линии GPU | GPULinkFault | Critical | GPU Хоста, на котором размещён ECS, был неисправен или восстанавливался после сбоя. | Деплой сервисных приложений в режиме HA. После устранения неисправности GPU проверьте, восстановлены ли сервисы. | Сервисы прерваны. | |
ECS удалён | deleteServer | Критический | ECS был удалён.
| Проверьте, было ли удаление выполнено намеренно пользователем. | Сервисы прерваны. | |
ECS перезапущен | rebootServer | Незначительный | ECS был перезапущен.
| Проверьте, был ли перезапуск выполнен намеренно пользователем.
| Сервисы прерваны. | |
ECS был остановлен | stopServer | Незначительный | ECS был остановлен
ПРИМЕЧАНИЕ: ECS останавливается только после включения CTS. Подробнее см Cloud Trace Service User Guide. |
| Сервисы прерваны. | |
NIC удалён | deleteNic | Критический | ECS NIC был удалён
|
| Сервисы могут быть прерваны. | |
ECS изменён | resizeServer | Minor | Спецификации ECS были изменены
|
| Сервисы прерваны. | |
GuestOS перезапущен | Перезапуск гостевой ОС | Незначительный | Гостевая ОС была перезапущена. | Обратитесь к персоналу O&M. | Сервисы могут быть прерваны. | |
Сбой ECS, вызванный системными ошибками | VMFaultsByHostProcessExceptions | Критический | Хост, на котором расположен ECS, неисправен. Система автоматически попытается запустить ECS. | После запуска ECS проверьте, могут ли этот ECS и сервисы на нём работать корректно. | ECS неисправен. | |
Ошибка запуска | Ошибка включения | Серьёзный | Не удалось запустить ECS. | Запустите ECS повторно. Если проблема сохраняется, обратитесь к персоналу O&M. | ECS не может запуститься. | |
Риск отказа хоста | hostMayCrash | Критический | Хост, на котором размещён ECS, может выйти из строя, и риск нельзя предотвратить с помощью живой миграции по некоторым причинам. | Переместите сервисы, работающие на ECS, сначала и удалите или остановите ECS. Запустите ECS только после того, как персонал O&M устранит риск. | Хост может выйти из строя, вызывая прерывание сервиса. | |
Запланированная миграция завершена | instance_migrate_completed | Критический | Запланированная миграция ECS завершена. | Подождите, пока ECS станут доступными, и проверьте, затронуты ли сервисы. | Сервисы могут быть прерваны. | |
Запланированная миграция выполняется | instance_migrate_executing | Критический | ECS мигрируются по расписанию. | Подождите, пока событие завершится, и проверьте, затронуты ли сервисы. | Сервисы могут быть прерваны. | |
Запланированная миграция отменена | instance_migrate_canceled | Major | Запланированная миграция ECS отменена. | None | None | |
Запланированная миграция не выполнена | instance_migrate_failed | Major | ECS не удалось мигрировать в соответствии с расписанием. | Обратитесь к сотрудникам O&M. | Сервисы прерваны. | |
Запланированная миграция будет выполнена | instance_migrate_scheduled | Major | ECS будут мигрированы в соответствии с расписанием. | Проверьте влияние на сервисы в окно выполнения. | None | |
Запланированное изменение спецификации не удалось | instance_resize_failed | Критический | Не удалось изменить спецификации в соответствии с расписанием. | Обратитесь к персоналу O&M. | Сервисы прерваны. | |
Запланированное изменение спецификации выполнено | instance_resize_completed | Критический | Запланированное изменение спецификаций выполнено. | Нет | Нет | |
Запланированное изменение спецификации выполняется | instance_resize_executing | Критический | Спецификации изменяются в соответствии с расписанием. | Подождите завершения события и проверьте, затронуты ли сервисы. | Сервисы прерваны. | |
Запланированное изменение спецификации отменено | instance_resize_canceled | Major | Запланированное изменение спецификаций отменено. | None | None | |
Запланированное изменение спецификации будет выполнено | instance_resize_scheduled | Major | Спецификации будут изменены согласно расписанию. | Проверьте влияние на сервисы во время окна выполнения. | None | |
Запланированное переразвёртывание будет выполнено | instance_redeploy_scheduled | Major | ECSs будут переразвернуты на новых хостах согласно расписанию. | Проверьте влияние на сервисы во время окна выполнения. | None | |
Запланированный перезапуск будет выполнен | instance_reboot_scheduled | Major | ECS будут перезапущены согласно расписанию. | Проверьте влияние на сервисы во время окна выполнения. | Нет | |
Запланированная остановка будет выполнена | instance_stop_scheduled | Major | ECS будут остановлены согласно расписанию, так как они затронуты базовым оборудованием или системным O&M. | Проверьте влияние на сервисы во время окна выполнения. | Нет | |
Live миграция начата | liveMigrationStarted | Major | Хост, где расположен ECS, может быть неисправен. Выполните Live миграцию ECS заранее, чтобы предотвратить сбои в работе, вызванные поломкой хоста. | Дождитесь завершения события и проверьте, затронуты ли сервисы. | Сервисы могут быть прерваны менее чем на 1s. | |
Live migration завершена | liveMigrationCompleted | Критический | Live migration завершена, и ECS работает должным образом. | Проверьте, работают ли сервисы должным образом. | Нет | |
Live migration failure | liveMigrationFailed | Критический | Во время Live migration ECS произошла ошибка. | Проверьте, работают ли сервисы должным образом. | Существует низкая вероятность прерывания сервисов. | |
Сгенерирована тревога о некорректируемой ошибке ECC на GPU SRAM | SRAMUncorrectableEccError | Критический | Сгенерированы некорректируемые ошибки ECC на GPU SRAM. | Если сервисы затронуты, отправьте запрос в службу поддержки. | Аппаратное обеспечение GPU может быть неисправным. В результате SRAM неисправен, и сервисы завершаются аномально. | |
Сбой связи FPGA | FPGALinkFault | Critical | FPGA хоста, на котором расположен ECS, был
| Развернуть сервисные приложения в режиме HA. После устранения сбоя FPGA проверьте, восстановлены ли сервисы. | Сервисы прерваны. | |
Запланированное переразвертывание должно быть одобрено | instance_redeploy_inquiring | Major | В случае влияния базового оборудования или системного O&M, ECS будут переразвернуты на новых хостах согласно расписанию. | Одобрить запланированное переразвертывание. | None | |
Замена локального диска отменена | localdisk_recovery_canceled | Major | Отказ локального диска | Нет | Нет | |
Замена локального диска будет выполнена | localdisk_recovery_scheduled | Major | Отказ локального диска | Проверьте влияние на сервисы в течение окна выполнения. | Нет | |
Событие тревоги Xid сгенерировано на GPU | commonXidError | Major | Событие тревоги xid происходит на GPU. | Если сервисы затронуты, откройте заявку в службу поддержки. | Проблемы с оборудованием GPU, драйвером и приложениями приводят к событиям Xid, что может вызвать некорректный выход бизнес‑приложений. | |
nvidia-smi suspended | nvidiaSmiHangEvent | Major | nvidia-smi превысил время ожидания. | Если сервисы затронуты, отправьте заявку в службу поддержки. | Драйвер может сообщать об ошибке во время работы сервиса. | |
NPU: некорректируемая ошибка ECC | UncorrectableEccErrorCount | Major | На GPU SRAM возникли некорректируемые ошибки ECC. | Если сервисы затронуты, замените NPU другим. | Сервисы могут быть прерваны. | |
Запланированное переразвертывание отменено | instance_redeploy_canceled | Major | Поскольку они затронуты нижележающим оборудованием или системным O&M, ECSs будут переразвернуты на новых хостах согласно расписанию. | Нет | Нет | |
Выполняется запланированное переразвертывание | instance_redeploy_executing | Major | Поскольку затронуты базовое оборудование или система O&M, ECSs будут переразвернуты на новых хостах по расписанию. | Подождите, пока событие завершится, и проверьте, затронуты ли сервисы. | Сервисы прерваны. | |
Scheduled redeployment completed | instance_redeploy_completed | Major | Поскольку затронуты базовое оборудование или система O&M, ECSs будут переразвернуты на новых хостах по расписанию. | Подождите, пока переразвернутые ECSs станут доступными, и проверьте, затронуты ли сервисы. | None | |
Scheduled redeployment failed | instance_redeploy_failed | Major | Поскольку затронуты базовое оборудование или система O&M, ECSs будут переразвернуты на новых хостах по расписанию. | Свяжитесь с персоналом O&M. | Сервисы прерваны. | |
Требуется авторизация замены локального диска | localdisk_recovery_inquiring | Major | Локальные диски неисправны. | Авторизуйте замену локального диска. | Локальные диски недоступны. | |
Локальные диски заменяются | localdisk_recovery_executing | Major | Сбой локального диска | Подождите, пока локальные диски заменятся, и проверьте, доступны ли локальные диски. | Локальные диски недоступны. | |
Локальные диски заменены | localdisk_recovery_completed | Major | Сбой локального диска | Подождите, пока сервисы работают корректно, и проверьте, доступны ли локальные диски. | Нет | |
Не удалось заменить локальный диск | localdisk_recovery_failed | Критичный | Локальные диски неисправны. | Обратитесь к персоналу O&M. | Локальные диски недоступны. | |
NPU: устройство не найдено по информации npu-smi | NPUSMICardNotFound | Критичный | Драйвер Ascend неисправен или NPU отключён. | Передайте эту проблему команде Ascend или аппаратной команде для обработки. | NPU нельзя использовать нормально. | |
NPU: ошибка PCIe link | PCIeErrorFound | Критичный | Возможная причина — переполнение deskew_fifo, событие symbol_unlock, deskew_unlock или тайм‑аут phystatus. | Передайте эту проблему аппаратной команде для обработки. | NPU не может использоваться должным образом. | |
NPU: устройство не найдено с помощью lspci | LspciCardNotFound | Major | NPU отключён. | Передайте эту проблему в аппаратную команду для обработки. | NPU не может использоваться нормально. | |
NPU: перегрев | TemperatureOverUpperLimit | Major | Температура DDR или программного обеспечения слишком высока. | Остановите службы, перезапустите BMS, проверьте систему охлаждения и сбросьте устройства. | ECS может быть выключен из‑за перегрева, и устройства могут не быть найдены. | |
NPU: запрос на перезапуск экземпляра | RebootVirtualMachine | Informational | Возникла неисправность, и BMS необходимо перезапустить. | Соберите информацию об ошибке, и перезапустите BMS. | Сервисы могут быть прерваны. | |
NPU: запрос на сброс SoC | ResetSOC | Информационный | Произошла ошибка, и необходимо сбросить SoC. | Соберите информацию об ошибке, и сбросьте SoC. | Сервисы могут быть прерваны. | |
NPU: запрос на перезапуск процесса AI | RestartAIProcess | Информационный | Произошла ошибка, и процесс AI необходимо перезапустить. | Соберите информацию об ошибке, и перезапустите процесс AI. | Текущая задача AI будет прервана. | |
NPU: коды ошибок | NPUErrorCodeWarning | Критический | Возвращается большое количество кодов ошибок NPU, указывающих на критические или более высокоуровневые ошибки. Вы можете дополнительно определить неисправности на основе кодов ошибок. | Найдите неисправности согласно Список информации о кодах ошибок Black Box и Определение ошибок управления здоровьем. | Сервисы могут быть прерваны. | |
DAVP: узел устройства не найден vasme | DAVPSMICardNotFound | Критический | Драйвер может быть неисправен, или карта может быть отключена. | Перезапустите VM. Если устройство всё ещё не может быть загружено, передайте эту проблему команде аппаратного обеспечения для обработки. | DAVP не может использоваться корректно. | |
DAVP: устройство не найдено lspci | DAVPLspciCardNotFound | Критический | DAVP отключён. | Переведите эту проблему в команду аппаратного обеспечения для обработки. | DAVP не может использоваться должным образом. | |
DAVP: температура выше порогового значения 85°C | TemperatureOverDfLimit | Критический | Температура основного модуля превышает 85°C, что приводит к снижению частоты. | Остановите сервисы. Свяжитесь с командой аппаратного обеспечения, чтобы проверить систему охлаждения и перезагрузить устройство. | Частота карты DAVP снижена. | |
DAVP: температура выше порогового значения 105°C | TemperatureOverSdLimit | Критический | Температура основного модуля превышает 105°C, что вызывает сигнал тревоги о высокой температуре. | Остановите сервисы. Свяжитесь с командой аппаратного обеспечения, чтобы проверить систему охлаждения и перезагрузить устройство. | Сработала защита от отключения питания. DAVP не может использоваться должным образом. | |
DAVP: исключение ядра устройства в узле | DeviceCoreAbnormal | Major | Возможно, вам потребуется перезапустить узел устройства die. | Соберите информацию об ошибке и перезапустите die. | Сервисы могут быть прерваны. | |
GPU NVML library API ошибка | gpuNvmlApiError | Major | Неизвестные ошибки существуют в API питания, часов или вентилятора библиотеки NVML, предоставляемой драйвером GPU. | Перезапустите сервер или обновите драйвер. Если ошибка сохраняется, передайте эту проблему команде аппаратного обеспечения. | GPU могут быть недоступны. | |
VM ошибка удаления | faultDeleteServer | Major | Не удалось удалить ECS. Проверьте, затронуты ли сервисы. Не удалось удалить ресурсы ECS. | Не удалось удалить ECS. | Проверьте, затронуты ли сервисы. |
Автоматическое восстановление: Если оборудование, на котором расположен ECS, неисправно, система автоматически перемещает его на обычный физический хост. ECS перезапустится во время миграции.
Источник события | Пространство имён | Имя события | ID события | Серьёзность события | Описание | Решение | Влияние |
|---|---|---|---|---|---|---|---|
EIP | SYS.EIP | Превышена пропускная способность EIP | EIPBandwidthOverflow | Критический | Используемая пропускная способность превысила приобретённую, что может замедлить сеть или вызвать потерю пакетов. Значение этого события — максимальное значение за период мониторинга, а значение входящей и исходящей пропускной способности EIP — значение в конкретный момент времени за этот период. Метрики описываются следующим образом: egressDropBandwidth: потерянные исходящие пакеты (байты) egressAcceptBandwidth: принятые исходящие пакеты (байты) egressMaxBandwidthPerSec: пиковая исходящая пропускная способность (byte/s) ingressAcceptBandwidth: принятые входящие пакеты (байты) ingressMaxBandwidthPerSec: пиковая входящая пропускная способность (byte/s) ingressDropBandwidth: потерянные входящие пакеты (байты) | Проверьте, продолжает ли увеличиваться пропускная способность EIP и нормальны ли сервисы. Увеличьте пропускную способность при необходимости. | Сеть становится медленной или пакеты теряются. |
EIP освобожден | deleteEip | Незначительный | EIP был освобожден. | Проверьте, был ли EIP освобожден по ошибке. | Сервер, к которому привязан EIP, не может получить доступ к Интернету. | ||
EIP заблокирован | blockEIP | Критический | Используемая пропускная способность EIP превысила 5 Gbit/s, EIP были заблокированы, и пакеты были отброшены. Такое событие может быть вызвано атаками DDoS. | Замените EIP, чтобы предотвратить влияние на сервисы. Найдите и устраните неисправность. | Сервисы затронуты. | ||
EIP разблокирован | unblockEIP | Критический | EIP был разблокирован. | Используйте предыдущий EIP еще раз. | Нет | ||
EIP очистка трафика началась | ddosCleanEIP | Серьёзный | Очистка трафика на EIP была начата для предотвращения DDoS-атак. | Проверьте, был ли атакован EIP. | Службы могут быть прерваны. | ||
EIP очистка трафика завершена | ddosEndCleanEip | Серьёзный | Очистка трафика на EIP для предотвращения DDoS-атак была завершена. | Проверьте, был ли атакован EIP. | Службы могут быть прерваны. | ||
Превышена пропускная способность QoS | EIPBandwidthRuleOverflow | Серьёзный | Используемая пропускная способность QoS превысила выделенную, что может замедлить сеть или вызвать потерю пакетов. Значение этого события — максимальное значение за период мониторинга, а значение входящей и исходящей пропускной способности EIP — значение в конкретный момент времени в этом периоде. egressDropBandwidth: отброшенные исходящие пакеты (bytes) egressAcceptBandwidth: принятые исходящие пакеты (bytes) egressMaxBandwidthPerSec: пиковая исходящая пропускная способность (byte/s) ingressAcceptBandwidth: принятые входящие пакеты (bytes) ingressMaxBandwidthPerSec: пиковая входящая пропускная способность (byte/s) ingressDropBandwidth: отброшенные входящие пакеты (bytes) | Проверьте, продолжается ли рост пропускной способности EIP и находятся ли службы в нормальном состоянии. Увеличьте пропускную способность при необходимости. | Сеть становится медленной или пакеты теряются. |
Источник события | Пространство имён | Имя события | ID события | Серьёзность события | Описание | Решение | Воздействие |
|---|---|---|---|---|---|---|---|
ELB | SYS.ELB | Серверы бэкэнда находятся в нездоровом состоянии. | healthCheckUnhealthy | Критический | Как правило, эта проблема возникает из‑за того, что службы бэкэнд‑серверов отключены. Это событие не будет сообщаться после того, как оно будет зафиксировано несколько раз. | Убедитесь, что серверы бэкэнда работают корректно. | ELB не перенаправляет запросы к нездоровым серверным узлам. Если все серверные узлы в группе серверных узлов обнаружены нездоровыми, службы будут прерваны. |
Сервер бэкенда обнаружен здоровым. | healthCheckRecovery | Незначительный | Сервер бэкенда обнаружен здоровым. | Дополнительные действия не требуются. | Балансировщик нагрузки может корректно направлять запросы к серверу бэкенда. |
Источник события | Имя события | ID события | Серьезность события | Описание | Решение | Влияние |
|---|---|---|---|---|---|---|
CBR | Не удалось создать бэкап. | backupFailed | Критический | Не удалось создать бэкап. | Создайте бэкап вручную или обратитесь в службу поддержки. | Потеря данных может произойти. |
Не удалось восстановить ресурс с помощью бэкапа. | restorationFailed | Критический | Не удалось восстановить ресурс с использованием бэкапа. | Восстановите ресурс с помощью другого бэкапа или обратитесь в службу поддержки. | Потеря данных может произойти. | |
Не удалось удалить бэкап. | backupDeleteFailed | Критический | Не удалось удалить бэкап. | Повторите попытку позже или обратитесь в службу поддержки. | Зарядка может быть аномальной. | |
Не удалось удалить хранилище. | vaultDeleteFailed | Критический | Не удалось удалить хранилище. | Повторите попытку позже или обратитесь в техническую поддержку. | Зарядка может быть аномальной. | |
Сбой репликации | replicationFailed | Критический | Не удалось реплицировать бэкап. | Повторите попытку позже или обратитесь в техническую поддержку. | Возможно возникновение потери данных. | |
Бэкап успешно создан. | backupSucceeded | Серьёзный | Бэкап создан. | Нет | Нет | |
Восстановление ресурса с помощью бэкапа успешно завершено. | restorationSucceeded | Серьёзный | Ресурс был восстановлен с помощью бэкапа. | Проверьте, успешно ли восстановлены данные. | None | |
Бэкап успешно удалён. | backupDeletionSucceeded | Серьёзный | Бэкап был удалён. | None | None | |
Хранилище удалено успешно. | vaultDeletionSucceeded | Серьёзный | Хранилище было удалено. | None | None | |
Успех репликации | replicationSucceeded | Серьёзный | Бэкап был реплицирован успешно. | None | None | |
Клиент не в сети | agentOffline | Критический | Бэкап клиент был отключён. | Убедитесь, что статус Agent нормален и к бэкап клиенту можно подключиться . | Бэкап задачи могут завершиться с ошибкой. | |
Клиент онлайн | agentOnline | Серьезный | Бэкап клиент был онлайн. | Нет | Нет |
Источник события | Пространство имен | Имя события | ID события | Серьезность события | Описание | Решение | Влияние |
|---|---|---|---|---|---|---|---|
RDS | SYS.RDS | Ошибка создания экземпляра DB | createInstanceFailed | Критичный | Как правило, причина заключается в том, что количество дисков недостаточно из‑за ограничений квоты, или базовые ресурсы исчерпаны. | Выбранные спецификации ресурса недостаточны. Выберите другие доступные спецификации и повторите попытку. | Экземпляры DB не могут быть созданы. |
Ошибка полного бэкапа | fullBackupFailed | Критичный | Один отдельный сбой полного бэкапа не влияет на файлы, которые были успешно сохранены, но удлиняет время инкрементального бэкапа при восстановлении в определённый момент времени (PITR). | Повторить. | Восстановление с использованием бэкапов будет затронуто. | ||
Ошибка продвижения Read-реплики | activeStandBySwitchFailed | Критический | Резервный DB‑экземпляр не берет на себя рабочие нагрузки с основного DB‑экземпляра из‑за сбоев сети или сервера. Исходный основной DB‑экземпляр продолжает предоставлять услуги в течение короткого времени. | Повторите операцию в часы непикового трафика. | Сбой продвижения Read-реплики. | ||
Состояние репликации ненормальное | abnormalReplicationStatus | Критический | Возможные причины следующие: Задержка репликации между основным экземпляром и резервным экземпляром или Read-репликой слишком велика, что обычно происходит при записи большого объёма данных в базы данных или обработке крупной транзакции. В часы пик данные могут блокироваться. Сеть между основным экземпляром и резервным экземпляром или Read-репликой отключена. | Проблема устраняется. Пожалуйста, дождитесь наших уведомлений. | Состояние репликации ненормально. | ||
Состояние репликации восстановлено | replicationStatusRecovered | Критичный | Задержка репликации между основным и резервным экземплярами находится в пределах нормального диапазона, либо сетевое соединение между ними восстановилось. | Проверьте, работают ли сервисы должным образом. | Состояние репликации восстановлено. | ||
Экземпляр DB неисправен | faultyDBInstance | Критичный | Отдельный или основной экземпляр DB был неисправен из‑за катастрофического сбоя, например, сбоя сервера. | Проблема исправляется. Пожалуйста, дождитесь наших уведомлений. | Состояние экземпляра ненормально. | ||
Экземпляр DB восстановлен | DBInstanceRecovered | Критичный | RDS восстанавливает резервный экземпляр DB с использованием высокой доступности. После восстановления экземпляра это событие будет отражено. | Состояние экземпляра DB в норме. Проверьте, работают ли службы должным образом. | Экземпляр восстановлен. | ||
Сбой при изменении одиночного экземпляра DB на основной/резервный | singleToHaFailed | Критический | Ошибка возникает, когда RDS создает резервный экземпляр DB или настраивает репликацию между основным и резервным экземплярами DB. Ошибка может возникнуть из‑за недостатка ресурсов в центре обработки данных, где находится резервный экземпляр DB. | Автоматическая повторная попытка выполняется. | Не удалось изменить одиночный экземпляр DB на основной/резервный. | ||
Процесс базы данных перезапущен | DatabaseProcessRestarted | Критический | Процесс базы данных остановлен из‑за недостатка памяти или высокой нагрузки. | Проверьте, работают ли службы должным образом. | Основной экземпляр перезапущен. Службы прерываются на короткое время. | ||
Хранилище экземпляра заполнено | instanceDiskFull | Критический | Обычно причина в том, что использование объёма данных слишком велико. | Увеличьте объём хранилища. | Хранилище экземпляра использовано полностью. Данные нельзя записать в базы данных. | ||
Хранилище экземпляра полностью восстановлено | instanceDiskFullRecovered | Критический | Диск экземпляра восстановлен. | Проверьте, работают ли службы должным образом. | У экземпляра есть доступное хранилище. | ||
Ошибка соединения с Kafka | kafkaConnectionFailed | Критический | Сеть нестабильна или сервер Kafka работает неправильно. | Проверьте, затронуты ли службы. | Отсутствует |
Источник события | Пространство имён | Имя события | ID события | Серьёзность события | Описание | Решение | Воздействие |
|---|---|---|---|---|---|---|---|
DDS | SYS.DDS | DB instance creation failure | DDSCreateInstanceFailed | Серьёзный | Экземпляр DDS не может быть создан из‑за недостаточного количества дисков, квот и основных ресурсов. | Проверьте количество и квоты дисков. Освободите ресурсы и создайте экземпляры DDS повторно. | Не удаётся создать экземпляры DDS. |
Сбой репликации | DDSAbnormalReplicationStatus | Серьёзный | Возможные причины перечислены ниже:
| Отправьте заявку в службу поддержки. |
| ||
Репликация восстановлена | DDSReplicationStatusRecovered | Серьёзный | Задержка репликации между основным и резервным экземплярами находится в пределах нормы, либо сетевое соединение между ними восстановилось. | Никаких действий не требуется. | Нет | ||
Сбой экземпляра DB | DDSFaultyDBInstance | Критичный | Это событие является ключевым событием тревоги и фиксируется, когда экземпляр неисправен из‑за катастрофы или отказа сервера. | Отправьте заявку в службу поддержки. | Сервис базы данных может быть недоступен. | ||
Экземпляр DB восстановлен. | DDSDBInstanceRecovered | Критичный | В случае катастрофы NoSQL предоставляет HA‑инструмент для автоматического или ручного исправления неисправности. После исправления неисправности это событие фиксируется. | Действие не требуется. | Нет | ||
Неисправный узел | DDSFaultyDBNode | Критичный | Это событие является ключевым событием тревоги и фиксируется, когда узел базы данных неисправен из‑за катастрофы или отказа сервера. | Проверьте, доступна ли служба базы данных, и отправьте запрос в службу поддержки. | Служба базы данных может быть недоступна. | ||
Узел восстановлен | DDSDBNodeRecovered | Критический | Если происходит катастрофа, NoSQL предоставляет HA‑инструмент для автоматического или ручного исправления ошибки. После исправления ошибки об этом событии сообщается. | Действия не требуются. | Нет | ||
Primary/standby switchover or failover | DDSPrimaryStandbySwitched | Критический | Выполняется переключение primary/standby или инициируется отказ. | Действия не требуются. | Нет | ||
Недостаточный объём хранения | DDSRiskyDataDiskUsage | Критический | Объём хранения недостаточен. | Увеличьте объем хранения. Для получения подробностей см. раздел "Scaling Up Storage Space" в соответствующем руководстве пользователя. | Экземпляр установлен в режим только для чтения, и данные нельзя записывать в экземпляр. | ||
Диск с данными расширен и стал доступным для записи | DDSDataDiskUsageRecovered | Критический | Ёмкость диска с данными была расширена, и диск с данными стал доступным для записи. | Дальнейшие действия не требуются. | Отрицательного воздействия нет. | ||
План удаления KMS-ключа | planDeleteKmsKey | Критический | Запрос на плановое удаление KMS-ключа был отправлен. | После того как KMS-ключ будет запланирован к удалению, следует своевременно расшифровать данные, зашифрованные KMS-ключом, или отменить удаление ключа. | После удаления KMS-ключа пользователи не смогут шифровать диски. |
Источник события | Пространство имён | Имя события | ID события | Важность события | Описание | Решение | Воздействие |
|---|---|---|---|---|---|---|---|
DDM | SYS.DDM | Не удалось создать экземпляр DDM | createDdmInstanceFailed | Критический | Недостаточно базовых ресурсов. | Освободите ресурсы и создайте экземпляр заново. | Экземпляры DDM не могут быть созданы. |
Не удалось изменить класс экземпляра DDM | resizeFlavorFailed | Критический | Исходные ресурсы недостаточны. | Отправьте заявку в службу O&M персоналу для координации ресурсов и повторите попытку. | Сервисы на некоторых узлах прерваны. | ||
Не удалось масштабировать DDM‑инстанс. | enlargeNodeFailed | Major | Исходные ресурсы недостаточны. | Отправьте заявку в службу O&M персоналу для координации ресурсов, удалите узел, который не удалось добавить, и снова добавьте узел. | Не удалось масштабировать инстанс. | ||
Не удалось масштабировать DDM‑инстанс в обратную сторону. | reduceNodeFailed | Major | Исходные ресурсы не удалось освободить. | Отправьте заявку в службу O&M персоналу для освобождения ресурсов. | Не удалось уменьшить масштаб инстанса. | ||
Не удалось перезапустить DDM‑инстанс. | restartInstanceFailed | Major | Связанные DB‑экземпляры находятся в ненормальном состоянии. | Проверьте, находятся ли связанные DB‑экземпляры в нормальном состоянии. Если экземпляры в норме, отправьте заявку в службу поддержки O&M. | Сервисы на некоторых узлах прерваны. | ||
Не удалось создать схему | createLogicDbFailed | Major | Возможные причины перечислены ниже:
| Проверьте
| Сервисы не могут работать корректно. | ||
Не удалось привязать EIP | bindEipFailed | Критический | EIP аномален. | Повторите попытку позже. В случае аварийной ситуации свяжитесь с персоналом O&M для устранения неисправности. | Экземпляр DDM недоступен из Интернета. | ||
Не удалось масштабировать схему. | migrateLogicDbFailed | Критический | Не удалось обработать базовые ресурсы. | Отправьте заявку в службу поддержки O&M. | Схема не может быть масштабирована. | ||
Не удалось повторно масштабировать схему. | retryMigrateLogicDbFailed | Критический | Не удалось обработать базовые ресурсы. | Отправьте заявку в службу поддержки O&M. | Схема не может быть масштабирована. |
Источник события | Пространство имён | Имя события | ID события | Тяжесть события |
|---|---|---|---|---|
Elastic IP и пропускная способность | SYS.VPC | VPC удалена | deleteVpc | Major |
VPC изменена | modifyVpc | Minor | ||
Подсеть удалена | deleteSubnet | Minor | ||
Подсеть изменена | modifySubnet | Minor | ||
Пропускная способность изменена | modifyBandwidth | Незначительный | ||
VPN удалён | deleteVpn | Критический | ||
VPN изменён | modifyVpn | Незначительный |
Источник события | Пространство имён | Имя события | ID события | Важность события | Описание | Решение | Влияние |
|---|---|---|---|---|---|---|---|
EVS | SYS.EVS | Обновить диск | updateVolume | Незначительный | Обновить имя и описание диска EVS. | Никаких дальнейших действий не требуется. | Нет |
Расширить диск | extendVolume | Незначительный | Расширить диск EVS. | Никаких дальнейших действий не требуется. | Нет | ||
Удалить диск | deleteVolume | Критический | Удалить диск EVS. | Никаких дальнейших действий не требуется. | Удалённые диски нельзя восстановить. | ||
Достигнут верхний предел QoS NOTE: Это событие больше не поддерживается для EVS и будет удалено из Cloud Eye. | reachQoS | Критический | Латентность I/O увеличивается, так как верхние пределы QoS диска часто достигаются, и активируется управление потоком. | Измените тип диска на более высокую спецификацию. | Текущий диск может не соответствовать требованиям сервиса. |
Источник события | Пространство имён | Имя события | ID события | Серьёзность события |
|---|---|---|---|---|
IAM | SYS.IAM | Вход | вход | Незначительный |
Выход | выход | Незначительный | ||
Пароль изменён | changePassword | Критический | ||
Пользователь создан | createUser | Незначительный | ||
Пользователь удалён | deleteUser | Критический | ||
Пользователь обновлен | updateUser | Незначительный | ||
Группа пользователей создана | createUserGroup | Незначительный | ||
Группа пользователей удалена | deleteUserGroup | Критический | ||
Группа пользователей обновлена | updateUserGroup | Незначительный | ||
Провайдер идентификации создан | createIdentityProvider | Незначительный | ||
Провайдер идентификации удалён | deleteIdentityProvider | Критический | ||
Провайдер идентификации обновлен | updateIdentityProvider | Незначительный | ||
Метаданные обновлены | updateMetadata | Незначительный | ||
Политика безопасности обновлена | updateSecurityPolicies | Критический | ||
Учетные данные добавлены | addCredential | Критический | ||
Учетные данные удалены | deleteCredential | Критический | ||
Проект создан | createProject | Незначительный | ||
Проект обновлен | updateProject | Незначительный | ||
Проект приостановлен | suspendProject | Критический |
Источник события | Пространство имён | Имя события | ID события | Тяжесть события |
|---|---|---|---|---|
KMS | SYS.KMS | Ключ отключён | disableKey | Критический |
Запланировано удаление ключа | scheduleKeyDeletion | Незначительный | ||
Грант отозван | retireGrant | Критический | ||
Грант отозван | revokeGrant | Критический |
Источник события | Пространство имён | Имя события | ID события | Тяжесть события |
|---|---|---|---|---|
OBS | SYS.OBS | Бакет удалён | deleteBucket | Major |
Политика бакета удалена | deleteBucketPolicy | Major | ||
Бакет ACL настроен | setBucketAcl | Minor | ||
Политика бакета настроена | setBucketPolicy | Minor |
Источник события | Пространство имён | Имя события | ID события | Серьёзность события | Описание | Решение |
|---|---|---|---|---|---|---|
Cloud Eye | SYS.CES | Прерывание heartbeat агента | agentHeartbeatInterrupted | Major | Процесс сбора агента неисправен. |
|
Агент вернулся к нормальному состоянию | agentResumed | Информационный | Агент вернулся к нормальному состоянию. | Дальнейшие действия не требуются. | ||
Агент неисправен | agentFaulty | Критический | Агент был неисправен, и этот статус был отправлен в Cloud Eye. | Процесс агента неисправен. Перезапустите агента. Если процесс агента все еще неисправен после перезапуска, файлы агента могут быть повреждены. В этом случае переустановите агента. Обновите агент до последней версии. | ||
Агент отключен | agentDisconnected | Критический | Процесс коммуникации агента неисправен. | Подтвердите, что доменное имя агента не может быть разрешено. Проверьте, находится ли ваш аккаунт в задолженности. Процесс Agent неисправен. Перезапустите Agent. Если процесс Agent всё ещё неисправен после перезапуска, файлы Agent могут быть повреждены. В этом случае переустановите Agent. Подтвердите, что время сервера отличается от локального стандартного времени. Обновите Agent до последней версии. |
Источник события | Пространство имён | Имя события | ID события | Серьёзность события | Описание | Решение | Влияние |
|---|---|---|---|---|---|---|---|
DCS | SYS.DCS | Повторная полная синхронизация во время онлайн‑миграции | migrationFullResync | Незначительный | Если онлайн‑миграция не удалась, будет запущена полная синхронизация, поскольку инкрементальная синхронизация выполнить невозможно. | Проверьте, повторно запускаются ли попытки полной синхронизации. Проверьте, подключён ли исходный инстанс и не перегружен ли он. Если попытки полной синхронизации повторяются, обратитесь к сотрудникам O&M. | Задача миграции отключена от исходного инстанса, что вызывает ещё одну полную синхронизацию. В результате использование CPU исходным инстансом может резко возрасти. |
Переключение master/standby в Memcached | memcachedMasterStandbyFailover | Незначительный | Узел master был аномальным, переводя standby‑узел в статус master. | Проверьте, могут ли сервисы восстановиться автоматически. Если приложения не восстанавливаются, перезапустите их. | Постоянные соединения с инстансом будут прерваны. | ||
Сервер Redis аномален | redisNodeStatusAbnormal | Критический | Состояние сервера Redis было аномальным. | Проверьте, затронуты ли сервисы. Если да, свяжитесь с персоналом O&M. | Если главный узел аномален, выполняется автоматическое переключение. Если резервный узел аномален и клиент напрямую подключается к резервному узлу для разделения чтения/записи, данные не могут быть прочитаны. | ||
Сервер Redis восстановлен | redisNodeStatusNormal | Major | Состояние сервера Redis восстановлено. | Проверьте, могут ли сервисы восстановиться. Если приложения не переподключились, перезапустите их. | Восстановление после исключения. | ||
Сбой синхронизации при миграции данных | migrateSyncDataFail | Major | Онлайн-миграция не удалась. | Перенастройте задачу миграции и выполните миграцию данных заново. Если ошибка сохраняется, свяжитесь с персоналом O&M. | Миграция данных не удалась. | ||
Экземпляр Memcached аномален | memcachedInstanceStatusAbnormal | Критический | Состояние узла Memcached было аномальным. | Проверьте, затронуты ли сервисы. Если да, обратитесь к персоналу O&M. | Экземпляр Memcached находится в аномальном состоянии и может быть недоступен. | ||
Экземпляр Memcached восстановлен | memcachedInstanceStatusNormal | Критический | Состояние узла Memcached восстановилось. | Проверьте, могут ли сервисы восстановиться. Если приложения не переподключены, перезапустите их. | Восстановление после исключения. | ||
Сбой бэкапа экземпляра | instanceBackupFailure | Критический | Экземпляр DCS не удалось создать бэкап из‑за сбоя доступа к OBS. | Повторите бэкап вручную. | Автоматический бэкап не удался. | ||
Аномальный перезапуск узла экземпляра | instanceNodeAbnormalRestart | Критический | Узлы DCS перезапустились неожиданно, когда стали неисправными. | Проверьте, могут ли службы восстановиться. Если приложения не могут восстановиться, перезапустите их. | Постоянные соединения с экземпляром будут прерваны. | ||
Длительные Lua-скрипты остановлены | scriptsStopped | Информационный | Lua‑скрипты, которые вышли за время выполнения, автоматически остановились. | Оптимизируйте Lua-скрипты, чтобы предотвратить превышение времени выполнения. | Если выполнение Lua‑скриптов занимает длительное время, они будут принудительно остановлены, чтобы избежать блокировки всего экземпляра. | ||
Узел перезапущен | nodeRestarted | Информационный | После выполнения операций записи узел автоматически перезапустился, чтобы остановить Lua‑скрипты, превысившие время выполнения. | Проверьте, могут ли сервисы восстанавливаться самостоятельно. Если приложения не могут восстановиться, перезапустите их. | Постоянные соединения с инстансом будут прерваны. | ||
Автоматическое переключение | masterStandbyFailover | Major | Мастер‑узел отказал из‑за аппаратного/программного сбоя, вызвав переход реплика‑узла к обслуживанию. | Проверьте, что приложение переподключилось к инстансу, и сбой был устранён. В противном случае перезапустите приложение. | Ошибки доступа прерывают постоянные соединения с инстансом. | ||
Ручное переключение | masterStandbySwitchover | Major | Выполнение переключений master/standby через консоль или вызов API переключения master/standby инициирует эти события. Master/Standby переключения происходят при изменении спецификаций или после перезапусков инстансов. Ручное O&M на бекенде, необходимое для отработки сбоев или миграции ресурсов, инициирует переключения master/standby. | Проверьте, что приложение повторно подключилось к инстансу и ошибка была исправлена. В противном случае перезапустите приложение. | Ошибки доступа прерывают постоянные соединения с инстансом. |
Источник события | Пространство имён | Имя события | ID события | Серьёзность события | Описание | Решение | Влияние |
|---|---|---|---|---|---|---|---|
HSS | SYS.HSS | HSS агент отключён | hssAgentAbnormalOffline | Критический | Связь между агентом и сервером является аномальной, либо процесс агента на сервере аномален. | Исправьте подключение к сети. Если агент всё ещё остаётся офлайн длительное время после восстановления сети, процесс агента может быть аномальным. В этом случае, войдите в сервер и перезапустите процесс агента. | Сервисы прерваны. |
Аномальный статус агента HSS | hssAgentAbnormalProtection | Критический | Агент аномален, вероятно, из‑за недостаточного количества ресурсов. | Войдите в сервер и проверьте свои ресурсы. Если использование памяти или других системных ресурсов слишком высоко, сначала увеличьте их ёмкость. Если ресурсы достаточны, но проблема сохраняется после перезапуска процесса агента, отправьте сервисный тикет персоналу O&M. | Сервисы прерваны. |
Источник события | Пространство имён | Имя события | ID события | Серьёзность события | Описание | Решение | Воздействие |
|---|---|---|---|---|---|---|---|
IMS | SYS.IMS | Создать образ | createImage | Серьезный | Образ был создан. | Нет | Вы можете использовать этот образ для создания облачных серверов. |
Обновить образ | updateImage | Серьезный | Метаданные образа были изменены. | Нет | Создание облачных серверов из этого образа может завершиться неудачей. | ||
Удалить образ | deleteImage | Серьезный | Образ был удалён. | Нет | Это изображение будет недоступно в консоли управления. |
Источник события | Пространство имён | Имя события | ID события | Серьёзность события | Описание | Решение | Влияние |
|---|---|---|---|---|---|---|---|
MRS | SYS.MRS | Переключение DBServer | dbServerSwitchover | Незначительный | Происходит переключение DBServer. | Подтвердите с персоналом O&M, вызвано ли переключение active/standby нормальными операциями. | Последовательные переключения active/standby могут повлиять на доступность службы Hive. |
Переполнение канала Flume | flumeChannelOverflow | Незначительный | Переполнение канала Flume | Проверьте, правильно ли настроена конфигурация канала Flume и резко ли увеличивается объём сервиса. | Задачи Flume не могут записать данные в бэкенд. | ||
Переключение NameNode | namenodeSwitchover | Незначительный | Происходит переключение NameNode. | Подтвердите у персонала O&M, вызвано ли переключение active/standby обычными операциями. | Последовательные переключения active/standby могут вызвать сбои чтения/записи файлов HDFS. | ||
Переключение ResourceManager | resourceManagerSwitchover | Незначительный | Переключение ResourceManager | Подтвердите у персонала O&M, вызвано ли переключение active/standby обычными операциями. | Последовательные переключения active/standby могут вызвать исключения или даже сбои задач YARN | ||
JobHistoryServer Переключение | jobHistoryServerSwitchover | Незначительный | Происходит переключение JobHistoryServer | Подтвердите с персоналом O&M, вызвано ли переключение active/standby обычными операциями | Последовательные переключения active/standby могут вызвать сбои чтения журналов задач MapReduce | ||
HMaster Переключение | hmasterFailover | Незначительный | Происходит переключение HMaster | Подтвердите с персоналом O&M, вызвано ли переключение active/standby обычными операциями | Последовательные переключения active/standby могут повлиять на доступность сервиса HBase | ||
Hue Переключение | hueFailover | Незначительный | Отказовое переключение Hue происходит. | Подтвердите у персонала O&M, что переключение активный/резервный вызвано обычными операциями. | Переключение активный/резервный может повлиять на отображение страницы HUE. | ||
Отказоустойчивость Impala HaProxy | impalaHaProxyFailover | Незначительный | Происходит переключение Impala HaProxy. | Подтвердите у персонала O&M, что переключение активный/резервный вызвано обычными операциями. | Последовательные переключения активный/резервный могут повлиять на доступность сервиса Impala. | ||
Отказоустойчивость Impala StateStoreCatalog | impalaStateStoreCatalogFailover | Незначительный | Происходит отказоустойчивое переключение Impala StateStoreCatalog. | Подтвердите у персонала O&M, что переключение активный/резервный вызвано обычными операциями. | Последовательные переключения активный/резервный могут повлиять на доступность сервиса Impala. | ||
LdapServer Failover | ldapServerFailover | Незначительный | Переключение LdapServer происходит. | Подтвердите с персоналом O&M, вызвано ли переключение активный/резервный нормальными операциями. | Последовательные переключения активный/резервный могут повлиять на доступность сервиса LdapServer. | ||
Loader Switchover | loaderSwitchover | Незначительный | Переключение Loader происходит. | Подтвердите с персоналом O&M, вызвано ли переключение активный/резервный нормальными операциями. | Переключение активный/резервный может повлиять на доступность сервиса Loader. | ||
Manager Switchover | managerSwitchover | Информационный | Переключение Manager происходит. | Подтвердите у персонала O&M, вызвано ли переключение active/standby нормальными операциями. | Переключение active/standby Manager может сделать страницу Manager недоступной и вызвать аномальные значения некоторых элементов мониторинга. | ||
Выполнение задачи не удалось | jobRunningFailed | Информационный | Задача не выполнена. | На Задачи вкладке, проверьте, является ли неудавшаяся задача нормальной. | Задача не выполнена. | ||
Задача завершена | jobkilled | Информационный | Задача завершена. | Проверьте, была ли задача завершена вручную. | Процесс выполнения задачи завершён. | ||
Сбой выполнения Oozie Workflow | oozieWorkflowExecutionFailure | Незначительный | Рабочие процессы Oozie не выполняются. | Просмотрите журналы Oozie, чтобы найти причину сбоя. | Рабочие процессы Oozie не выполняются. | ||
Сбой выполнения запланированного задания Oozie | oozieScheduledJobExecutionFailure | Незначительный | Запланированные задачи Oozie не выполняются. | Просмотрите журналы Oozie, чтобы найти причину сбоя. | Запланированные задачи Oozie не выполняются. | ||
Служба ClickHouse недоступна | clickHouseServiceUnavailable | Критический | Служба ClickHouse недоступна. | Для получения подробностей см. раздел "ALM-45425 ClickHouse Service Unavailable" в Руководство пользователя службы MapReduce. | Служба ClickHouse находится в ненормальном состоянии. Операции кластера не могут быть выполнены для службы ClickHouse в FusionInsight Manager, и функция службы ClickHouse не может быть использована. | ||
DBService Сервис недоступен | dbServiceServiceUnavailable | Критический | DBService недоступен | Для получения деталей см. раздел "ALM-27001 DBService Service Unavailable" в MapReduce Service Руководство пользователя. | Служба базы данных недоступна и не может предоставлять функции импорта данных и запросов для сервисов верхнего уровня. В результате происходят исключения сервиса. | ||
DBService Прерывание сигнала Heartbeat между активным и резервным узлами | dbServiceHeartbeatInterruptionBetweentheActiveAndStandbyNodes | Серьезный | DBService Прерывание сигнала Heartbeat между активным и резервным узлами | Для получения деталей см. раздел "ALM-27003 Heartbeat Interruption Between the Active and Standby Nodes" в MapReduce Service Руководство пользователя. | Во время прерывания heartbeat сервиса DBService только один узел может предоставлять сервис. Если этот узел неисправен, резервный узел недоступен для failover и сервис недоступен. | ||
Несоответствие данных между активными и резервными DBServices | dataInconsistencyBetweenActiveAndStandbyDBServices | Критический | Несоответствие данных между активными и резервными DBServices | Для получения подробностей см. раздел "ALM-27004 Data Inconsistency Between Active and Standby DBService" в MapReduce Service Руководство пользователя. | Когда данные не синхронизированы между активными и резервными DBServices, данные могут быть утеряны или некорректны, если активный экземпляр становится некорректным. | ||
База данных переходит в режим только для чтения | databaseEnterstheReadOnlyMode | Критический | База данных переходит в режим только для чтения. | Для деталей см. раздел "ALM-27007 Database Enters the Read-Only Mode" в MapReduce Service Руководство пользователя. | База данных переходит в режим только для чтения, вызывая потерю данных службы. | ||
Flume Service недоступна | flumeServiceUnavailable | Критический | Flume Service недоступна | Для деталей см. раздел "ALM-24000 Flume Service Unavailable" в MapReduce Service Руководство пользователя. | Flume работает аномально, и служба передачи данных прервана. | ||
Исключение агента Flume | flumeAgentException | Важный | Агент Flume находится в аномальном состоянии. | Для деталей см. раздел "ALM-24001 Flume Agent Exception" в MapReduce Service Руководство пользователя. | Экземпляр агента Flume, для которого сгенерировано предупреждение, не может правильно предоставлять услуги, и задачи передачи данных экземпляра временно прерываются. Данные в режиме реального времени теряются во время передачи данных в реальном времени. | ||
Тревога отключения клиента Flume | flumeClientDisconnected | Критический | Тревога отключения клиента Flume | Для получения подробностей см. раздел "ALM-24003 Flume Client Interrupted" в MapReduce Service Руководство пользователя. | Flume клиент, для которого сгенерировано предупреждение, не может взаимодействовать с сервером Flume, и данные клиента Flume не могут быть отправлены на сервер Flume. | ||
Исключение происходит при чтении данных Flume | exceptionOccursWhenFlumeReadsData | Критический | Исключения происходят, когда Flume читает данные. | Для получения подробностей см. раздел "ALM-24004 Exception Occurs When Flume Reads Data" в MapReduce Service Руководство пользователя. | Если данные найдены в источнике данных и Flume Source постоянно не удаётся считывать данные, сбор данных прекращается. | ||
Исключение происходит, когда Flume передаёт данные | exceptionOccursWhenFlumeTransmitsData | Серьёзный | Исключения происходят, когда flume передаёт данные. | Для получения подробностей см. раздел "ALM-24005 Exception Occurs When Flume Transmits Data" в MapReduce Service Руководство пользователя. | Если использование диска Flume Channel постоянно растёт, время, необходимое для импорта данных в указанное назначение, увеличивается. Когда использование диска Flume Channel достигает 100%, процесс агента Flume приостанавливается. | ||
Файл сертификата Flume недействителен | flumeCertificateFileIsinvalid | Серьёзный | Файл сертификата Flume недействителен или повреждён. | Для получения подробностей см. раздел "ALM-24010 Flume Certificate File Is Invalid or Damaged" в MapReduce Service Руководство пользователя. | Файл сертификата Flume недействителен или повреждён, и клиент Flume не может получить доступ к серверу Flume. | ||
Flume Certificate File Is About to Expire | flumeCertificateFileIsAboutToExpire | Major | Файл сертификата Flume скоро истечёт. | Для получения подробностей см. раздел "ALM-24011 Flume Certificate File Is About to Expire" в MapReduce Service Руководство пользователя. | Файл сертификата Flume скоро истечёт, что не оказывает негативного влияния на систему. | ||
Flume Certificate File Is Expired | flumeCertificateFileIsExpired | Major | Файл сертификата Flume просрочен. | Для подробностей см. раздел "ALM-24012 Flume Certificate File Has Expired" в Руководство пользователя MapReduce Service. | Файл сертификата Flume просрочен, и функции ограничены. Клиент Flume не может получить доступ к серверу Flume. | ||
Файл сертификата Flume MonitorServer недействителен | flumeMonitorServerCertificateFileIsInvalid | Major | Файл сертификата Flume MonitorServer недействителен. | Для подробностей см. раздел "ALM-24013 Flume MonitorServer Certificate File Is Invalid or Damaged" в Руководство пользователя MapReduce Service. | Файл сертификата MonitorServer недействителен или повреждён, и клиент Flume не может получить доступ к серверу Flume. | ||
Срок действия файла сертификата Flume MonitorServer скоро истекает | flumeMonitorServerCertificate FileIsAboutToExpire | Важный | Файл сертификата Flume MonitorServer скоро истечёт. | Для получения подробностей см. раздел "ALM-24014 Flume MonitorServer Certificate Is About to Expire" в MapReduce Service User Guide. | Сертификат MonitorServer скоро истечёт, и это не окажет негативного влияния на систему. | ||
Файл сертификата Flume MonitorServer истёк | flumeMonitorServerCertificateFileIsExpired | Важный | Файл сертификата Flume MonitorServer истёк. | Для получения подробностей см. раздел "ALM-24015 Flume MonitorServer Certificate File Has Expired" в MapReduce Service User Guide. | Файл сертификата MonitorServer истёк, и функции ограничены. Клиент Flume не может получить доступ к серверу Flume. | ||
HDFS Service недоступен | hdfsServiceUnavailable | Критический | Служба HDFS недоступна. | Для получения подробностей смотрите раздел "ALM-14000 HDFS Service Unavailable" в Руководство пользователя MapReduce Service. | HDFS не может предоставлять сервисы для компонентов верхнего уровня, основанных на сервисе HDFS, таких как HBase и MapReduce. В результате пользователи не могут читать или записывать файлы. | ||
NameService Service недоступен | nameServiceServiceUnavailable | Важный | Служба NameService ненормальна. | Для получения подробностей смотрите раздел "ALM-14010 NameService Service Is Abnormal" в Руководство пользователя MapReduce Service. | HDFS не может предоставлять сервисы для компонентов верхнего уровня, основанных на сервисе NameService, таких как HBase и MapReduce. В результате пользователи не могут читать или записывать файлы. | ||
DataNode Data Directory не настроен должным образом | datanodeDataDirectoryIsNotConfiguredProperly | Major | Каталог данных DataNode не настроен должным образом. | Для получения подробностей см. раздел "ALM-14011 DataNode Data Directory Is Not Configured Properly" в MapReduce Service Руководство пользователя. | Если каталог данных DataNode смонтирован на критических каталогах, таких как корневой каталог, пространство диска корневого каталога будет исчерпано после длительной работы. Это приводит к системному сбою. Если каталог данных DataNode настроен неправильно, производительность HDFS ухудшится. | ||
Journalnode не синхронизирован | journalnodeIsOutOfSynchronization | Major | Данные Journalnode не синхронизированы. | Для получения подробностей см. раздел "ALM-14012 JournalNode Is Out of Synchronization" в MapReduce Service Руководство пользователя. | Когда JournalNode работает некорректно, данные на узле не синхронизируются с данными на других JournalNode. Если данные более чем на половине JournalNode не синхронизированы, NameNode не может работать корректно, из‑за чего сервис HDFS становится недоступным. | ||
Не удалось обновить файл NameNode FsImage | failedToUpdateTheNameNodeFsImageFile | Критический | Не удалось обновить файл NameNode FsImage. | Для получения деталей см. раздел "ALM-14013 Failed to Update the NameNode FsImage File" в MapReduce Service Руководство пользователя. | Если файл FsImage в каталоге данных активного NameNode не обновляется, функция комбинирования метаданных HDFS работает аномально и требует исправления. Если исправление не выполнено, файлы Editlog постоянно увеличиваются после работы HDFS в течение периода. В этом случае перезапуск HDFS занимает много времени, так как необходимо загрузить большое количество файлов Editlog. Кроме того, это оповещение также указывает, что резервный NameNode находится в ненормальном состоянии, и механизм высокой доступности (HA) NameNode становится недействительным. Когда активный NameNode выходит из строя, сервис HDFS становится недоступным. | ||
Ошибка диска DataNode | datanodeDiskFault | Major | Диск DataNode неисправен. | Для получения подробностей смотрите раздел "ALM-14027 DataNode Disk Fault" в MapReduce Service Руководство пользователя. | Если получено оповещение о неисправности диска DataNode, на DataNode существует повреждённый раздел диска. В результате записанные файлы могут быть потеряны. | ||
Yarn Service недоступен | yarnServiceUnavailable | Critical | Служба Yarn недоступна. | Для получения подробной информации см. раздел "ALM-18000 Yarn Service Unavailable" в MapReduce Service Руководство пользователя. | Кластер не может предоставить сервис Yarn. Пользователи не могут запускать новые приложения. Отправленные приложения не могут быть запущены. | ||
NodeManager Heartbeat потерян | nodemanagerHeartbeatLost | Major | NodeManager heartbeat утрачена. | Для получения подробной информации см. раздел "ALM-18002 NodeManager Heartbeat Lost" в MapReduce Service Руководство пользователя. | Потерянный узел NodeManager не может предоставить сервис Yarn. Количество контейнеров уменьшается, поэтому производительность кластера ухудшается. | ||
NodeManager в плохом состоянии | nodemanagerUnhealthy | Major | NodeManager находится в нездоровом состоянии. | Для получения подробной информации см. раздел "ALM-18003 NodeManager Unhealthy" в MapReduce Service Руководство пользователя. | Неисправный узел NodeManager не может предоставлять сервис Yarn. Количество контейнеров уменьшается, поэтому производительность кластера ухудшается. | ||
Тайм‑аут приложения Yarn | yarnApplicationTimeout | Незначительный | Выполнение задачи Yarn завершилось с тайм‑аутом. | Для получения подробной информации см. раздел "ALM-18020 Yarn Task Execution Timeout" в MapReduce Service Руководство пользователя. | Сигнал тревоги сохраняется после тайм‑аута выполнения задачи. Однако задача всё ещё может быть выполнена корректно, поэтому этот сигнал тревоги не оказывает никакого влияния на систему. | ||
MapReduce Service недоступен | mapreduceServiceUnavailable | Критический | Служба MapReduce недоступна. | Для получения подробностей смотрите раздел "ALM-18021 MapReduce Service Unavailable" в Руководство пользователя службы MapReduce. | Кластер не может предоставить службу MapReduce. Например, MapReduce нельзя использовать для просмотра журналов задач, а функция архивирования журналов недоступна. | ||
Недостаточно ресурсов очереди Yarn | insufficientYarnQueueResources | Незначительный | Ресурсы очереди Yarn недостаточны. | Для получения подробностей смотрите раздел "ALM-18022 Insufficient Yarn Queue Resources" в Руководство пользователя службы MapReduce. | Для завершения приложения требуется много времени. Новое приложение не может работать длительное время после отправки. | ||
Служба HBase недоступна | hbaseServiceUnavailable | Критический | Служба HBase недоступна. | Подробнее см. раздел "ALM-19000 HBase Service Unavailable" в MapReduce Service Руководство пользователя. | Операции не могут быть выполнены, например чтение или запись данных и создание таблиц. | ||
Путь к системной таблице или файл HBase отсутствует | systemTablePathOrFileOfHBaseIsMissing | Критический | Каталоги таблиц или файлы системы HBase потеряны. | Подробнее см. раздел "ALM-19012 HBase System Table Directory or File Lost" в MapReduce Service Руководство пользователя. | Служба HBase не может перезапуститься или запуститься. | ||
Hive Service недоступен | hiveServiceUnavailable | Критический | Сервис Hive недоступен. | Для подробностей см. раздел "ALM-16004 Hive Service Unavailable" в MapReduce Service Руководство пользователя. | Hive не может предоставлять услуги загрузки данных, запросов и извлечения. | ||
Hive Data Warehouse удалён | hiveDataWarehouseIsDeleted | Критический | Хранилище данных Hive удалено. | Для подробностей см. раздел "ALM-16045 Hive Data Warehouse Is Deleted" в MapReduce Service Руководство пользователя. | Если удалено хранилище данных Hive по умолчанию, базы данных и таблицы не могут быть созданы в хранилище данных по умолчанию, что влияет на использование сервиса. | ||
Разрешения Hive Data Warehouse изменены | hiveDataWarehousePermissionIsModified | Критический | Разрешения хранилища данных Hive изменены. | Для получения подробной информации см. раздел "ALM-16046 Hive Data Warehouse Permission Is Modified" в MapReduce Service Руководство пользователя. | Если разрешения в хранилище данных Hive по умолчанию изменены, разрешения для пользователей или групп пользователей создавать базы данных или таблицы в хранилище данных по умолчанию будут затронуты. Разрешения будут расширены или сокращены. | ||
HiveServer был снят с регистрации в zookeeper | hiveServerHasBeenDeregisteredFromZookeeper | Major | HiveServer был снят с регистрации в zookeeper. | Для получения подробной информации см. раздел "ALM-16047 HiveServer Has Been Deregistered from ZooKeeper" в MapReduce Service Руководство пользователя. | Если конфигурации Hive невозможно прочитать из ZooKeeper, HiveServer будет недоступен. | ||
Путь к библиотеке Tez или Spark не существует | tezlibOrSparklibIsNotExist | Major | Путь к библиотеке tez или spark не существует. | Для получения подробной информации см. раздел "ALM-16048 Tez or Spark Library Path Does Not Exist" в MapReduce Service User Guide. | Функции Hive on Tez и Hive on Spark затронуты. | ||
Hue Service Unavailable | hueServiceUnavailable | Критический | Сервис Hue недоступен. | Для получения подробной информации см. раздел "ALM-20002 Hue Service Unavailable" в MapReduce Service User Guide. | Система не может предоставлять услуги по загрузке данных, запросам и извлечению. | ||
Impala Service Unavailable | impalaServiceUnavailable | Критический | Сервис Impala недоступен. | Для получения подробной информации см. раздел "ALM-29000 Impala Service Unavailable" в MapReduce Service Руководство пользователя. | Сервис Impala находится в аварийном состоянии. Операции с кластером нельзя выполнить на Impala в FusionInsight Manager, и функции сервиса Impala не могут быть использованы. | ||
Kafka Service недоступен. | kafkaServiceUnavailable | Критический | Сервис Kafka недоступен. | Для получения подробной информации см. раздел "ALM-38000 Kafka Service Unavailable" в MapReduce Service Руководство пользователя. | Кластер не может предоставлять сервис Kafka, и пользователи не могут выполнять новые задачи Kafka. | ||
Статус стандартного пользователя Kafka в аварийном состоянии | statusOfKafkaDefaultUserIsAbnormal | Критический | Состояние пользователя Kafka по умолчанию аномально. | Для получения подробностей смотрите раздел "ALM-38007 Status of Kafka Default User Is Abnormal" в MapReduce Service Руководство пользователя. | Если состояние пользователя Kafka по умолчанию аномально, синхронизация метаданных между Brokers и взаимодействие между Kafka и ZooKeeper будут затронуты, что повлияет на производство сервисов, их потребление и создание и удаление тем. | ||
Аномальное состояние каталога данных Kafka | abnormalKafkaDataDirectoryStatus | Критичный | Состояние каталога данных Kafka аномально. | Для получения подробностей смотрите раздел "ALM-38008 Abnormal Kafka Data Directory Status" в MapReduce Service Руководство пользователя. | Если состояние каталога данных Kafka аномально, текущие реплики всех разделов в каталоге данных выводятся из онлайн-режима, и состояние каталога данных нескольких узлов становится аномальным одновременно. В результате некоторые разделы могут стать недоступными. | ||
Topics with Single Replica | topicsWithSingleReplica | Warning | Тема с одной репликой существует. | Для подробностей см. раздел "ALM-38010 Topics with Single Replica" в MapReduce Service User Guide. | Существует риск единой точки отказа (SPOF) для тем с только одной репликой. Когда узел, на котором находится реплика, становится аномальным, раздел не имеет лидера, и сервисы в теме затронуты. | ||
KrbServer Service Unavailable | krbServerServiceUnavailable | Critical | Сервис KrbServer недоступен. | Для подробностей см. раздел "ALM-25500 KrbServer Service Unavailable" в MapReduce Service User Guide. | Когда генерируется эта тревога, операции для компонента KrbServer в кластере выполнить нельзя. Аутентификация KrbServer в других компонентах будет затронута. Состояние работы компонентов, зависящих от KrbServer в кластере, неисправно. | ||
Kudu Service Недоступен | kuduServiceUnavailable | Критический | Сервис Kudu недоступен. | Для получения подробностей см. раздел "ALM-29100 Kudu Service Unavailable" в MapReduce Service Руководство пользователя. | Пользователи не могут использовать сервис Kudu. | ||
LdapServer Service Недоступен | ldapServerServiceUnavailable | Критический | Сервис LdapServer недоступен. | Для получения подробностей см. раздел "ALM-25000 LdapServer Service Unavailable" в MapReduce Service Руководство пользователя. | Когда генерируется эта тревога, для пользователей KrbServer и пользователей LdapServer в кластере нельзя выполнять операции. Например, пользователи, группы пользователей или роли не могут быть добавлены, удалены или изменены, а пароли пользователей не могут быть изменены на портале FusionInsight Manager. Аутентификация существующих пользователей в кластере не затронута. | ||
Ненормальная LdapServer Синхронизация Данных | abnormalLdapServerDataSynchronization | Критический | Синхронизация данных LdapServer ненормальна. | Подробнее см. раздел "ALM-25004 Abnormal LdapServer Data Synchronization" в MapReduce Service Руководство пользователя. | Несоответствие данных LdapServer происходит из‑за повреждения данных LdapServer на Manager или в кластере. Процесс LdapServer с повреждёнными данными не может предоставлять услуги внешне, и функции аутентификации Manager и кластера затронуты. | ||
Nscd Service Ненормален | nscdServiceIsAbnormal | Важный | Служба Nscd является аномальной. | Для получения подробностей см. раздел "ALM-25005 nscd Service Exception" в MapReduce Service User Guide. | Если служба Nscd является аномальной, узел может не синхронизировать данные с LDAP сервером. В этом случае запуск команды id может не получить данные с LDAP сервера, что влияет на сервисы верхнего уровня. | ||
Служба Sssd является аномальной | sssdServiceIsAbnormal | Major | Служба Sssd является аномальной. | Для получения подробностей см. раздел "ALM-25006 Sssd Service Exception" в MapReduce Service User Guide. | Если служба Sssd является аномальной, узел может не синхронизировать данные с LdapServer. В этом случае запуск команды id может не получить данные LDAP, что влияет на сервисы верхнего уровня. | ||
Служба загрузчика недоступна | loaderServiceUnavailable | Критический | Служба Loader недоступна. | Для получения подробностей см. раздел "ALM-23001 Loader Service Unavailable" в MapReduce Service Руководство пользователя. | Когда служба Loader недоступна, функции загрузки данных, импорта и преобразования недоступны. | ||
Служба Oozie недоступна. | oozieServiceUnavailable | Критический | Служба Oozie недоступна. | Для получения подробностей см. раздел "ALM-17003 Oozie Service Unavailable" в MapReduce Service Руководство пользователя. | Службу Oozie нельзя использовать для отправки заданий. | ||
Служба Ranger недоступна. | rangerServiceUnavailable | Критический | Служба Ranger недоступна. | Для получения подробностей см. раздел "ALM-45275 Ranger Service Unavailable" в MapReduce Service User Guide. | Когда служба Ranger недоступна, Ranger не может работать должным образом, и нативный UI Ranger недоступен. | ||
Ненормальный статус RangerAdmin | abnormalRangerAdminStatus | Серьёзный | Статус RangerAdmin ненормален. | Для получения подробностей см. раздел "ALM-45276 Abnormal RangerAdmin Status" в MapReduce Service User Guide. | Если статус одного RangerAdmin ненормален, доступ к нативному UI Ranger не нарушается. Если статус двух RangerAdmin ненормален, нативный UI Ranger недоступен, и операции, такие как создание, изменение и удаление политик, выполнить нельзя. | ||
Spark2x Service Unavailable | spark2xServiceUnavailable | Критический | Сервис Spark2x недоступен. | Для получения подробностей см. раздел "ALM-43001 Spark2x Service Unavailable" в MapReduce Service Руководство пользователя. | Задачи Spark, отправленные пользователями, не могут быть выполнены. | ||
Storm Service недоступен | stormServiceUnavailable | Критический | Сервис Storm недоступен. | Для получения подробностей см. раздел "ALM-26051 Storm Service Unavailable" в MapReduce Service Руководство пользователя. | Кластер не может предоставлять сервис Storm извне, и пользователи не могут выполнять новые задачи Storm. | ||
ZooKeeper Service недоступен | zooKeeperServiceUnavailable | Критический | Сервис ZooKeeper недоступен. | Для получения деталей смотрите раздел "ALM-13000 ZooKeeper Service Unavailable" в MapReduce Service Руководство пользователя. | ZooKeeper не предоставляет координационные сервисы для компонентов верхнего уровня, и компоненты, зависящие от ZooKeeper, могут работать некорректно. | ||
Не удалось установить квоту верхних каталогов компонента ZooKeeper | failedToSetTheQuotaOfTopDirectoriesOfZooKeeperComponent | Незначительный | Квота верхних каталогов компонентов ZooKeeper не была настроена. | Для получения деталей смотрите раздел "ALM-13005 Failed to Set the Quota of Top Directories of ZooKeeper Components" в MapReduce Service Руководство пользователя. | Компоненты могут записывать большой объём данных в каталог верхнего уровня ZooKeeper. В результате сервис ZooKeeper недоступен. |