Облачная платформаAdvanced

События, поддерживаемые мониторингом событий

Эта статья полезна?

Язык статьи: Русский

Страница переведена автоматически и может содержать неточности. Рекомендуем сверяться с английской версией.

Note

Имя ресурса, поддерживающего отчёт о событиях, может содержать максимум 128 символов, включая буквы, цифры, подчёркивания (_), дефисы (-) и точки (.). Если оно содержит другие символы, событие может не быть отправлено в Cloud Eye.

Таблица 1 Elastic Cloud Server (ECS)
Источник события	Имя события	ID события	Тяжесть события	Описание	Решение	Влияние
ECS	Перезапуск инициирован из‑за системных сбоев	startAutoRecovery	Критический	ECS, находящиеся на неисправном хосте, будут автоматически перенесены на другой правильно работающий хост. Во время миграции ECS были перезапущены.	Подождите завершения события и проверьте, затронуты ли сервисы.	Сервисы могут быть прерваны.
	Перезапуск завершён из‑за системных сбоев	endAutoRecovery	Major	ECS был восстановлен после автоматической миграции.	Это событие указывает на то, что ECS восстановлен и работает должным образом.	None
	Тайм‑аут автоматического восстановления (обрабатывается на backend)	faultAutoRecovery	Major	Время миграции ECS на обычный хост истекло.	Переместите сервисы на другие ECS.	Сервисы прерваны.
	Сбой линии GPU	GPULinkFault	Critical	GPU Хоста, на котором размещён ECS, был неисправен или восстанавливался после сбоя.	Деплой сервисных приложений в режиме HA. После устранения неисправности GPU проверьте, восстановлены ли сервисы.	Сервисы прерваны.
	ECS удалён	deleteServer	Критический	ECS был удалён. на консоли управления. вызовом API.	Проверьте, было ли удаление выполнено намеренно пользователем.	Сервисы прерваны.
	ECS перезапущен	rebootServer	Незначительный	ECS был перезапущен. на консоли управления. вызовом API.	Проверьте, был ли перезапуск выполнен намеренно пользователем. Деплой сервисных приложений в режиме HA. После запуска ECS проверьте, восстановились ли сервисы.	Сервисы прерваны.
	ECS был остановлен	stopServer	Незначительный	ECS был остановлен в консоли управления. вызовом API. ПРИМЕЧАНИЕ: ECS останавливается только после включения CTS. Подробнее см Cloud Trace Service User Guide.	Проверьте, был ли перезапуск выполнен намеренно пользователем. Деплой сервисных приложений в режиме HA. После запуска ECS проверьте, восстановились ли сервисы.	Сервисы прерваны.
	NIC удалён	deleteNic	Критический	ECS NIC был удалён в консоли управления. вызовом API.	Проверьте, было ли удаление выполнено намеренно пользователем. Деплой сервисных приложений в режиме HA. После удаления NIC, проверьте, восстановились ли сервисы.	Сервисы могут быть прерваны.
	ECS изменён	resizeServer	Minor	Спецификации ECS были изменены в консоли управления. вызовом API.	Проверьте, была ли операция выполнена пользователем. Деплой сервисных приложений в режиме HA. После изменения размера ECS, проверьте, восстановились ли сервисы.	Сервисы прерваны.
	GuestOS перезапущен	Перезапуск гостевой ОС	Незначительный	Гостевая ОС была перезапущена.	Обратитесь к персоналу O&M.	Сервисы могут быть прерваны.
	Сбой ECS, вызванный системными ошибками	VMFaultsByHostProcessExceptions	Критический	Хост, на котором расположен ECS, неисправен. Система автоматически попытается запустить ECS.	После запуска ECS проверьте, могут ли этот ECS и сервисы на нём работать корректно.	ECS неисправен.
	Ошибка запуска	Ошибка включения	Серьёзный	Не удалось запустить ECS.	Запустите ECS повторно. Если проблема сохраняется, обратитесь к персоналу O&M.	ECS не может запуститься.
	Риск отказа хоста	hostMayCrash	Критический	Хост, на котором размещён ECS, может выйти из строя, и риск нельзя предотвратить с помощью живой миграции по некоторым причинам.	Переместите сервисы, работающие на ECS, сначала и удалите или остановите ECS. Запустите ECS только после того, как персонал O&M устранит риск.	Хост может выйти из строя, вызывая прерывание сервиса.
	Запланированная миграция завершена	instance_migrate_completed	Критический	Запланированная миграция ECS завершена.	Подождите, пока ECS станут доступными, и проверьте, затронуты ли сервисы.	Сервисы могут быть прерваны.
	Запланированная миграция выполняется	instance_migrate_executing	Критический	ECS мигрируются по расписанию.	Подождите, пока событие завершится, и проверьте, затронуты ли сервисы.	Сервисы могут быть прерваны.
	Запланированная миграция отменена	instance_migrate_canceled	Major	Запланированная миграция ECS отменена.	None	None
	Запланированная миграция не выполнена	instance_migrate_failed	Major	ECS не удалось мигрировать в соответствии с расписанием.	Обратитесь к сотрудникам O&M.	Сервисы прерваны.
	Запланированная миграция будет выполнена	instance_migrate_scheduled	Major	ECS будут мигрированы в соответствии с расписанием.	Проверьте влияние на сервисы в окно выполнения.	None
	Запланированное изменение спецификации не удалось	instance_resize_failed	Критический	Не удалось изменить спецификации в соответствии с расписанием.	Обратитесь к персоналу O&M.	Сервисы прерваны.
	Запланированное изменение спецификации выполнено	instance_resize_completed	Критический	Запланированное изменение спецификаций выполнено.	Нет	Нет
	Запланированное изменение спецификации выполняется	instance_resize_executing	Критический	Спецификации изменяются в соответствии с расписанием.	Подождите завершения события и проверьте, затронуты ли сервисы.	Сервисы прерваны.
	Запланированное изменение спецификации отменено	instance_resize_canceled	Major	Запланированное изменение спецификаций отменено.	None	None
	Запланированное изменение спецификации будет выполнено	instance_resize_scheduled	Major	Спецификации будут изменены согласно расписанию.	Проверьте влияние на сервисы во время окна выполнения.	None
	Запланированное переразвёртывание будет выполнено	instance_redeploy_scheduled	Major	ECSs будут переразвернуты на новых хостах согласно расписанию.	Проверьте влияние на сервисы во время окна выполнения.	None
	Запланированный перезапуск будет выполнен	instance_reboot_scheduled	Major	ECS будут перезапущены согласно расписанию.	Проверьте влияние на сервисы во время окна выполнения.	Нет
	Запланированная остановка будет выполнена	instance_stop_scheduled	Major	ECS будут остановлены согласно расписанию, так как они затронуты базовым оборудованием или системным O&M.	Проверьте влияние на сервисы во время окна выполнения.	Нет
	Live миграция начата	liveMigrationStarted	Major	Хост, где расположен ECS, может быть неисправен. Выполните Live миграцию ECS заранее, чтобы предотвратить сбои в работе, вызванные поломкой хоста.	Дождитесь завершения события и проверьте, затронуты ли сервисы.	Сервисы могут быть прерваны менее чем на 1s.
	Live migration завершена	liveMigrationCompleted	Критический	Live migration завершена, и ECS работает должным образом.	Проверьте, работают ли сервисы должным образом.	Нет
	Live migration failure	liveMigrationFailed	Критический	Во время Live migration ECS произошла ошибка.	Проверьте, работают ли сервисы должным образом.	Существует низкая вероятность прерывания сервисов.
	Сгенерирована тревога о некорректируемой ошибке ECC на GPU SRAM	SRAMUncorrectableEccError	Критический	Сгенерированы некорректируемые ошибки ECC на GPU SRAM.	Если сервисы затронуты, отправьте запрос в службу поддержки.	Аппаратное обеспечение GPU может быть неисправным. В результате SRAM неисправен, и сервисы завершаются аномально.
	Сбой связи FPGA	FPGALinkFault	Critical	FPGA хоста, на котором расположен ECS, был неисправен. восстанавливается после сбоя.	Развернуть сервисные приложения в режиме HA. После устранения сбоя FPGA проверьте, восстановлены ли сервисы.	Сервисы прерваны.
	Запланированное переразвертывание должно быть одобрено	instance_redeploy_inquiring	Major	В случае влияния базового оборудования или системного O&M, ECS будут переразвернуты на новых хостах согласно расписанию.	Одобрить запланированное переразвертывание.	None
	Замена локального диска отменена	localdisk_recovery_canceled	Major	Отказ локального диска	Нет	Нет
	Замена локального диска будет выполнена	localdisk_recovery_scheduled	Major	Отказ локального диска	Проверьте влияние на сервисы в течение окна выполнения.	Нет
	Событие тревоги Xid сгенерировано на GPU	commonXidError	Major	Событие тревоги xid происходит на GPU.	Если сервисы затронуты, откройте заявку в службу поддержки.	Проблемы с оборудованием GPU, драйвером и приложениями приводят к событиям Xid, что может вызвать некорректный выход бизнес‑приложений.
	nvidia-smi suspended	nvidiaSmiHangEvent	Major	nvidia-smi превысил время ожидания.	Если сервисы затронуты, отправьте заявку в службу поддержки.	Драйвер может сообщать об ошибке во время работы сервиса.
	NPU: некорректируемая ошибка ECC	UncorrectableEccErrorCount	Major	На GPU SRAM возникли некорректируемые ошибки ECC.	Если сервисы затронуты, замените NPU другим.	Сервисы могут быть прерваны.
	Запланированное переразвертывание отменено	instance_redeploy_canceled	Major	Поскольку они затронуты нижележающим оборудованием или системным O&M, ECSs будут переразвернуты на новых хостах согласно расписанию.	Нет	Нет
	Выполняется запланированное переразвертывание	instance_redeploy_executing	Major	Поскольку затронуты базовое оборудование или система O&M, ECSs будут переразвернуты на новых хостах по расписанию.	Подождите, пока событие завершится, и проверьте, затронуты ли сервисы.	Сервисы прерваны.
	Scheduled redeployment completed	instance_redeploy_completed	Major	Поскольку затронуты базовое оборудование или система O&M, ECSs будут переразвернуты на новых хостах по расписанию.	Подождите, пока переразвернутые ECSs станут доступными, и проверьте, затронуты ли сервисы.	None
	Scheduled redeployment failed	instance_redeploy_failed	Major	Поскольку затронуты базовое оборудование или система O&M, ECSs будут переразвернуты на новых хостах по расписанию.	Свяжитесь с персоналом O&M.	Сервисы прерваны.
	Требуется авторизация замены локального диска	localdisk_recovery_inquiring	Major	Локальные диски неисправны.	Авторизуйте замену локального диска.	Локальные диски недоступны.
	Локальные диски заменяются	localdisk_recovery_executing	Major	Сбой локального диска	Подождите, пока локальные диски заменятся, и проверьте, доступны ли локальные диски.	Локальные диски недоступны.
	Локальные диски заменены	localdisk_recovery_completed	Major	Сбой локального диска	Подождите, пока сервисы работают корректно, и проверьте, доступны ли локальные диски.	Нет
	Не удалось заменить локальный диск	localdisk_recovery_failed	Критичный	Локальные диски неисправны.	Обратитесь к персоналу O&M.	Локальные диски недоступны.
	NPU: устройство не найдено по информации npu-smi	NPUSMICardNotFound	Критичный	Драйвер Ascend неисправен или NPU отключён.	Передайте эту проблему команде Ascend или аппаратной команде для обработки.	NPU нельзя использовать нормально.
	NPU: ошибка PCIe link	PCIeErrorFound	Критичный	Возможная причина — переполнение deskew_fifo, событие symbol_unlock, deskew_unlock или тайм‑аут phystatus.	Передайте эту проблему аппаратной команде для обработки.	NPU не может использоваться должным образом.
	NPU: устройство не найдено с помощью lspci	LspciCardNotFound	Major	NPU отключён.	Передайте эту проблему в аппаратную команду для обработки.	NPU не может использоваться нормально.
	NPU: перегрев	TemperatureOverUpperLimit	Major	Температура DDR или программного обеспечения слишком высока.	Остановите службы, перезапустите BMS, проверьте систему охлаждения и сбросьте устройства.	ECS может быть выключен из‑за перегрева, и устройства могут не быть найдены.
	NPU: запрос на перезапуск экземпляра	RebootVirtualMachine	Informational	Возникла неисправность, и BMS необходимо перезапустить.	Соберите информацию об ошибке, и перезапустите BMS.	Сервисы могут быть прерваны.
	NPU: запрос на сброс SoC	ResetSOC	Информационный	Произошла ошибка, и необходимо сбросить SoC.	Соберите информацию об ошибке, и сбросьте SoC.	Сервисы могут быть прерваны.
	NPU: запрос на перезапуск процесса AI	RestartAIProcess	Информационный	Произошла ошибка, и процесс AI необходимо перезапустить.	Соберите информацию об ошибке, и перезапустите процесс AI.	Текущая задача AI будет прервана.
	NPU: коды ошибок	NPUErrorCodeWarning	Критический	Возвращается большое количество кодов ошибок NPU, указывающих на критические или более высокоуровневые ошибки. Вы можете дополнительно определить неисправности на основе кодов ошибок.	Найдите неисправности согласно Список информации о кодах ошибок Black Box и Определение ошибок управления здоровьем.	Сервисы могут быть прерваны.
	DAVP: узел устройства не найден vasme	DAVPSMICardNotFound	Критический	Драйвер может быть неисправен, или карта может быть отключена.	Перезапустите VM. Если устройство всё ещё не может быть загружено, передайте эту проблему команде аппаратного обеспечения для обработки.	DAVP не может использоваться корректно.
	DAVP: устройство не найдено lspci	DAVPLspciCardNotFound	Критический	DAVP отключён.	Переведите эту проблему в команду аппаратного обеспечения для обработки.	DAVP не может использоваться должным образом.
	DAVP: температура выше порогового значения 85°C	TemperatureOverDfLimit	Критический	Температура основного модуля превышает 85°C, что приводит к снижению частоты.	Остановите сервисы. Свяжитесь с командой аппаратного обеспечения, чтобы проверить систему охлаждения и перезагрузить устройство.	Частота карты DAVP снижена.
	DAVP: температура выше порогового значения 105°C	TemperatureOverSdLimit	Критический	Температура основного модуля превышает 105°C, что вызывает сигнал тревоги о высокой температуре.	Остановите сервисы. Свяжитесь с командой аппаратного обеспечения, чтобы проверить систему охлаждения и перезагрузить устройство.	Сработала защита от отключения питания. DAVP не может использоваться должным образом.
	DAVP: исключение ядра устройства в узле	DeviceCoreAbnormal	Major	Возможно, вам потребуется перезапустить узел устройства die.	Соберите информацию об ошибке и перезапустите die.	Сервисы могут быть прерваны.
	GPU NVML library API ошибка	gpuNvmlApiError	Major	Неизвестные ошибки существуют в API питания, часов или вентилятора библиотеки NVML, предоставляемой драйвером GPU.	Перезапустите сервер или обновите драйвер. Если ошибка сохраняется, передайте эту проблему команде аппаратного обеспечения.	GPU могут быть недоступны.
	VM ошибка удаления	faultDeleteServer	Major	Не удалось удалить ECS. Проверьте, затронуты ли сервисы. Не удалось удалить ресурсы ECS.	Не удалось удалить ECS.	Проверьте, затронуты ли сервисы.

Note

Автоматическое восстановление: Если оборудование, на котором расположен ECS, неисправно, система автоматически перемещает его на обычный физический хост. ECS перезапустится во время миграции.

Таблица 2 Elastic IP (EIP)
Источник события	Пространство имён	Имя события	ID события	Серьёзность события	Описание	Решение	Влияние
EIP	SYS.EIP	Превышена пропускная способность EIP	EIPBandwidthOverflow	Критический	Используемая пропускная способность превысила приобретённую, что может замедлить сеть или вызвать потерю пакетов. Значение этого события — максимальное значение за период мониторинга, а значение входящей и исходящей пропускной способности EIP — значение в конкретный момент времени за этот период. Метрики описываются следующим образом: egressDropBandwidth: потерянные исходящие пакеты (байты) egressAcceptBandwidth: принятые исходящие пакеты (байты) egressMaxBandwidthPerSec: пиковая исходящая пропускная способность (byte/s) ingressAcceptBandwidth: принятые входящие пакеты (байты) ingressMaxBandwidthPerSec: пиковая входящая пропускная способность (byte/s) ingressDropBandwidth: потерянные входящие пакеты (байты)	Проверьте, продолжает ли увеличиваться пропускная способность EIP и нормальны ли сервисы. Увеличьте пропускную способность при необходимости.	Сеть становится медленной или пакеты теряются.
		EIP освобожден	deleteEip	Незначительный	EIP был освобожден.	Проверьте, был ли EIP освобожден по ошибке.	Сервер, к которому привязан EIP, не может получить доступ к Интернету.
		EIP заблокирован	blockEIP	Критический	Используемая пропускная способность EIP превысила 5 Gbit/s, EIP были заблокированы, и пакеты были отброшены. Такое событие может быть вызвано атаками DDoS.	Замените EIP, чтобы предотвратить влияние на сервисы. Найдите и устраните неисправность.	Сервисы затронуты.
		EIP разблокирован	unblockEIP	Критический	EIP был разблокирован.	Используйте предыдущий EIP еще раз.	Нет
		EIP очистка трафика началась	ddosCleanEIP	Серьёзный	Очистка трафика на EIP была начата для предотвращения DDoS-атак.	Проверьте, был ли атакован EIP.	Службы могут быть прерваны.
		EIP очистка трафика завершена	ddosEndCleanEip	Серьёзный	Очистка трафика на EIP для предотвращения DDoS-атак была завершена.	Проверьте, был ли атакован EIP.	Службы могут быть прерваны.
		Превышена пропускная способность QoS	EIPBandwidthRuleOverflow	Серьёзный	Используемая пропускная способность QoS превысила выделенную, что может замедлить сеть или вызвать потерю пакетов. Значение этого события — максимальное значение за период мониторинга, а значение входящей и исходящей пропускной способности EIP — значение в конкретный момент времени в этом периоде. egressDropBandwidth: отброшенные исходящие пакеты (bytes) egressAcceptBandwidth: принятые исходящие пакеты (bytes) egressMaxBandwidthPerSec: пиковая исходящая пропускная способность (byte/s) ingressAcceptBandwidth: принятые входящие пакеты (bytes) ingressMaxBandwidthPerSec: пиковая входящая пропускная способность (byte/s) ingressDropBandwidth: отброшенные входящие пакеты (bytes)	Проверьте, продолжается ли рост пропускной способности EIP и находятся ли службы в нормальном состоянии. Увеличьте пропускную способность при необходимости.	Сеть становится медленной или пакеты теряются.

Таблица 3 Elastic Load Balance (ELB)
Источник события	Пространство имён	Имя события	ID события	Серьёзность события	Описание	Решение	Воздействие
ELB	SYS.ELB	Серверы бэкэнда находятся в нездоровом состоянии.	healthCheckUnhealthy	Критический	Как правило, эта проблема возникает из‑за того, что службы бэкэнд‑серверов отключены. Это событие не будет сообщаться после того, как оно будет зафиксировано несколько раз.	Убедитесь, что серверы бэкэнда работают корректно.	ELB не перенаправляет запросы к нездоровым серверным узлам. Если все серверные узлы в группе серверных узлов обнаружены нездоровыми, службы будут прерваны.
ELB	SYS.ELB	Сервер бэкенда обнаружен здоровым.	healthCheckRecovery	Незначительный	Сервер бэкенда обнаружен здоровым.	Дополнительные действия не требуются.	Балансировщик нагрузки может корректно направлять запросы к серверу бэкенда.

Таблица 4 Cloud Backup and Recovery (CBR)
Источник события	Имя события	ID события	Серьезность события	Описание	Решение	Влияние
CBR	Не удалось создать бэкап.	backupFailed	Критический	Не удалось создать бэкап.	Создайте бэкап вручную или обратитесь в службу поддержки.	Потеря данных может произойти.
	Не удалось восстановить ресурс с помощью бэкапа.	restorationFailed	Критический	Не удалось восстановить ресурс с использованием бэкапа.	Восстановите ресурс с помощью другого бэкапа или обратитесь в службу поддержки.	Потеря данных может произойти.
	Не удалось удалить бэкап.	backupDeleteFailed	Критический	Не удалось удалить бэкап.	Повторите попытку позже или обратитесь в службу поддержки.	Зарядка может быть аномальной.
	Не удалось удалить хранилище.	vaultDeleteFailed	Критический	Не удалось удалить хранилище.	Повторите попытку позже или обратитесь в техническую поддержку.	Зарядка может быть аномальной.
	Сбой репликации	replicationFailed	Критический	Не удалось реплицировать бэкап.	Повторите попытку позже или обратитесь в техническую поддержку.	Возможно возникновение потери данных.
	Бэкап успешно создан.	backupSucceeded	Серьёзный	Бэкап создан.	Нет	Нет
	Восстановление ресурса с помощью бэкапа успешно завершено.	restorationSucceeded	Серьёзный	Ресурс был восстановлен с помощью бэкапа.	Проверьте, успешно ли восстановлены данные.	None
	Бэкап успешно удалён.	backupDeletionSucceeded	Серьёзный	Бэкап был удалён.	None	None
	Хранилище удалено успешно.	vaultDeletionSucceeded	Серьёзный	Хранилище было удалено.	None	None
	Успех репликации	replicationSucceeded	Серьёзный	Бэкап был реплицирован успешно.	None	None
	Клиент не в сети	agentOffline	Критический	Бэкап клиент был отключён.	Убедитесь, что статус Agent нормален и к бэкап клиенту можно подключиться .	Бэкап задачи могут завершиться с ошибкой.
	Клиент онлайн	agentOnline	Серьезный	Бэкап клиент был онлайн.	Нет	Нет

Таблица 5 Relational Database Service (RDS) — исключение ресурса
Источник события	Пространство имен	Имя события	ID события	Серьезность события	Описание	Решение	Влияние
RDS	SYS.RDS	Ошибка создания экземпляра DB	createInstanceFailed	Критичный	Как правило, причина заключается в том, что количество дисков недостаточно из‑за ограничений квоты, или базовые ресурсы исчерпаны.	Выбранные спецификации ресурса недостаточны. Выберите другие доступные спецификации и повторите попытку.	Экземпляры DB не могут быть созданы.
		Ошибка полного бэкапа	fullBackupFailed	Критичный	Один отдельный сбой полного бэкапа не влияет на файлы, которые были успешно сохранены, но удлиняет время инкрементального бэкапа при восстановлении в определённый момент времени (PITR).	Повторить.	Восстановление с использованием бэкапов будет затронуто.
		Ошибка продвижения Read-реплики	activeStandBySwitchFailed	Критический	Резервный DB‑экземпляр не берет на себя рабочие нагрузки с основного DB‑экземпляра из‑за сбоев сети или сервера. Исходный основной DB‑экземпляр продолжает предоставлять услуги в течение короткого времени.	Повторите операцию в часы непикового трафика.	Сбой продвижения Read-реплики.
		Состояние репликации ненормальное	abnormalReplicationStatus	Критический	Возможные причины следующие: Задержка репликации между основным экземпляром и резервным экземпляром или Read-репликой слишком велика, что обычно происходит при записи большого объёма данных в базы данных или обработке крупной транзакции. В часы пик данные могут блокироваться. Сеть между основным экземпляром и резервным экземпляром или Read-репликой отключена.	Проблема устраняется. Пожалуйста, дождитесь наших уведомлений.	Состояние репликации ненормально.
		Состояние репликации восстановлено	replicationStatusRecovered	Критичный	Задержка репликации между основным и резервным экземплярами находится в пределах нормального диапазона, либо сетевое соединение между ними восстановилось.	Проверьте, работают ли сервисы должным образом.	Состояние репликации восстановлено.
		Экземпляр DB неисправен	faultyDBInstance	Критичный	Отдельный или основной экземпляр DB был неисправен из‑за катастрофического сбоя, например, сбоя сервера.	Проблема исправляется. Пожалуйста, дождитесь наших уведомлений.	Состояние экземпляра ненормально.
		Экземпляр DB восстановлен	DBInstanceRecovered	Критичный	RDS восстанавливает резервный экземпляр DB с использованием высокой доступности. После восстановления экземпляра это событие будет отражено.	Состояние экземпляра DB в норме. Проверьте, работают ли службы должным образом.	Экземпляр восстановлен.
		Сбой при изменении одиночного экземпляра DB на основной/резервный	singleToHaFailed	Критический	Ошибка возникает, когда RDS создает резервный экземпляр DB или настраивает репликацию между основным и резервным экземплярами DB. Ошибка может возникнуть из‑за недостатка ресурсов в центре обработки данных, где находится резервный экземпляр DB.	Автоматическая повторная попытка выполняется.	Не удалось изменить одиночный экземпляр DB на основной/резервный.
		Процесс базы данных перезапущен	DatabaseProcessRestarted	Критический	Процесс базы данных остановлен из‑за недостатка памяти или высокой нагрузки.	Проверьте, работают ли службы должным образом.	Основной экземпляр перезапущен. Службы прерываются на короткое время.
		Хранилище экземпляра заполнено	instanceDiskFull	Критический	Обычно причина в том, что использование объёма данных слишком велико.	Увеличьте объём хранилища.	Хранилище экземпляра использовано полностью. Данные нельзя записать в базы данных.
		Хранилище экземпляра полностью восстановлено	instanceDiskFullRecovered	Критический	Диск экземпляра восстановлен.	Проверьте, работают ли службы должным образом.	У экземпляра есть доступное хранилище.
		Ошибка соединения с Kafka	kafkaConnectionFailed	Критический	Сеть нестабильна или сервер Kafka работает неправильно.	Проверьте, затронуты ли службы.	Отсутствует

Таблица 6 Document Database Service (DDS)
Источник события	Пространство имён	Имя события	ID события	Серьёзность события	Описание	Решение	Воздействие
DDS	SYS.DDS	DB instance creation failure	DDSCreateInstanceFailed	Серьёзный	Экземпляр DDS не может быть создан из‑за недостаточного количества дисков, квот и основных ресурсов.	Проверьте количество и квоты дисков. Освободите ресурсы и создайте экземпляры DDS повторно.	Не удаётся создать экземпляры DDS.
		Сбой репликации	DDSAbnormalReplicationStatus	Серьёзный	Возможные причины перечислены ниже: Задержка репликации между основным экземпляром и резервным экземпляром или Read-репликой слишком велика, что обычно происходит, когда в базы данных записывается большое количество данных или обрабатывается большая транзакция. В пиковые часы данные могут блокироваться. Сеть между основным экземпляром и резервным экземпляром или Read-репликой отключена.	Отправьте заявку в службу поддержки.	Операции чтения и записи на оригинальном экземпляре не прерываются, но обновления данных на резервном экземпляре могут задерживаться. Задержка репликации продолжает расти между основным и резервным экземплярами, и резервный экземпляр может быть отключён.
		Репликация восстановлена	DDSReplicationStatusRecovered	Серьёзный	Задержка репликации между основным и резервным экземплярами находится в пределах нормы, либо сетевое соединение между ними восстановилось.	Никаких действий не требуется.	Нет
		Сбой экземпляра DB	DDSFaultyDBInstance	Критичный	Это событие является ключевым событием тревоги и фиксируется, когда экземпляр неисправен из‑за катастрофы или отказа сервера.	Отправьте заявку в службу поддержки.	Сервис базы данных может быть недоступен.
		Экземпляр DB восстановлен.	DDSDBInstanceRecovered	Критичный	В случае катастрофы NoSQL предоставляет HA‑инструмент для автоматического или ручного исправления неисправности. После исправления неисправности это событие фиксируется.	Действие не требуется.	Нет
		Неисправный узел	DDSFaultyDBNode	Критичный	Это событие является ключевым событием тревоги и фиксируется, когда узел базы данных неисправен из‑за катастрофы или отказа сервера.	Проверьте, доступна ли служба базы данных, и отправьте запрос в службу поддержки.	Служба базы данных может быть недоступна.
		Узел восстановлен	DDSDBNodeRecovered	Критический	Если происходит катастрофа, NoSQL предоставляет HA‑инструмент для автоматического или ручного исправления ошибки. После исправления ошибки об этом событии сообщается.	Действия не требуются.	Нет
		Primary/standby switchover or failover	DDSPrimaryStandbySwitched	Критический	Выполняется переключение primary/standby или инициируется отказ.	Действия не требуются.	Нет
		Недостаточный объём хранения	DDSRiskyDataDiskUsage	Критический	Объём хранения недостаточен.	Увеличьте объем хранения. Для получения подробностей см. раздел "Scaling Up Storage Space" в соответствующем руководстве пользователя.	Экземпляр установлен в режим только для чтения, и данные нельзя записывать в экземпляр.
		Диск с данными расширен и стал доступным для записи	DDSDataDiskUsageRecovered	Критический	Ёмкость диска с данными была расширена, и диск с данными стал доступным для записи.	Дальнейшие действия не требуются.	Отрицательного воздействия нет.
		План удаления KMS-ключа	planDeleteKmsKey	Критический	Запрос на плановое удаление KMS-ключа был отправлен.	После того как KMS-ключ будет запланирован к удалению, следует своевременно расшифровать данные, зашифрованные KMS-ключом, или отменить удаление ключа.	После удаления KMS-ключа пользователи не смогут шифровать диски.

Таблица 7 Промежуточное программное обеспечение распределённой базы данных (DDM)
Источник события	Пространство имён	Имя события	ID события	Важность события	Описание	Решение	Воздействие
DDM	SYS.DDM	Не удалось создать экземпляр DDM	createDdmInstanceFailed	Критический	Недостаточно базовых ресурсов.	Освободите ресурсы и создайте экземпляр заново.	Экземпляры DDM не могут быть созданы.
		Не удалось изменить класс экземпляра DDM	resizeFlavorFailed	Критический	Исходные ресурсы недостаточны.	Отправьте заявку в службу O&M персоналу для координации ресурсов и повторите попытку.	Сервисы на некоторых узлах прерваны.
		Не удалось масштабировать DDM‑инстанс.	enlargeNodeFailed	Major	Исходные ресурсы недостаточны.	Отправьте заявку в службу O&M персоналу для координации ресурсов, удалите узел, который не удалось добавить, и снова добавьте узел.	Не удалось масштабировать инстанс.
		Не удалось масштабировать DDM‑инстанс в обратную сторону.	reduceNodeFailed	Major	Исходные ресурсы не удалось освободить.	Отправьте заявку в службу O&M персоналу для освобождения ресурсов.	Не удалось уменьшить масштаб инстанса.
		Не удалось перезапустить DDM‑инстанс.	restartInstanceFailed	Major	Связанные DB‑экземпляры находятся в ненормальном состоянии.	Проверьте, находятся ли связанные DB‑экземпляры в нормальном состоянии. Если экземпляры в норме, отправьте заявку в службу поддержки O&M.	Сервисы на некоторых узлах прерваны.
		Не удалось создать схему	createLogicDbFailed	Major	Возможные причины перечислены ниже: Пароль учётной записи DB‑экземпляра неверен. Группа безопасности экземпляра DDM и связанного DB‑экземпляра настроены неверно. В результате экземпляр DDM не может связаться с связанным DB‑экземпляром.	Проверьте Имя пользователя и пароль DB‑экземпляра корректны. Группы безопасности, связанные с экземпляром DDM и базовым экземпляром базы данных, настроены правильно.	Сервисы не могут работать корректно.
		Не удалось привязать EIP	bindEipFailed	Критический	EIP аномален.	Повторите попытку позже. В случае аварийной ситуации свяжитесь с персоналом O&M для устранения неисправности.	Экземпляр DDM недоступен из Интернета.
		Не удалось масштабировать схему.	migrateLogicDbFailed	Критический	Не удалось обработать базовые ресурсы.	Отправьте заявку в службу поддержки O&M.	Схема не может быть масштабирована.
		Не удалось повторно масштабировать схему.	retryMigrateLogicDbFailed	Критический	Не удалось обработать базовые ресурсы.	Отправьте заявку в службу поддержки O&M.	Схема не может быть масштабирована.

Таблица 8 Elastic IP и пропускная способность
Источник события	Пространство имён	Имя события	ID события	Тяжесть события
Elastic IP и пропускная способность	SYS.VPC	VPC удалена	deleteVpc	Major
		VPC изменена	modifyVpc	Minor
		Подсеть удалена	deleteSubnet	Minor
		Подсеть изменена	modifySubnet	Minor
		Пропускная способность изменена	modifyBandwidth	Незначительный
		VPN удалён	deleteVpn	Критический
		VPN изменён	modifyVpn	Незначительный

Таблица 9 Elastic Volume Service (EVS)
Источник события	Пространство имён	Имя события	ID события	Важность события	Описание	Решение	Влияние
EVS	SYS.EVS	Обновить диск	updateVolume	Незначительный	Обновить имя и описание диска EVS.	Никаких дальнейших действий не требуется.	Нет
		Расширить диск	extendVolume	Незначительный	Расширить диск EVS.	Никаких дальнейших действий не требуется.	Нет
		Удалить диск	deleteVolume	Критический	Удалить диск EVS.	Никаких дальнейших действий не требуется.	Удалённые диски нельзя восстановить.
		Достигнут верхний предел QoS NOTE: Это событие больше не поддерживается для EVS и будет удалено из Cloud Eye.	reachQoS	Критический	Латентность I/O увеличивается, так как верхние пределы QoS диска часто достигаются, и активируется управление потоком.	Измените тип диска на более высокую спецификацию.	Текущий диск может не соответствовать требованиям сервиса.

Таблица 10 Identity and Access Management (IAM)
Источник события	Пространство имён	Имя события	ID события	Серьёзность события
IAM	SYS.IAM	Вход	вход	Незначительный
		Выход	выход	Незначительный
		Пароль изменён	changePassword	Критический
		Пользователь создан	createUser	Незначительный
		Пользователь удалён	deleteUser	Критический
		Пользователь обновлен	updateUser	Незначительный
		Группа пользователей создана	createUserGroup	Незначительный
		Группа пользователей удалена	deleteUserGroup	Критический
		Группа пользователей обновлена	updateUserGroup	Незначительный
		Провайдер идентификации создан	createIdentityProvider	Незначительный
		Провайдер идентификации удалён	deleteIdentityProvider	Критический
		Провайдер идентификации обновлен	updateIdentityProvider	Незначительный
		Метаданные обновлены	updateMetadata	Незначительный
		Политика безопасности обновлена	updateSecurityPolicies	Критический
		Учетные данные добавлены	addCredential	Критический
		Учетные данные удалены	deleteCredential	Критический
		Проект создан	createProject	Незначительный
		Проект обновлен	updateProject	Незначительный
		Проект приостановлен	suspendProject	Критический

Таблица 11 Служба управления ключами (KMS)
Источник события	Пространство имён	Имя события	ID события	Тяжесть события
KMS	SYS.KMS	Ключ отключён	disableKey	Критический
		Запланировано удаление ключа	scheduleKeyDeletion	Незначительный
		Грант отозван	retireGrant	Критический
		Грант отозван	revokeGrant	Критический

Таблица 12 Object Storage Service (OBS)
Источник события	Пространство имён	Имя события	ID события	Тяжесть события
OBS	SYS.OBS	Бакет удалён	deleteBucket	Major
		Политика бакета удалена	deleteBucketPolicy	Major
		Бакет ACL настроен	setBucketAcl	Minor
		Политика бакета настроена	setBucketPolicy	Minor

Таблица 13 Cloud Eye
Источник события	Пространство имён	Имя события	ID события	Серьёзность события	Описание	Решение
Cloud Eye	SYS.CES	Прерывание heartbeat агента	agentHeartbeatInterrupted	Major	Процесс сбора агента неисправен.	Подтвердите, что доменное имя агента не может быть разрешено. Проверьте, находится ли ваш аккаунт в просрочке. Процесс агента неисправен. Перезапустите агент. Если процесс агента всё ещё неисправен после перезапуска, файлы агента могут быть повреждены. В этом случае переустановите агент. Подтвердите, что время сервера не совпадает с локальным стандартным временем. Обновите агент до последней версии.
		Агент вернулся к нормальному состоянию	agentResumed	Информационный	Агент вернулся к нормальному состоянию.	Дальнейшие действия не требуются.
		Агент неисправен	agentFaulty	Критический	Агент был неисправен, и этот статус был отправлен в Cloud Eye.	Процесс агента неисправен. Перезапустите агента. Если процесс агента все еще неисправен после перезапуска, файлы агента могут быть повреждены. В этом случае переустановите агента. Обновите агент до последней версии.
		Агент отключен	agentDisconnected	Критический	Процесс коммуникации агента неисправен.	Подтвердите, что доменное имя агента не может быть разрешено. Проверьте, находится ли ваш аккаунт в задолженности. Процесс Agent неисправен. Перезапустите Agent. Если процесс Agent всё ещё неисправен после перезапуска, файлы Agent могут быть повреждены. В этом случае переустановите Agent. Подтвердите, что время сервера отличается от локального стандартного времени. Обновите Agent до последней версии.

Таблица 14 Distributed Cache Service (DCS)
Источник события	Пространство имён	Имя события	ID события	Серьёзность события	Описание	Решение	Влияние
DCS	SYS.DCS	Повторная полная синхронизация во время онлайн‑миграции	migrationFullResync	Незначительный	Если онлайн‑миграция не удалась, будет запущена полная синхронизация, поскольку инкрементальная синхронизация выполнить невозможно.	Проверьте, повторно запускаются ли попытки полной синхронизации. Проверьте, подключён ли исходный инстанс и не перегружен ли он. Если попытки полной синхронизации повторяются, обратитесь к сотрудникам O&M.	Задача миграции отключена от исходного инстанса, что вызывает ещё одну полную синхронизацию. В результате использование CPU исходным инстансом может резко возрасти.
		Переключение master/standby в Memcached	memcachedMasterStandbyFailover	Незначительный	Узел master был аномальным, переводя standby‑узел в статус master.	Проверьте, могут ли сервисы восстановиться автоматически. Если приложения не восстанавливаются, перезапустите их.	Постоянные соединения с инстансом будут прерваны.
		Сервер Redis аномален	redisNodeStatusAbnormal	Критический	Состояние сервера Redis было аномальным.	Проверьте, затронуты ли сервисы. Если да, свяжитесь с персоналом O&M.	Если главный узел аномален, выполняется автоматическое переключение. Если резервный узел аномален и клиент напрямую подключается к резервному узлу для разделения чтения/записи, данные не могут быть прочитаны.
		Сервер Redis восстановлен	redisNodeStatusNormal	Major	Состояние сервера Redis восстановлено.	Проверьте, могут ли сервисы восстановиться. Если приложения не переподключились, перезапустите их.	Восстановление после исключения.
		Сбой синхронизации при миграции данных	migrateSyncDataFail	Major	Онлайн-миграция не удалась.	Перенастройте задачу миграции и выполните миграцию данных заново. Если ошибка сохраняется, свяжитесь с персоналом O&M.	Миграция данных не удалась.
		Экземпляр Memcached аномален	memcachedInstanceStatusAbnormal	Критический	Состояние узла Memcached было аномальным.	Проверьте, затронуты ли сервисы. Если да, обратитесь к персоналу O&M.	Экземпляр Memcached находится в аномальном состоянии и может быть недоступен.
		Экземпляр Memcached восстановлен	memcachedInstanceStatusNormal	Критический	Состояние узла Memcached восстановилось.	Проверьте, могут ли сервисы восстановиться. Если приложения не переподключены, перезапустите их.	Восстановление после исключения.
		Сбой бэкапа экземпляра	instanceBackupFailure	Критический	Экземпляр DCS не удалось создать бэкап из‑за сбоя доступа к OBS.	Повторите бэкап вручную.	Автоматический бэкап не удался.
		Аномальный перезапуск узла экземпляра	instanceNodeAbnormalRestart	Критический	Узлы DCS перезапустились неожиданно, когда стали неисправными.	Проверьте, могут ли службы восстановиться. Если приложения не могут восстановиться, перезапустите их.	Постоянные соединения с экземпляром будут прерваны.
		Длительные Lua-скрипты остановлены	scriptsStopped	Информационный	Lua‑скрипты, которые вышли за время выполнения, автоматически остановились.	Оптимизируйте Lua-скрипты, чтобы предотвратить превышение времени выполнения.	Если выполнение Lua‑скриптов занимает длительное время, они будут принудительно остановлены, чтобы избежать блокировки всего экземпляра.
		Узел перезапущен	nodeRestarted	Информационный	После выполнения операций записи узел автоматически перезапустился, чтобы остановить Lua‑скрипты, превысившие время выполнения.	Проверьте, могут ли сервисы восстанавливаться самостоятельно. Если приложения не могут восстановиться, перезапустите их.	Постоянные соединения с инстансом будут прерваны.
		Автоматическое переключение	masterStandbyFailover	Major	Мастер‑узел отказал из‑за аппаратного/программного сбоя, вызвав переход реплика‑узла к обслуживанию.	Проверьте, что приложение переподключилось к инстансу, и сбой был устранён. В противном случае перезапустите приложение.	Ошибки доступа прерывают постоянные соединения с инстансом.
		Ручное переключение	masterStandbySwitchover	Major	Выполнение переключений master/standby через консоль или вызов API переключения master/standby инициирует эти события. Master/Standby переключения происходят при изменении спецификаций или после перезапусков инстансов. Ручное O&M на бекенде, необходимое для отработки сбоев или миграции ресурсов, инициирует переключения master/standby.	Проверьте, что приложение повторно подключилось к инстансу и ошибка была исправлена. В противном случае перезапустите приложение.	Ошибки доступа прерывают постоянные соединения с инстансом.

Таблица 15 Host Security Service (HSS)
Источник события	Пространство имён	Имя события	ID события	Серьёзность события	Описание	Решение	Влияние
HSS	SYS.HSS	HSS агент отключён	hssAgentAbnormalOffline	Критический	Связь между агентом и сервером является аномальной, либо процесс агента на сервере аномален.	Исправьте подключение к сети. Если агент всё ещё остаётся офлайн длительное время после восстановления сети, процесс агента может быть аномальным. В этом случае, войдите в сервер и перезапустите процесс агента.	Сервисы прерваны.
HSS	SYS.HSS	Аномальный статус агента HSS	hssAgentAbnormalProtection	Критический	Агент аномален, вероятно, из‑за недостаточного количества ресурсов.	Войдите в сервер и проверьте свои ресурсы. Если использование памяти или других системных ресурсов слишком высоко, сначала увеличьте их ёмкость. Если ресурсы достаточны, но проблема сохраняется после перезапуска процесса агента, отправьте сервисный тикет персоналу O&M.	Сервисы прерваны.

Таблица 16 Image Management Service (IMS)
Источник события	Пространство имён	Имя события	ID события	Серьёзность события	Описание	Решение	Воздействие
IMS	SYS.IMS	Создать образ	createImage	Серьезный	Образ был создан.	Нет	Вы можете использовать этот образ для создания облачных серверов.
		Обновить образ	updateImage	Серьезный	Метаданные образа были изменены.	Нет	Создание облачных серверов из этого образа может завершиться неудачей.
		Удалить образ	deleteImage	Серьезный	Образ был удалён.	Нет	Это изображение будет недоступно в консоли управления.

Таблица 17 MapReduce Service (MRS)
Источник события	Пространство имён	Имя события	ID события	Серьёзность события	Описание	Решение	Влияние
MRS	SYS.MRS	Переключение DBServer	dbServerSwitchover	Незначительный	Происходит переключение DBServer.	Подтвердите с персоналом O&M, вызвано ли переключение active/standby нормальными операциями.	Последовательные переключения active/standby могут повлиять на доступность службы Hive.
		Переполнение канала Flume	flumeChannelOverflow	Незначительный	Переполнение канала Flume	Проверьте, правильно ли настроена конфигурация канала Flume и резко ли увеличивается объём сервиса.	Задачи Flume не могут записать данные в бэкенд.
		Переключение NameNode	namenodeSwitchover	Незначительный	Происходит переключение NameNode.	Подтвердите у персонала O&M, вызвано ли переключение active/standby обычными операциями.	Последовательные переключения active/standby могут вызвать сбои чтения/записи файлов HDFS.
		Переключение ResourceManager	resourceManagerSwitchover	Незначительный	Переключение ResourceManager	Подтвердите у персонала O&M, вызвано ли переключение active/standby обычными операциями.	Последовательные переключения active/standby могут вызвать исключения или даже сбои задач YARN
		JobHistoryServer Переключение	jobHistoryServerSwitchover	Незначительный	Происходит переключение JobHistoryServer	Подтвердите с персоналом O&M, вызвано ли переключение active/standby обычными операциями	Последовательные переключения active/standby могут вызвать сбои чтения журналов задач MapReduce
		HMaster Переключение	hmasterFailover	Незначительный	Происходит переключение HMaster	Подтвердите с персоналом O&M, вызвано ли переключение active/standby обычными операциями	Последовательные переключения active/standby могут повлиять на доступность сервиса HBase
		Hue Переключение	hueFailover	Незначительный	Отказовое переключение Hue происходит.	Подтвердите у персонала O&M, что переключение активный/резервный вызвано обычными операциями.	Переключение активный/резервный может повлиять на отображение страницы HUE.
		Отказоустойчивость Impala HaProxy	impalaHaProxyFailover	Незначительный	Происходит переключение Impala HaProxy.	Подтвердите у персонала O&M, что переключение активный/резервный вызвано обычными операциями.	Последовательные переключения активный/резервный могут повлиять на доступность сервиса Impala.
		Отказоустойчивость Impala StateStoreCatalog	impalaStateStoreCatalogFailover	Незначительный	Происходит отказоустойчивое переключение Impala StateStoreCatalog.	Подтвердите у персонала O&M, что переключение активный/резервный вызвано обычными операциями.	Последовательные переключения активный/резервный могут повлиять на доступность сервиса Impala.
		LdapServer Failover	ldapServerFailover	Незначительный	Переключение LdapServer происходит.	Подтвердите с персоналом O&M, вызвано ли переключение активный/резервный нормальными операциями.	Последовательные переключения активный/резервный могут повлиять на доступность сервиса LdapServer.
		Loader Switchover	loaderSwitchover	Незначительный	Переключение Loader происходит.	Подтвердите с персоналом O&M, вызвано ли переключение активный/резервный нормальными операциями.	Переключение активный/резервный может повлиять на доступность сервиса Loader.
		Manager Switchover	managerSwitchover	Информационный	Переключение Manager происходит.	Подтвердите у персонала O&M, вызвано ли переключение active/standby нормальными операциями.	Переключение active/standby Manager может сделать страницу Manager недоступной и вызвать аномальные значения некоторых элементов мониторинга.
		Выполнение задачи не удалось	jobRunningFailed	Информационный	Задача не выполнена.	На Задачи вкладке, проверьте, является ли неудавшаяся задача нормальной.	Задача не выполнена.
		Задача завершена	jobkilled	Информационный	Задача завершена.	Проверьте, была ли задача завершена вручную.	Процесс выполнения задачи завершён.
		Сбой выполнения Oozie Workflow	oozieWorkflowExecutionFailure	Незначительный	Рабочие процессы Oozie не выполняются.	Просмотрите журналы Oozie, чтобы найти причину сбоя.	Рабочие процессы Oozie не выполняются.
		Сбой выполнения запланированного задания Oozie	oozieScheduledJobExecutionFailure	Незначительный	Запланированные задачи Oozie не выполняются.	Просмотрите журналы Oozie, чтобы найти причину сбоя.	Запланированные задачи Oozie не выполняются.
		Служба ClickHouse недоступна	clickHouseServiceUnavailable	Критический	Служба ClickHouse недоступна.	Для получения подробностей см. раздел "ALM-45425 ClickHouse Service Unavailable" в Руководство пользователя службы MapReduce.	Служба ClickHouse находится в ненормальном состоянии. Операции кластера не могут быть выполнены для службы ClickHouse в FusionInsight Manager, и функция службы ClickHouse не может быть использована.
		DBService Сервис недоступен	dbServiceServiceUnavailable	Критический	DBService недоступен	Для получения деталей см. раздел "ALM-27001 DBService Service Unavailable" в MapReduce Service Руководство пользователя.	Служба базы данных недоступна и не может предоставлять функции импорта данных и запросов для сервисов верхнего уровня. В результате происходят исключения сервиса.
		DBService Прерывание сигнала Heartbeat между активным и резервным узлами	dbServiceHeartbeatInterruptionBetweentheActiveAndStandbyNodes	Серьезный	DBService Прерывание сигнала Heartbeat между активным и резервным узлами	Для получения деталей см. раздел "ALM-27003 Heartbeat Interruption Between the Active and Standby Nodes" в MapReduce Service Руководство пользователя.	Во время прерывания heartbeat сервиса DBService только один узел может предоставлять сервис. Если этот узел неисправен, резервный узел недоступен для failover и сервис недоступен.
		Несоответствие данных между активными и резервными DBServices	dataInconsistencyBetweenActiveAndStandbyDBServices	Критический	Несоответствие данных между активными и резервными DBServices	Для получения подробностей см. раздел "ALM-27004 Data Inconsistency Between Active and Standby DBService" в MapReduce Service Руководство пользователя.	Когда данные не синхронизированы между активными и резервными DBServices, данные могут быть утеряны или некорректны, если активный экземпляр становится некорректным.
		База данных переходит в режим только для чтения	databaseEnterstheReadOnlyMode	Критический	База данных переходит в режим только для чтения.	Для деталей см. раздел "ALM-27007 Database Enters the Read-Only Mode" в MapReduce Service Руководство пользователя.	База данных переходит в режим только для чтения, вызывая потерю данных службы.
		Flume Service недоступна	flumeServiceUnavailable	Критический	Flume Service недоступна	Для деталей см. раздел "ALM-24000 Flume Service Unavailable" в MapReduce Service Руководство пользователя.	Flume работает аномально, и служба передачи данных прервана.
		Исключение агента Flume	flumeAgentException	Важный	Агент Flume находится в аномальном состоянии.	Для деталей см. раздел "ALM-24001 Flume Agent Exception" в MapReduce Service Руководство пользователя.	Экземпляр агента Flume, для которого сгенерировано предупреждение, не может правильно предоставлять услуги, и задачи передачи данных экземпляра временно прерываются. Данные в режиме реального времени теряются во время передачи данных в реальном времени.
		Тревога отключения клиента Flume	flumeClientDisconnected	Критический	Тревога отключения клиента Flume	Для получения подробностей см. раздел "ALM-24003 Flume Client Interrupted" в MapReduce Service Руководство пользователя.	Flume клиент, для которого сгенерировано предупреждение, не может взаимодействовать с сервером Flume, и данные клиента Flume не могут быть отправлены на сервер Flume.
		Исключение происходит при чтении данных Flume	exceptionOccursWhenFlumeReadsData	Критический	Исключения происходят, когда Flume читает данные.	Для получения подробностей см. раздел "ALM-24004 Exception Occurs When Flume Reads Data" в MapReduce Service Руководство пользователя.	Если данные найдены в источнике данных и Flume Source постоянно не удаётся считывать данные, сбор данных прекращается.
		Исключение происходит, когда Flume передаёт данные	exceptionOccursWhenFlumeTransmitsData	Серьёзный	Исключения происходят, когда flume передаёт данные.	Для получения подробностей см. раздел "ALM-24005 Exception Occurs When Flume Transmits Data" в MapReduce Service Руководство пользователя.	Если использование диска Flume Channel постоянно растёт, время, необходимое для импорта данных в указанное назначение, увеличивается. Когда использование диска Flume Channel достигает 100%, процесс агента Flume приостанавливается.
		Файл сертификата Flume недействителен	flumeCertificateFileIsinvalid	Серьёзный	Файл сертификата Flume недействителен или повреждён.	Для получения подробностей см. раздел "ALM-24010 Flume Certificate File Is Invalid or Damaged" в MapReduce Service Руководство пользователя.	Файл сертификата Flume недействителен или повреждён, и клиент Flume не может получить доступ к серверу Flume.
		Flume Certificate File Is About to Expire	flumeCertificateFileIsAboutToExpire	Major	Файл сертификата Flume скоро истечёт.	Для получения подробностей см. раздел "ALM-24011 Flume Certificate File Is About to Expire" в MapReduce Service Руководство пользователя.	Файл сертификата Flume скоро истечёт, что не оказывает негативного влияния на систему.
		Flume Certificate File Is Expired	flumeCertificateFileIsExpired	Major	Файл сертификата Flume просрочен.	Для подробностей см. раздел "ALM-24012 Flume Certificate File Has Expired" в Руководство пользователя MapReduce Service.	Файл сертификата Flume просрочен, и функции ограничены. Клиент Flume не может получить доступ к серверу Flume.
		Файл сертификата Flume MonitorServer недействителен	flumeMonitorServerCertificateFileIsInvalid	Major	Файл сертификата Flume MonitorServer недействителен.	Для подробностей см. раздел "ALM-24013 Flume MonitorServer Certificate File Is Invalid or Damaged" в Руководство пользователя MapReduce Service.	Файл сертификата MonitorServer недействителен или повреждён, и клиент Flume не может получить доступ к серверу Flume.
		Срок действия файла сертификата Flume MonitorServer скоро истекает	flumeMonitorServerCertificate FileIsAboutToExpire	Важный	Файл сертификата Flume MonitorServer скоро истечёт.	Для получения подробностей см. раздел "ALM-24014 Flume MonitorServer Certificate Is About to Expire" в MapReduce Service User Guide.	Сертификат MonitorServer скоро истечёт, и это не окажет негативного влияния на систему.
		Файл сертификата Flume MonitorServer истёк	flumeMonitorServerCertificateFileIsExpired	Важный	Файл сертификата Flume MonitorServer истёк.	Для получения подробностей см. раздел "ALM-24015 Flume MonitorServer Certificate File Has Expired" в MapReduce Service User Guide.	Файл сертификата MonitorServer истёк, и функции ограничены. Клиент Flume не может получить доступ к серверу Flume.
		HDFS Service недоступен	hdfsServiceUnavailable	Критический	Служба HDFS недоступна.	Для получения подробностей смотрите раздел "ALM-14000 HDFS Service Unavailable" в Руководство пользователя MapReduce Service.	HDFS не может предоставлять сервисы для компонентов верхнего уровня, основанных на сервисе HDFS, таких как HBase и MapReduce. В результате пользователи не могут читать или записывать файлы.
		NameService Service недоступен	nameServiceServiceUnavailable	Важный	Служба NameService ненормальна.	Для получения подробностей смотрите раздел "ALM-14010 NameService Service Is Abnormal" в Руководство пользователя MapReduce Service.	HDFS не может предоставлять сервисы для компонентов верхнего уровня, основанных на сервисе NameService, таких как HBase и MapReduce. В результате пользователи не могут читать или записывать файлы.
		DataNode Data Directory не настроен должным образом	datanodeDataDirectoryIsNotConfiguredProperly	Major	Каталог данных DataNode не настроен должным образом.	Для получения подробностей см. раздел "ALM-14011 DataNode Data Directory Is Not Configured Properly" в MapReduce Service Руководство пользователя.	Если каталог данных DataNode смонтирован на критических каталогах, таких как корневой каталог, пространство диска корневого каталога будет исчерпано после длительной работы. Это приводит к системному сбою. Если каталог данных DataNode настроен неправильно, производительность HDFS ухудшится.
		Journalnode не синхронизирован	journalnodeIsOutOfSynchronization	Major	Данные Journalnode не синхронизированы.	Для получения подробностей см. раздел "ALM-14012 JournalNode Is Out of Synchronization" в MapReduce Service Руководство пользователя.	Когда JournalNode работает некорректно, данные на узле не синхронизируются с данными на других JournalNode. Если данные более чем на половине JournalNode не синхронизированы, NameNode не может работать корректно, из‑за чего сервис HDFS становится недоступным.
		Не удалось обновить файл NameNode FsImage	failedToUpdateTheNameNodeFsImageFile	Критический	Не удалось обновить файл NameNode FsImage.	Для получения деталей см. раздел "ALM-14013 Failed to Update the NameNode FsImage File" в MapReduce Service Руководство пользователя.	Если файл FsImage в каталоге данных активного NameNode не обновляется, функция комбинирования метаданных HDFS работает аномально и требует исправления. Если исправление не выполнено, файлы Editlog постоянно увеличиваются после работы HDFS в течение периода. В этом случае перезапуск HDFS занимает много времени, так как необходимо загрузить большое количество файлов Editlog. Кроме того, это оповещение также указывает, что резервный NameNode находится в ненормальном состоянии, и механизм высокой доступности (HA) NameNode становится недействительным. Когда активный NameNode выходит из строя, сервис HDFS становится недоступным.
		Ошибка диска DataNode	datanodeDiskFault	Major	Диск DataNode неисправен.	Для получения подробностей смотрите раздел "ALM-14027 DataNode Disk Fault" в MapReduce Service Руководство пользователя.	Если получено оповещение о неисправности диска DataNode, на DataNode существует повреждённый раздел диска. В результате записанные файлы могут быть потеряны.
		Yarn Service недоступен	yarnServiceUnavailable	Critical	Служба Yarn недоступна.	Для получения подробной информации см. раздел "ALM-18000 Yarn Service Unavailable" в MapReduce Service Руководство пользователя.	Кластер не может предоставить сервис Yarn. Пользователи не могут запускать новые приложения. Отправленные приложения не могут быть запущены.
		NodeManager Heartbeat потерян	nodemanagerHeartbeatLost	Major	NodeManager heartbeat утрачена.	Для получения подробной информации см. раздел "ALM-18002 NodeManager Heartbeat Lost" в MapReduce Service Руководство пользователя.	Потерянный узел NodeManager не может предоставить сервис Yarn. Количество контейнеров уменьшается, поэтому производительность кластера ухудшается.
		NodeManager в плохом состоянии	nodemanagerUnhealthy	Major	NodeManager находится в нездоровом состоянии.	Для получения подробной информации см. раздел "ALM-18003 NodeManager Unhealthy" в MapReduce Service Руководство пользователя.	Неисправный узел NodeManager не может предоставлять сервис Yarn. Количество контейнеров уменьшается, поэтому производительность кластера ухудшается.
		Тайм‑аут приложения Yarn	yarnApplicationTimeout	Незначительный	Выполнение задачи Yarn завершилось с тайм‑аутом.	Для получения подробной информации см. раздел "ALM-18020 Yarn Task Execution Timeout" в MapReduce Service Руководство пользователя.	Сигнал тревоги сохраняется после тайм‑аута выполнения задачи. Однако задача всё ещё может быть выполнена корректно, поэтому этот сигнал тревоги не оказывает никакого влияния на систему.
		MapReduce Service недоступен	mapreduceServiceUnavailable	Критический	Служба MapReduce недоступна.	Для получения подробностей смотрите раздел "ALM-18021 MapReduce Service Unavailable" в Руководство пользователя службы MapReduce.	Кластер не может предоставить службу MapReduce. Например, MapReduce нельзя использовать для просмотра журналов задач, а функция архивирования журналов недоступна.
		Недостаточно ресурсов очереди Yarn	insufficientYarnQueueResources	Незначительный	Ресурсы очереди Yarn недостаточны.	Для получения подробностей смотрите раздел "ALM-18022 Insufficient Yarn Queue Resources" в Руководство пользователя службы MapReduce.	Для завершения приложения требуется много времени. Новое приложение не может работать длительное время после отправки.
		Служба HBase недоступна	hbaseServiceUnavailable	Критический	Служба HBase недоступна.	Подробнее см. раздел "ALM-19000 HBase Service Unavailable" в MapReduce Service Руководство пользователя.	Операции не могут быть выполнены, например чтение или запись данных и создание таблиц.
		Путь к системной таблице или файл HBase отсутствует	systemTablePathOrFileOfHBaseIsMissing	Критический	Каталоги таблиц или файлы системы HBase потеряны.	Подробнее см. раздел "ALM-19012 HBase System Table Directory or File Lost" в MapReduce Service Руководство пользователя.	Служба HBase не может перезапуститься или запуститься.
		Hive Service недоступен	hiveServiceUnavailable	Критический	Сервис Hive недоступен.	Для подробностей см. раздел "ALM-16004 Hive Service Unavailable" в MapReduce Service Руководство пользователя.	Hive не может предоставлять услуги загрузки данных, запросов и извлечения.
		Hive Data Warehouse удалён	hiveDataWarehouseIsDeleted	Критический	Хранилище данных Hive удалено.	Для подробностей см. раздел "ALM-16045 Hive Data Warehouse Is Deleted" в MapReduce Service Руководство пользователя.	Если удалено хранилище данных Hive по умолчанию, базы данных и таблицы не могут быть созданы в хранилище данных по умолчанию, что влияет на использование сервиса.
		Разрешения Hive Data Warehouse изменены	hiveDataWarehousePermissionIsModified	Критический	Разрешения хранилища данных Hive изменены.	Для получения подробной информации см. раздел "ALM-16046 Hive Data Warehouse Permission Is Modified" в MapReduce Service Руководство пользователя.	Если разрешения в хранилище данных Hive по умолчанию изменены, разрешения для пользователей или групп пользователей создавать базы данных или таблицы в хранилище данных по умолчанию будут затронуты. Разрешения будут расширены или сокращены.
		HiveServer был снят с регистрации в zookeeper	hiveServerHasBeenDeregisteredFromZookeeper	Major	HiveServer был снят с регистрации в zookeeper.	Для получения подробной информации см. раздел "ALM-16047 HiveServer Has Been Deregistered from ZooKeeper" в MapReduce Service Руководство пользователя.	Если конфигурации Hive невозможно прочитать из ZooKeeper, HiveServer будет недоступен.
		Путь к библиотеке Tez или Spark не существует	tezlibOrSparklibIsNotExist	Major	Путь к библиотеке tez или spark не существует.	Для получения подробной информации см. раздел "ALM-16048 Tez or Spark Library Path Does Not Exist" в MapReduce Service User Guide.	Функции Hive on Tez и Hive on Spark затронуты.
		Hue Service Unavailable	hueServiceUnavailable	Критический	Сервис Hue недоступен.	Для получения подробной информации см. раздел "ALM-20002 Hue Service Unavailable" в MapReduce Service User Guide.	Система не может предоставлять услуги по загрузке данных, запросам и извлечению.
		Impala Service Unavailable	impalaServiceUnavailable	Критический	Сервис Impala недоступен.	Для получения подробной информации см. раздел "ALM-29000 Impala Service Unavailable" в MapReduce Service Руководство пользователя.	Сервис Impala находится в аварийном состоянии. Операции с кластером нельзя выполнить на Impala в FusionInsight Manager, и функции сервиса Impala не могут быть использованы.
		Kafka Service недоступен.	kafkaServiceUnavailable	Критический	Сервис Kafka недоступен.	Для получения подробной информации см. раздел "ALM-38000 Kafka Service Unavailable" в MapReduce Service Руководство пользователя.	Кластер не может предоставлять сервис Kafka, и пользователи не могут выполнять новые задачи Kafka.
		Статус стандартного пользователя Kafka в аварийном состоянии	statusOfKafkaDefaultUserIsAbnormal	Критический	Состояние пользователя Kafka по умолчанию аномально.	Для получения подробностей смотрите раздел "ALM-38007 Status of Kafka Default User Is Abnormal" в MapReduce Service Руководство пользователя.	Если состояние пользователя Kafka по умолчанию аномально, синхронизация метаданных между Brokers и взаимодействие между Kafka и ZooKeeper будут затронуты, что повлияет на производство сервисов, их потребление и создание и удаление тем.
		Аномальное состояние каталога данных Kafka	abnormalKafkaDataDirectoryStatus	Критичный	Состояние каталога данных Kafka аномально.	Для получения подробностей смотрите раздел "ALM-38008 Abnormal Kafka Data Directory Status" в MapReduce Service Руководство пользователя.	Если состояние каталога данных Kafka аномально, текущие реплики всех разделов в каталоге данных выводятся из онлайн-режима, и состояние каталога данных нескольких узлов становится аномальным одновременно. В результате некоторые разделы могут стать недоступными.
		Topics with Single Replica	topicsWithSingleReplica	Warning	Тема с одной репликой существует.	Для подробностей см. раздел "ALM-38010 Topics with Single Replica" в MapReduce Service User Guide.	Существует риск единой точки отказа (SPOF) для тем с только одной репликой. Когда узел, на котором находится реплика, становится аномальным, раздел не имеет лидера, и сервисы в теме затронуты.
		KrbServer Service Unavailable	krbServerServiceUnavailable	Critical	Сервис KrbServer недоступен.	Для подробностей см. раздел "ALM-25500 KrbServer Service Unavailable" в MapReduce Service User Guide.	Когда генерируется эта тревога, операции для компонента KrbServer в кластере выполнить нельзя. Аутентификация KrbServer в других компонентах будет затронута. Состояние работы компонентов, зависящих от KrbServer в кластере, неисправно.
		Kudu Service Недоступен	kuduServiceUnavailable	Критический	Сервис Kudu недоступен.	Для получения подробностей см. раздел "ALM-29100 Kudu Service Unavailable" в MapReduce Service Руководство пользователя.	Пользователи не могут использовать сервис Kudu.
		LdapServer Service Недоступен	ldapServerServiceUnavailable	Критический	Сервис LdapServer недоступен.	Для получения подробностей см. раздел "ALM-25000 LdapServer Service Unavailable" в MapReduce Service Руководство пользователя.	Когда генерируется эта тревога, для пользователей KrbServer и пользователей LdapServer в кластере нельзя выполнять операции. Например, пользователи, группы пользователей или роли не могут быть добавлены, удалены или изменены, а пароли пользователей не могут быть изменены на портале FusionInsight Manager. Аутентификация существующих пользователей в кластере не затронута.
		Ненормальная LdapServer Синхронизация Данных	abnormalLdapServerDataSynchronization	Критический	Синхронизация данных LdapServer ненормальна.	Подробнее см. раздел "ALM-25004 Abnormal LdapServer Data Synchronization" в MapReduce Service Руководство пользователя.	Несоответствие данных LdapServer происходит из‑за повреждения данных LdapServer на Manager или в кластере. Процесс LdapServer с повреждёнными данными не может предоставлять услуги внешне, и функции аутентификации Manager и кластера затронуты.
		Nscd Service Ненормален	nscdServiceIsAbnormal	Важный	Служба Nscd является аномальной.	Для получения подробностей см. раздел "ALM-25005 nscd Service Exception" в MapReduce Service User Guide.	Если служба Nscd является аномальной, узел может не синхронизировать данные с LDAP сервером. В этом случае запуск команды id может не получить данные с LDAP сервера, что влияет на сервисы верхнего уровня.
		Служба Sssd является аномальной	sssdServiceIsAbnormal	Major	Служба Sssd является аномальной.	Для получения подробностей см. раздел "ALM-25006 Sssd Service Exception" в MapReduce Service User Guide.	Если служба Sssd является аномальной, узел может не синхронизировать данные с LdapServer. В этом случае запуск команды id может не получить данные LDAP, что влияет на сервисы верхнего уровня.
		Служба загрузчика недоступна	loaderServiceUnavailable	Критический	Служба Loader недоступна.	Для получения подробностей см. раздел "ALM-23001 Loader Service Unavailable" в MapReduce Service Руководство пользователя.	Когда служба Loader недоступна, функции загрузки данных, импорта и преобразования недоступны.
Служба Oozie недоступна.	oozieServiceUnavailable	Критический	Служба Oozie недоступна.	Для получения подробностей см. раздел "ALM-17003 Oozie Service Unavailable" в MapReduce Service Руководство пользователя.	Службу Oozie нельзя использовать для отправки заданий.
Служба Ranger недоступна.	rangerServiceUnavailable	Критический	Служба Ranger недоступна.	Для получения подробностей см. раздел "ALM-45275 Ranger Service Unavailable" в MapReduce Service User Guide.	Когда служба Ranger недоступна, Ranger не может работать должным образом, и нативный UI Ranger недоступен.
Ненормальный статус RangerAdmin	abnormalRangerAdminStatus	Серьёзный	Статус RangerAdmin ненормален.	Для получения подробностей см. раздел "ALM-45276 Abnormal RangerAdmin Status" в MapReduce Service User Guide.	Если статус одного RangerAdmin ненормален, доступ к нативному UI Ranger не нарушается. Если статус двух RangerAdmin ненормален, нативный UI Ranger недоступен, и операции, такие как создание, изменение и удаление политик, выполнить нельзя.
Spark2x Service Unavailable	spark2xServiceUnavailable	Критический	Сервис Spark2x недоступен.	Для получения подробностей см. раздел "ALM-43001 Spark2x Service Unavailable" в MapReduce Service Руководство пользователя.	Задачи Spark, отправленные пользователями, не могут быть выполнены.
Storm Service недоступен	stormServiceUnavailable	Критический	Сервис Storm недоступен.	Для получения подробностей см. раздел "ALM-26051 Storm Service Unavailable" в MapReduce Service Руководство пользователя.	Кластер не может предоставлять сервис Storm извне, и пользователи не могут выполнять новые задачи Storm.
ZooKeeper Service недоступен	zooKeeperServiceUnavailable	Критический	Сервис ZooKeeper недоступен.	Для получения деталей смотрите раздел "ALM-13000 ZooKeeper Service Unavailable" в MapReduce Service Руководство пользователя.	ZooKeeper не предоставляет координационные сервисы для компонентов верхнего уровня, и компоненты, зависящие от ZooKeeper, могут работать некорректно.
Не удалось установить квоту верхних каталогов компонента ZooKeeper	failedToSetTheQuotaOfTopDirectoriesOfZooKeeperComponent	Незначительный	Квота верхних каталогов компонентов ZooKeeper не была настроена.	Для получения деталей смотрите раздел "ALM-13005 Failed to Set the Quota of Top Directories of ZooKeeper Components" в MapReduce Service Руководство пользователя.	Компоненты могут записывать большой объём данных в каталог верхнего уровня ZooKeeper. В результате сервис ZooKeeper недоступен.

Родительская тема: Мониторинг событий

Предыдущая статья

Создание правила тревоги и уведомления для мониторинга событий

Следующая статья

Настраиваемый мониторинг

Эта статья полезна?

Поддержка Юридические документы Политика конфиденциальности