Что делать, если у узла статус Unavailable?

Чтобы обнаружить и исправить ошибку при недоступном узле (статус «Unavailable»), необходимо предпринять одно из следующих действий:

Действие 1: Проверьте статус ECS

  1. Проверьте доступность кластера. Авторизуйтесь в консоли CCE в меню слева выберите Resource Management → Clusters и проверьте статус кластера:

    • Если кластер недоступен (статус «Unavailable»), свяжитесь службой поддержки клиентов для обнаружения ошибки.

    • Если сам кластер доступен (статус «Available»), а часть узлов недоступны, то переходите к следующему пункту.

  2. Авторизуйтесь в консоли управления. Выберите Homepage → Computing → Elastic Cloud Server и проверьте статус сервера ECS:

    • Если статус ECS «Deleted» — в консоли CCE в меню слева выберите Resource Management → Nodes, удалите соответствующий ECS-узел, после чего создайте новый.

    • Если статус ECS «Stopped» или «Frozen» — запустите ECS (в строке сервера нажмите More → Start). Как правило, запуск занимает несколько минут.

    • Если статус ECS «Faulty» — перезагрузите ECS (в строке сервера нажмите More → Restart). Если перезагрузка не помогла — свяжитесь со службой поддержки клиентов для обнаружения ошибки.

    • Если статус ECS «Running» — авторизуйтесь в виртуальной машине ECS для обнаружения ошибки (в строке нужного сервера нажмите Remote Login) и следуйте инструкциям из следующего пункта.

  3. Авторизуйтесь в виртуальной машине ECS для обнаружения ошибки.

    • Авторизуйтесь в виртуальной машине ECS, где расположен неработающий узел (в строке нужного сервера нажмите Remote Login).

    • Введите следующую команду, чтобы поверить состояние PaaS-компонентов:

      su paas -c '/var/paas/monit/bin/monit summary'
      

    Если не удается запустить команду, свяжитесь со службой поддержки клиентов.

    При успешном выполнении команды отобразится статус каждого компонента:

    ../_images/s__components-status.jpeg

    Если у одного из компонентов статус отличается от «Running», перезапустите соответствующий сервис.

    Например, у компонента canal нерабочий статус:

    ../_images/s__bad-status.jpeg

    Введите следующую команду, чтобы перезапустить компонент:

    su paas -c '/var/paas/monit/bin/monit restart canal'
    

    После перезагрузки введите команду для запроса статуса компонента:

    su paas -c '/var/paas/monit/bin/monit summary'
    

    При сохранении неисправности свяжитесь со службой поддержки клиентов.

Действие 2: Проверьте уровень загрузки узла

  1. Авторизуйтесь в консоли управления. Выберите Homepage → Computing → Elastic Cloud Server.

  2. Нажмите на название ECS, соответствующее узлу, и перейдите на вкладку Monitoring. Посмотрите информацию об узле.

  3. Если узел перегружен, рекомендуется уменьшить рабочую нагрузку, чтобы он пришел в нормальное состояние.

Действие 3: Проверьте группу безопасности (security group)

  1. Авторизуйтесь в консоли управления. Выберите Homepage → Computing → Elastic Cloud Server.

  2. Нажмите на название ECS, соответствующее узлу, и перейдите на вкладку Security Group.

  3. Раскройте информацию о группе безопасности и проверьте, чтобы настройки группы безопасности соответствовали настройкам.

Действие 4: Проверьте диск

При создании узла прикрепляется диск, предназначенный для Docker, объемом 100 ГБ.

Если этот диск откреплен от узла или поврежден, то узел станет нерабочим. Прикрепите диск к узлу и сделайте перезапуск, узел должен восстановиться.

Чтобы проверить наличие диска, нажмите на название ECS, соответствующее узлу, и перейдите на вкладку Disks.

Действие 5: Проверьте работоспособность внутренних компонентов

  1. Авторизуйтесь в виртуальной машине ECS, где расположен неработающий узел (в строке нужного сервера нажмите Remote Login).

  2. Введите следующую команду, чтобы поверить состояние PaaS компонентов:

    su paas -c '/var/paas/monit/bin/monit summary'
    

    Если не удается запустить команду, свяжитесь со службой поддержки клиентов.

    При успешном выполнении команды отобразится статус каждого компонента, как показано ниже:

    ../_images/s__components-status.jpeg
  3. Если у одного из компонентов статус отличается от «Running», перезапустите соответствующий сервис. Например, у компонента canal нерабочий статус:

    ../_images/s__bad-status.jpeg

    Перезапустите компонент:

    su paas -c '/var/paas/monit/bin/monit restart canal'
    
  4. После перезагрузки введите команду для запроса статуса компонента:

    su paas -c '/var/paas/monit/bin/monit summary'
    

    Статус каждого компонента после перезагрузки должен быть «Running».

  5. Если не удалось перезапустить компонент, то используйте команду:

    ps -ef \| grep monitrc
    
    • Если присутствует процесс monitrc, удалите этот процесс.

      kill -s 9 \`ps -ef \| grep monitrc \| grep -v grep \| awk '{print$2}'\`
      

      Процесс monitrc будет автоматически перезапущен после его удаления.

    • Если процесс monitrc не существует или не перезапускается после его удаления, свяжитесь со службой поддержки клиентов.