Облачная платформаAdvanced

Замена указанных узлов в кластере OpenSearch

Эта статья полезна?
Язык статьи: Русский
Показать оригинал
Страница переведена автоматически и может содержать неточности. Рекомендуем сверяться с английской версией.

Если узел в кластере OpenSearch неисправен, его можно заменить для восстановления сервисов.

Процесс замены узла выглядит следующим образом:

  1. Переместите данные с узла, который нужно заменить, на другие доступные узлы.
  2. Воссоздайте новый узел, используя текущие ID, IP-адрес, характеристики и AZ этого узла.
  3. Добавьте новый узел в кластер. Система автоматически инициирует перераспределение шардов, перемещая часть шардов на новый узел.

Этот процесс не прерывает сервисы, потому что данные перемещаются с заменённого узла на другие доступные узлы.

Ограничения

  • Только один узел может быть заменён за раз. Каждый новый узел воссоздаётся с использованием ID, IP-адреса, характеристик и AZ узла, который он заменяет.
  • Конфигурации, изменённые вами вручную, не сохранятся после замены узла. Например, если вы вручную добавили маршрут обратного пути для оригинального узла, его необходимо добавить повторно для нового узла после завершения замены узла.
  • Если узел, который вы хотите заменить, является узлом данных или холодным узлом данных, обратите внимание на следующие предосторожности:
    • Когда узел данных или холодный узел данных заменяется, его данные сначала мигрируют на другие узлы данных. Это означает Общее количество узлов данных и холодных узлов данных должно быть больше максимального количества реплик индекса плюс 1.
    • В AZ, содержащем узел данных или холодный узел данных, который нужно заменить, должно быть как минимум ещё один узел данных или холодный узел данных.
    • Если в кластере нет master‑узлов, общее количество узлов данных и холодных узлов данных должно быть не менее трёх.
    • Вышеуказанные предосторожности не применяются, если вы заменяете неисправный узел, независимо от его типа. Это происходит потому, что неисправные узлы не включаются в _cat/nodes.

Влияние изменений

Перед заменой узла необходимо оценить потенциальные последствия и изучить операционные рекомендации. Это позволяет правильно спланировать замену узла, минимизируя перебои в работе сервиса.

  • Влияние на производительность

    Замена узла не прерывает сервисы. Однако миграция данных, происходящая в процессе, потребляет I/O‑производительность, и снятие отдельных узлов с работы всё равно оказывает некоторое воздействие на общую производительность кластера.

    Чтобы минимизировать это воздействие, рекомендуется регулировать скорость миграции данных в зависимости от цикла нагрузки кластера: увеличивать скорость миграции данных в непиковые часы, чтобы сократить продолжительность задачи, и уменьшать её до пиковые часы наступают, чтобы обеспечить оптимальную производительность кластера. Скорость миграции данных определяется indices.recovery.max_bytes_per_sec параметр. Значение по умолчанию этого параметра равно количеству vCPU, умноженному на 32 МБ. Например, для четырёх vCPU скорость миграции данных составляет 128 МБ. Установите этот параметр в диапазоне от 40 МБ до 1000 МБ в зависимости от требований вашего сервиса.

    PUT /_cluster/settings
    {
    "transient": {
    "indices.recovery.max_bytes_per_sec": "1000MB"
    }
    }

  • Влияние на обработку запросов

    Во время замены узла запросы, отправленные к нему, могут завершаться с ошибкой. Чтобы смягчить это воздействие, можно принять следующие меры:

    • Используйте VPC endpoint или выделенный балансировщик нагрузки для обработки запросов доступа к вашему кластеру, что обеспечивает автоматическую маршрутизацию запросов к доступным узлам.
    • Включите механизм экспоненциального отката и повторов на клиенте (настройте три попытки).
    • Выполняйте эту операцию в непиковые часы.
  • Характеристики этого процесса

    После запуска задача замены узла не может быть остановлена, пока она не завершится успешно или не завершится с ошибкой. Сбой задачи затрагивает только один узел и не прерывает сервисы, если существуют реплики данных, однако неисправный узел всё равно необходимо быстро восстановить.

Продолжительность замены узла

Следующая формула может быть использована для оценки того, сколько времени потребуется для замены указанного узла кластера:

Продолжительность изменения (мин) = 15 (мин) + Продолжительность миграции данных (мин)

где 15 минут указывает, сколько обычно занимает выполнение операций, не связанных с миграцией данных (например, инициализация) на один узел. Это эмпирическое значение.

Продолжительность миграции данных (мин) = Общий размер данных (МБ)/[Общее количество vCPU дата‑узлов × 32 (МБ/с) × 60 (с)]

где,

  • 32 MB/s указывает, что каждый vCPU может обрабатывать 32 MB данных в секунду. Это эмпирическое значение.
  • В приведённых выше формулах используются оценки при идеальных условиях. Фактическая скорость миграции зависит от нагрузки кластера.

Prerequisites

Замена указанного узла

  1. Войдите в консоль управления CSS.
  2. В навигационной панели слева выберите Кластеры > OpenSearch.
  3. В списке кластеров найдите целевой кластер и выберите More > Изменить конфигурацию в Операция столбце. Изменить конфигурацию страница отображается.
  4. На Изменить конфигурацию странице, нажмите Заменить узел вкладку.
  5. На Заменить узел вкладке, установите параметры по мере необходимости.
    Таблица 1 Замена указанного узла

    Параметр

    Описание

    Тип узла

    Выберите узел, который вы хотите заменить. Вы можете развернуть тип узла, чтобы проверить все узлы под ним.

  6. Нажмите Отправить. В диалоговом окне подтверждения миграции данных выберите миграцию данных и нажмите OK.

    Во время миграции данных система переносит все данные с заменяемого узла на оставшиеся узлы и заменяет узел после завершения миграции данных. Если данные на заменяемых узлах имеют реплики на других узлах, миграцию данных можно пропустить, и изменение кластера будет выполнено быстрее.

  7. Нажмите Назад к списку кластеров чтобы вернуться к Кластеры страница. Статус задачи является Обновление. Когда Статус кластера изменяется на Доступно, узел успешно заменён.