Облачная платформаEvolution

Статусная модель серверов


Система управления вычислительными ресурсами реализует статусную модель для мониторинга и управления серверами в рамках аллокации или очереди.

Статусная модель тесно интегрирована с системой планирования задач и напрямую влияет на порядок выполнения вычислительных операций.

При запуске новой задачи или Jupyter Server система анализирует статусы всех доступных серверов и выбирает наиболее подходящий с учетом приоритета выполнения, размера задачи и доступных ресурсов.

Серверы в статусе «Свободен» имеют наивысший приоритет для назначения новых задач или Jupyter Server, тогда как серверы «Частично занят» рассматриваются в случае, когда задача соответствует доступному количеству ресурсов.

Состояние каждого сервера непрерывно отслеживается, а нагрузка перераспределяется автоматически между доступными серверами.

Статусы серверов

Каждый сервер в системе находится в одном из четырех возможных состояний, которые определяют его доступность для выполнения вычислительных задач:

Статус

Описание

Занят Статус "Занят"

Сервер выполняет одну или несколько задач или Jupyter Server, и все его доступные ресурсы полностью задействованы. В этом состоянии сервер не может запускать новые задачи или Jupyter Server до тех пор, пока не освободятся ресурсы.

Частично занят Статус "Частично занят"

Сервер выполняет задачи или Jupyter Server, но часть его ресурсов доступна для использования. Например, если сервер оснащен четырьмя GPU-картами и две из них заняты выполнением задач, а две свободны, сервер находится в статусе «Частично занят».

Свободен Статус "Свободен"

Сервер полностью готов к выполнению задач или Jupyter Server, все его ресурсы доступны для использования. Этот статус также означает, что сервер прошел все проверки работоспособности и находится в нормальном техническом состоянии.

Недоступен Статус "Недоступен"

Сервер не доступен для выполнения задач. Сервер может стать недоступным из-за перехода на обслуживание вследствие технических неисправностей, проблем с сетевым подключением или других сбоев.

Переход сервера на обслуживание

Когда система фиксирует техническую неисправность сервера, она выполняет ряд автоматических действий для обеспечения надежности и доступности вычислительных ресурсов.

В первую очередь сервер переводится в специальную изолированную зону. Данная мера предотвращает попытки назначения новых задач на неисправное оборудование до устранения неполадок.

В интерфейсе отображается иконка Предупреждение, означающая, что после завершения или принудительной остановки всей нагрузки он будет передан на обслуживание.

После перевода сервера в изолированную зону система автоматически запрещает запуск новых вычислительных нагрузок на данном сервере.

Система автоматически перераспределяет все запланированные задачи, которые должны были выполняться на недоступном сервере, на другие доступные серверы. Это обеспечивает непрерывность выполнения вычислительных работ без вмешательства пользователя.

При наличии резервных ресурсов система выполнит автоматическую замену недоступного сервера на период обслуживания сервера.