Управление ресурсами позволяет распределять вычислительные мощности между очередями.
При переносе серверов система не снимает автоматически текущую нагрузку с них. Это позволяет избежать прерывания выполняющихся задач и обеспечивает стабильность работы.
Вы можете управлять ресурсами в очереди с помощью переноса серверов между очередями через интерфейс Distributed Train или Public API.
На верхней панели слева нажмите и перейдите в Distributed Train → Обзор.
В разделе Воркспейсы нажмите на название воркспейса.
Откройте вкладку Аллокации и очереди.
Нажмите на название аллокации.
Нажмите Управление очередями.
Нажмите на название очереди.
Для поиска очереди по названию воспользуйтесь поисковой строкой.
На вкладке Серверы нажмите Перенести из других очередей.
Откроется окно с информацией по серверам и количеству доступных ресурсов на них.
Выберите серверы для переноса с помощью чекбокса.
Нажмите Перенести.
Добавленные серверы отобразятся в списке на вкладке Серверы.
Принудительное снятие нагрузки остановит все задачи обучения и Jupyter Server. Снять нагрузку с очереди можно только через Public API.
Используйте метод POST /public/v2/queues/{queue_id}/nodes для принудительного снятия нагрузки.
В запросе используйте параметр force_withdrawal:
При force_withdrawal=false сервер переносится с выполняющейся на нем нагрузкой.
При force_withdrawal=true сервер переносится без нагрузки: задача обучения останавливается, Jupyter Server удаляется.
Пример запроса:
curl -X POST "https://api.ai.cloud.ru/public/v2/queues/{queue_id}/nodes" \-H "X-Api-Key: <api_key>" \-H "X-Workspace-Id: <workspace_id>" \-H "Content-Type: application/json" \-d '{"nodes": ["dgxsrv-102.sr008", "dgxsrv-103.sr008", "dgxsrv-104.sr008"],"force_withdrawal": true}'Где:
<api_key> — ключ доступа к API.
<workspace_id> — идентификатор воркспейса.