Облачная платформаEvolution

Запустить задачу обучения с выбором аллокации и очереди


В инструкции описан процесс запуска задачи обучения с указанием аллокации и очереди.

При запуске задачи необходимо указать параметры allocation_name и queue_name. Явное указание аллокации и очереди позволяет использовать специальные очереди и гарантирует предсказуемое распределение нагрузки.

Запустить задачу обучения с указанием аллокации и очереди можно через Public API, CLI или client_lib.


Используйте метод POST /public/v2/jobs с указанием параметров allocation_name и queue_name.

Пример запроса:

curl -X POST "https://api.ai.cloud.ru/public/v2/jobs" \
-H "Content-Type: application/json" \
-H "X-Api-Key: <api_key>" \
-H "X-Workspace-Id: <workspace_id>" \
-d '{
"script": "/home/jovyan/training/model_train.py",
"base_image": "cr.ai.cloud.ru/aicloud-base-images/py3.11-torch2.4.0:0.0.40",
"region": "SR006",
"instance_type": "a100.1gpu.8C.243G",
"allocation_name": "alloc-priority-sr006"
"queue_name": "custom_queue",
"type": "pytorch2",
"n_workers": 1,
"job_desc": "Training-job1",
}'

Где:

Проверить статус запущенной задачи можно через интерфейс Distributed Train или Public API.