mls job submit — команда для отправки задачи в очередь на выполнение.
Синтаксис:
mls job submit [options]
Пример:
mls job submit --config ./binary.yaml
Параметр | Формат | Описание |
|---|---|---|
-c --config | [string] | Путь к YAML манифесту с описанием задачи |
Параметр | Формат | Описание |
|---|---|---|
-i --instance_type | [string] | Конфигурация ресурсов (e.g., v100.1gpu) |
-I --image | [string] | Название образа |
-t --type | [choice] | Тип задачи обучения. Допустимые варианты: binary, horovod, pytorch, pytorch2, pytorch_elastic, binary_exp |
-s --script | [string] | Путь к исполняемому файлу |
Параметр | Формат | Описание |
|---|---|---|
-d --description | [string] | Описание задачи |
Параметр | Формат | Описание |
|---|---|---|
-e --conda_name | [string] | Название Conda-окружения в образе |
-f --flags | [dict] | Дополнительные флаги: key1=value1,key2=value2 |
-v --variables | [dict] | Переменные окружения: key1=value1,key2=value2 |
Параметр | Формат | Описание |
|---|---|---|
-w --workers | [int] | Количество рабочих узлов |
-p --processes | [union_int_or_str] | Количество процессов. int — прямое указание числа процессов, default — расчет оптимального количества процессов для запуска задачи |
Параметр | Формат | Описание |
|---|---|---|
-a --internet_access | [bool] | Определяет наличие доступ в интернет |
-k --checkpoint_dir | [string] | Путь для сохранения checkpoint |
--priority_class | [choice] | Приоритет выполнения задачи. Допустимые варианты: low, medium, high |
-A --allocation_name | [string] | Имя аллокации, в которой будет запланировано и выполнено задание |
-q --queue_name | [string] | Имя очереди, в которой будет запланировано и выполнено задание |
Параметр | Формат | Описание |
|---|---|---|
-r --max_retry | [range] | Максимальное количество попыток перезапуска. От 3 до 100 |
Параметр | Формат | Описание |
|---|---|---|
--period | [int] | Минутный интервал для отслеживания появления логов |
--internal_action | [choice] | Действие направленное к задаче обучения. Допустимые варианты: delete, restart |
--external_actions | [list_optional_choice] | Действие направленное к пользователю. Доступные варианты: [], [notify] |
Параметр | Формат | Описание |
|---|---|---|
--elastic_min_workers | [union_int_or_str] | Минимальное количество воркеров. int — прямое указание числа процессов, default — расчет оптимального количества процессов для запуска задачи |
--elastic_max_workers | [union_int_or_str] | Максимальное количество воркеров. int — прямое указание числа процессов, default — расчет оптимального количества процессов для запуска задачи |
--elastic_max_restarts | [int] | Максимальное количество перезапусков |
Параметр | Формат | Описание |
|---|---|---|
--use_env | [bool] | Использование переменные окружения для конфигурации вместо профиля по умолчанию или явно заданного файла настроек |
Параметр | Формат | Описание |
|---|---|---|
-R `` ``--region | [choice] | Ключ региона. Допустимые варианты: A100-MT, SR003, SR004, SR005, SR006, SR008 |
-O `` ``--output | [choice] | Формат вывода в консоль. Допустимые варианты: json, text |
-E `` ``--endpoint_url | [string] | Базовый адрес API |
-P `` ``--profile | [string] | Определение параметров региона, формата вывода по имени профиля |
Параметр | Формат | Описание |
|---|---|---|
-D `` ``--debug | [bool] | Вывод в консоль отладочной информации |