Облачная платформаEvolution

submit

Эта статья полезна?

mls job submit — команда для отправки задачи в очередь на выполнение.

Синтаксис:

mls job submit [options]

Пример:

mls job submit --config ./binary.yaml
Манифест параметров запуска задачи

Параметр

Формат

Описание

-c --config

[string]

Путь к YAML манифесту с описанием задачи

Минимальный набор опций для запуска задачи

Параметр

Формат

Описание

-i --instance_type

[string]

Конфигурация ресурсов (e.g., v100.1gpu)

-I --image

[string]

Название образа

-t --type

[choice]

Тип задачи обучения. Допустимые варианты: binary, horovod, pytorch, pytorch2, pytorch_elastic, binary_exp

-s --script

[string]

Путь к исполняемому файлу

Опции дополнительные

Параметр

Формат

Описание

-d --description

[string]

Описание задачи

Опции управления окружением

Параметр

Формат

Описание

-e --conda_name

[string]

Название Conda-окружения в образе

-f --flags

[dict]

Дополнительные флаги: key1=value1,key2=value2

-v --variables

[dict]

Переменные окружения: key1=value1,key2=value2

Опции управления ресурсами

Параметр

Формат

Описание

-w --workers

[int]

Количество рабочих узлов

-p --processes

[union_int_or_str]

Количество процессов. int — прямое указание числа процессов, default — расчет оптимального количества процессов для запуска задачи

Опции управления политиками

Параметр

Формат

Описание

-a --internet_access

[bool]

Определяет наличие доступ в интернет

-k --checkpoint_dir

[string]

Путь для сохранения checkpoint

--priority_class

[choice]

Приоритет выполнения задачи. Допустимые варианты: low, medium, high

-A --allocation_name

[string]

Имя аллокации, в которой будет запланировано и выполнено задание

-q --queue_name

[string]

Имя очереди, в которой будет запланировано и выполнено задание

Опции управления в аллокации

Параметр

Формат

Описание

-r --max_retry

[range]

Максимальное количество попыток перезапуска. От 3 до 100

Опции управления оповещением

Параметр

Формат

Описание

--period

[int]

Минутный интервал для отслеживания появления логов

--internal_action

[choice]

Действие направленное к задаче обучения. Допустимые варианты: delete, restart

--external_actions

[list_optional_choice]

Действие направленное к пользователю. Доступные варианты: [], [notify]

Опции управления Pytorch Elastic

Параметр

Формат

Описание

--elastic_min_workers

[union_int_or_str]

Минимальное количество воркеров. int — прямое указание числа процессов, default — расчет оптимального количества процессов для запуска задачи

--elastic_max_workers

[union_int_or_str]

Максимальное количество воркеров. int — прямое указание числа процессов, default — расчет оптимального количества процессов для запуска задачи

--elastic_max_restarts

[int]

Максимальное количество перезапусков

Опции управления Pytorch2

Параметр

Формат

Описание

--use_env

[bool]

Использование переменные окружения для конфигурации вместо профиля по умолчанию или явно заданного файла настроек

Опции профиля

Параметр

Формат

Описание

-R `` ``--region

[choice]

Ключ региона. Допустимые варианты: A100-MT, SR003, SR004, SR005, SR006, SR008

-O `` ``--output

[choice]

Формат вывода в консоль. Допустимые варианты: json, text

-E `` ``--endpoint_url

[string]

Базовый адрес API

-P `` ``--profile

[string]

Определение параметров региона, формата вывода по имени профиля

Опции отладки

Параметр

Формат

Описание

-D `` ``--debug

[bool]

Вывод в консоль отладочной информации