submit
mls job submit — команда для отправки задачи.
Использование: mls job submit COMMAND [ARGS] [OPTIONS]
Опция | Формат | Описание |
---|---|---|
-i--instance_type | [string] | Конфигурация ресурсов (e.g., v100.1gpu) |
-I--image | [string] | Название образа |
-t--type | [binary, horovod, pytorch, pytorch2, pytorch_elastic, spark, binary_exp] | Тип задачи обучения |
-s--script | [ls -lah || OS.PATH(/home/jovyan/test_script.py)] | Путь к исполняемому файлу |
Опция | Формат | Описание |
---|---|---|
-d--description | [string] | Описание задачи |
Опция | Формат | Описание |
---|---|---|
-R--region | [DGX2-MT,A100-MT,SR002-MT,SR003,SR004,SR005,SR006,SR008] | Ключ региона |
-O--output | [json, text] | Формат вывода в консоль |
-E--endpoint_url | [string] | Базовый адрес API |
-P--profile | [string] | Определить параметры региона, формат вывода по имени профиля |
Опция | Формат | Описание |
---|---|---|
-c--config | [OS.PATH] | Путь к YAML манифесту с описанием задачи |
Опция | Формат | Описание |
---|---|---|
-e--conda_name | [string] | Название Conda окружения в образе |
-f--flags | [-f key1=value1,key2=value2] | Дополнительные флаги |
-v--variables | [-v key1=value1,key2=value2] | Переменные окружения |
Опция | Формат | Описание |
---|---|---|
-w--workers | [INT GTE(0)] | Количество рабочих узлов |
-p--processes | [INT || „default“] | Количество процессов |
Опция | Формат | Описание |
---|---|---|
-a--internet_access | [bool] | Наличие доступа в интернет |
-k--checkpoint_dir | [OS.PATH(/home/jovyan/…)] | Путь для сохранения checkpoint |
--priority_class | [low, medium, high] | Приоритет выполнения задачи |
Опция | Формат | Описание |
---|---|---|
-r--max_retry | [RANGE (3 .. 100)] | Макс. количество попыток перезапуска |
Опция | Формат | Описание |
---|---|---|
--period | [INT] | Минутный интервал для отслеживания появления логов |
--internal_action | [delete,restart] | Действие направленное к задачи обучения |
–external_actions | [] | ::[[«notify»]] Действие направленное к пользователю |
Опция | Формат | Описание |
---|---|---|
--elastic_min_workers | [INT || „default“] | Минимальное количество воркеров |
--elastic_max_workers | [INT || „default“] | Максимальное количество воркеров |
--elastic_max_restarts | [INT GTE(0)] | Максимальное количество перезапусков |
Опция | Формат | Описание |
---|---|---|
--use_env | [bool] | Использовать torch.distributed.launch с –use_env |
Опция | Формат | Описание |
---|---|---|
--spark_memory | [float] | Объем памяти для Spark |
Опция | Формат | Описание |
---|---|---|
-D--debug | [bool] | Вывод в консоль отладочной информации |