Distributed Train CLI построен на принципах модульности и логической группировки команд, что облегчает навигацию и выполнение задач различной сложности.
Команды сгруппированы по доменам решаемых задач:
mls job для отправки, мониторинга и управления задачами ML-обучения.
mls connector для настройки подключения к внешним источникам данных и хранилищам.
mls transfer для создания правил автоматического переноса данных между источниками.
mls allocation и mls queue для управления выделенными ресурсами и очередями.
mls js и mls tensorboard для работы с инструментами аналитики и разработки.
Все команды CLI организованы в иерархическую структуру.
mls (корневая точка входа)│├── configure (конфигурирование профиля пользователя)│├── job [команды] (работа с задачами обучения)│ ├── submit (отправка задачи)│ ├── list (просмотр списка задач)│ ├── table (табличное представление задач)│ ├── status (просмотр статуса задачи)│ ├── logs (получение логов)│ ├── kill (остановка задачи)│ ├── restart (перезапуск задачи)│ ├── pods (управление подами)│ ├── types (отображение типов задач)│ ├── yaml (генерация конфигураций)│ └── regions (список доступных регионов)│├── connector [команды] (работа с коннекторами данных)│ ├── create (создание коннектора)│ ├── list (просмотр списка коннекторов)│ ├── activate (активация коннектора)│ ├── deactivate (деактивация коннектора)│ ├── update (обновление параметров)│ ├── delete (удаление коннектора)│ └── sources (получение схем типов коннекторов)│├── transfer [команды] (управление правилами переноса данных)│ ├── create (создание правила)│ ├── list (просмотр правил)│ ├── get (получение информации о правиле)│ ├── activate (активация правила)│ ├── deactivate (деактивация правила)│ ├── update (обновление правила)│ ├── delete (удаление правила)│ ├── history (история запусков)│ ├── logs (логи переноса)│ └── stop (остановка выполняющегося переноса)│├── allocation [команды] (работа с аллокациями ресурсов)│ ├── list (просмотр доступных аллокаций)│ └── inst-types (отображение конфигурации ресурсов в аллокации)│├── queue [команды] (работа с очередями задач)│ ├── list (просмотр доступных очередей)│ └── inst-types (отображение конфигурации ресурсов в очереди)│├── js [команды] (работа с Jupyter Server)│ ├── create (создание и запуск Jupyter Server)│ ├── delete (удаление Jupyter Server)│ ├── get (получение информации о Jupyter Server)│ ├── list (просмотр списка Jupyter Server)│ ├── modify (изменение Jupyter Server)│ ├── pause (остановка Jupyter Server)│ ├── resume (перезапуск Jupyter Server)│ └── autoshutdown (правила автовыключения)│ ├── get (просмотр правил автовыключения)│ ├── set (создание или обновление правил)│ └── delete (удаление правил автовыключения)│└── tensorboard [команды] (работа с инстансами Tensorboard)├── create (создание инстанса Tensorboard)├── get (получение информации об инстансе)├── delete (удаление инстанса Tensorboard)├── list (просмотр списка инстансов)├── modify (изменение инстанса)├── pause (остановка инстанса)└── resume (перезапуск инстанса)
Опция | Описание |
|---|---|
-P --profile | Имя профиля для параметров региона и формата вывода |
-O --output | Формат вывода в консоль. Допустимые варианты: json и text |
-E --endpoint_url | Базовый адрес API |
-R --region | Ключ региона. Допустимые варианты: DGX2-MT, A100-MT, SR003, SR004, SR005, SR006, SR008 |
Опция | Описание |
|---|---|
-D --debug | Вывод отладочной информации в консоль |
--help | Показать справку о команде |
Версия | Новые возможности |
|---|---|
1.0.0 | Добавлены группы команд mls js и mls tensorboard |
0.9.0 | Добавлены группы команд mls allocation и mls queue |
0.7.1 | Добавлены группы команд mls transfer и mls connector |
0.6.3 | Добавлена работа с конфигурационным файлом |