Облачная платформаEvolution

Структура и компоненты CLI


Distributed Train CLI построен на принципах модульности и логической группировки команд, что облегчает навигацию и выполнение задач различной сложности.

Команды сгруппированы по доменам решаемых задач:

  • mls job для отправки, мониторинга и управления задачами ML-обучения.

  • mls connector для настройки подключения к внешним источникам данных и хранилищам.

  • mls transfer для создания правил автоматического переноса данных между источниками.

  • mls allocation и mls queue для управления выделенными ресурсами и очередями.

  • mls js и mls tensorboard для работы с инструментами аналитики и разработки.

Архитектура групп команд

Все команды CLI организованы в иерархическую структуру.

mls (корневая точка входа)
├── configure (конфигурирование профиля пользователя)
├── job [команды] (работа с задачами обучения)
│ ├── submit (отправка задачи)
│ ├── list (просмотр списка задач)
│ ├── table (табличное представление задач)
│ ├── status (просмотр статуса задачи)
│ ├── logs (получение логов)
│ ├── kill (остановка задачи)
│ ├── restart (перезапуск задачи)
│ ├── pods (управление подами)
│ ├── types (отображение типов задач)
│ ├── yaml (генерация конфигураций)
│ └── regions (список доступных регионов)
├── connector [команды] (работа с коннекторами данных)
│ ├── create (создание коннектора)
│ ├── list (просмотр списка коннекторов)
│ ├── activate (активация коннектора)
│ ├── deactivate (деактивация коннектора)
│ ├── update (обновление параметров)
│ ├── delete (удаление коннектора)
│ └── sources (получение схем типов коннекторов)
├── transfer [команды] (управление правилами переноса данных)
│ ├── create (создание правила)
│ ├── list (просмотр правил)
│ ├── get (получение информации о правиле)
│ ├── activate (активация правила)
│ ├── deactivate (деактивация правила)
│ ├── update (обновление правила)
│ ├── delete (удаление правила)
│ ├── history (история запусков)
│ ├── logs (логи переноса)
│ └── stop (остановка выполняющегося переноса)
├── allocation [команды] (работа с аллокациями ресурсов)
│ ├── list (просмотр доступных аллокаций)
│ └── inst-types (отображение конфигурации ресурсов в аллокации)
├── queue [команды] (работа с очередями задач)
│ ├── list (просмотр доступных очередей)
│ └── inst-types (отображение конфигурации ресурсов в очереди)
├── js [команды] (работа с Jupyter Server)
│ ├── create (создание и запуск Jupyter Server)
│ ├── delete (удаление Jupyter Server)
│ ├── get (получение информации о Jupyter Server)
│ ├── list (просмотр списка Jupyter Server)
│ ├── modify (изменение Jupyter Server)
│ ├── pause (остановка Jupyter Server)
│ ├── resume (перезапуск Jupyter Server)
│ └── autoshutdown (правила автовыключения)
│ ├── get (просмотр правил автовыключения)
│ ├── set (создание или обновление правил)
│ └── delete (удаление правил автовыключения)
└── tensorboard [команды] (работа с инстансами Tensorboard)
├── create (создание инстанса Tensorboard)
├── get (получение информации об инстансе)
├── delete (удаление инстанса Tensorboard)
├── list (просмотр списка инстансов)
├── modify (изменение инстанса)
├── pause (остановка инстанса)
└── resume (перезапуск инстанса)

Общие опции профиля

Опция

Описание

-P --profile

Имя профиля для параметров региона и формата вывода

-O --output

Формат вывода в консоль. Допустимые варианты: json и text

-E --endpoint_url

Базовый адрес API

-R --region

Ключ региона. Допустимые варианты: DGX2-MT, A100-MT, SR003, SR004, SR005, SR006, SR008

Опции отладки

Опция

Описание

-D --debug

Вывод отладочной информации в консоль

--help

Показать справку о команде

Версионность команд

Версия

Новые возможности

1.0.0

Добавлены группы команд mls js и mls tensorboard

0.9.0

Добавлены группы команд mls allocation и mls queue

0.7.1

Добавлены группы команд mls transfer и mls connector

0.6.3

Добавлена работа с конфигурационным файлом