Облачная платформаEvolution

Job

Эта статья полезна?

Функция Job позволяет работать с задачами обучения в регионах.

Список параметров

Обязательные параметры:

Опциональные параметры:

См.также

Отключенные функции, параметры и команды client_lib

Описание параметров

Обязательные параметры
Параметр	Описание параметра
script	Тип — string Путь до запускаемого скрипта. Обратите внимание, что точка монтирования — это корневой каталог, поэтому его не должно быть в начале пути. Если ваш скрипт лежит по пути /data/demo_examples/script.py, то необходимо указать /home/jovyan/data/demo_examples/script.py. Примечание Скрипт должен быть расположен на NFS региона, в котором будет запускаться задача обучения.
base_image	Тип — string Базовый образ, в котором будет исполняться скрипт обучения модели. Образ должен быть из cr.ai.cloud.ru/aicloud-base-images, из проекта Docker Registry для текущего воркспейса или сервиса Artifact Registry. Подробнее о базовых образах Примечание Образ проверяется по названию: сначала в Artifact Registry, потом в списке базовых и кастомных образов Distributed Train. Если указать несуществующий образ, задача будет создана, но завершится с ошибкой.
instance_type	Тип — string Конфигурация вычислительных ресурсов, используемых для решения задач. Для просмотра доступных instance_type воспользуйтесь методом.

Опциональные параметры
Параметр	Описание параметра
n_workers	Тип — integer Значение по умолчанию — 1 Количество рабочих узлов региона, на котором будет исполняться скрипт. Параметр игнорируется задачами обучения на CPU и определяется для: Christofari.A100.part2 • SR004 Christofari.V100 • DGX2-INF-001 Cloud.Region.A100 (GPU Tesla A100) • SR002 Cloud.Region.HP1 • SR003 Если в регионе Cloud.Region.A100 (GPU Tesla A100) • SR002 указать «n_workers» больше единицы, вернется ошибка n_workers > 1 not allowed.
type	Тип — string Значение по умолчанию — horovod Тип задачи. Может быть фреймворком машинного обучения или бинарным исполняемым файлом. Возможные значения: 'binary' для исполнения бинарных файлов и shell-скриптов. Пример запуска. Размер /shm вычисляется по формуле: shm_size_limit = min(shm_size_class * max(n_gpus, 1), RAM(instance_type)), где shm_size_class принимает одно из значений: small — 16 GB; medium — 32 GB (значение по умолчанию); large — 64 GB. Примеры задания параметра. 'pytorch' для использования встроенного механизма pytorch.distributed. Примечание 'pytorch' планируется отключить, используйте 'pytorch2'. 'pytorch2' для использования встроенного механизма pytorch.distributed. 'torchrun' для использования встроенного механизма torch.distributed.run. 'horovod' для использования библиотеки horovod. 'pytorch_elastic' для запуска задачи с типом Pytorch Elastic Learning. При некорректных значениях параметров возможны ошибки: если n_workers < 2 — возникает ошибка «elastic job needs n_workers >= 2». если elastic_max_workers != n_workers — возникает ошибка «elastic_max_workers != n_workers is not implemented». если elastic_min_workers > n_workers — возникает ошибка «elastic_min_workers must be <= n_workers». Подробнее в разделе Обучить модель с использованием PyTorch Elastic Learning.
pytorch_use_env (опц.)	Тип — boolean Значение по умолчанию — False Параметр pytorch_use_env дублирует флаг „use_env“ в torch.distributed.launch и нужен, если в скрипте «local_rank» передается через окружения, а не через «argparse».
flags (опц.)	Тип — dict Значение по умолчанию — {} Флаги, с которыми необходимо запустить скрипт (если таковые имеются в скрипте обучения модели). Пример запуска. Примечание Значения возможно передавать с пробелами, обращая внимание на кавычки. Пример — "'some value'".
elastic_min_workers (опц.)	Тип — integer Значение по умолчанию — 1 Параметр устанавливает минимальное количество воркеров для задач Pytorch Elastic Learning. Возможно передать значения больше 0 или строку default.
elastic_max_workers (опц.)	Тип — integer Значение по умолчанию — n_workers Параметр устанавливает максимальное количество воркеров для задач Pytorch Elastic Learning. Возможно передать значения больше 0 или строку default.
elastic_max_restarts (опц.)	Тип — integer Значение по умолчанию — 5 Параметр устанавливает максимальное количество перезапусков задач Pytorch Elastic Learning. См.также Обучить модель с использованием PyTorch Elastic Learning Документация Pytorch Elastic Learning
stop_timer (опц.)	Тип — integer Значение по умолчанию — 0 (задача не будет принудительно удалена) Время в минутах до принудительного удаления задачи, которая перешла в статус «Выполняется». Подробнее о статусах задач.
env_variables (опц.)	Тип — dict Значение по умолчанию — {} Параметр задает переменные окружения. Примечание Значения возможно передавать с пробелами, обращая внимание на кавычки. Пример — "'some value'".
processes_per_worker (опц.)	Тип — integer Значение по умолчанию — 'default' Параметр задает количество процессов на один рабочий узел региона, если не подходит количество процессов, равное количеству GPU. Можно запустить задачу на 16 GPU одного рабочего узла региона, указать processes_per_worker=1, не заботясь о механизме распараллеливания и не оборачивая весь исполняемый код, например, в hvd.init(). Вместо этого напишите код как на обычной исполняющей машине. Пример запуска.
conda_env (опц.)	Тип — string Значение по умолчанию — None Параметр позволяет указывать название окружения conda, если в образе имеется таковое и используется не стандартное окружение python, а окружение anaconda.
job_desc (опц.)	Тип — string Значение по умолчанию — None Параметр позволяет задавать пользовательские описания для запускаемых задач. Пример запуска.
region (опц.)	Тип — RegionMT \| str Значение по умолчанию — DGX2-MT Параметр позволяет выбирать регион размещения вычислительных ресурсов. Доступны ключи регионов: DGX2-MT — Christofari.V100 • DGX2-INF-001 A100-MT — Christofari.A100.part2 • SR004 SR002-MT — Cloud.Region.A100 (GPU Tesla A100) • SR002 SR003 — Cloud.Region.HP1 • SR003 SR006 — Cloud.Region.HP • SR006 Примечание В регионе Cloud.Region.A100 (GPU Tesla A100) • SR002 можно запускать только нераспределенные задачи обучения.
internet (опц.)	Тип — boolean Предоставление доступа к интернету. Значение по умолчанию True.
max_retry (опц.)	Тип — integer Значение по умолчанию — None Максимальное количество попыток запуска задачи для случая, когда первая из этих попыток завершилась с ошибкой. При рестарте задача попадает в очередь на запуск в регионе. Допустимые значения — от 3 до 100 включительно. Используется, если type принимает одно из значений: pytorch, pytorch2, horovod, binary. Параметр доступен только в аллокациях. Примечание При использовании параметра рекомендуем добавить в пользовательский код обучения поддержку чекпоинтов. Доступна переменная окружения MLSPACE_JOB_RETRY_COUNT — количество перезапусков задачи обучения. Переменную можно использовать в собственном скрипте, например, чтобы структурировать логи относительно текущего номера перезапуска задачи.
checkpoints_dir (опц.)	Тип — string Значение по умолчанию — None Путь к директории, в которую записываются чекпоинты обучения. Пример значения параметра: /home/jovyan/my-checkpoints. Использование параметра checkpoints_dir упрощает получение перерасчета, если в задаче обучения возникли технические ошибки со стороны Distributed Train. Подробнее о чекпоинтах
health_params (опц.)	Тип — object \| HealthParams Набор параметров для мониторинга зависших задач. Примеры использования Примечание Кроме обязательного параметра log_period необходимо задать хотя бы один из параметров action, sub_actions. log_period (обяз.) Тип — integer Значение по умолчанию — 720. Максимальный интервал в минутах, в течение которого в логах задачи не появляются новые записи. Допустимые значения — от 20 до 720 включительно. action (опц.) Тип — str \| JobHealthAction Действие, применяемое к задаче, логов по которой нет в течение заданного времени. Допустимые значения: delete — остановка задачи; restart — перезапуск задачи. При зависании запускается новая задача с теми же параметрами запуска, что и у зависшей родительской. sub_actions (опц.) Тип — list[str \| JobHealthSubAction] Действия, которые не повлияют на задачу напрямую, но будут полезны пользователю, например, для получения дополнительной информации и диагностики проблем. Допустимые значения: notify — отправить пользователю уведомление с информацией по зависшей задаче.
include_nodes (опц.)	Тип — Array of strings Перечень узлов, на которых должна запускаться задача обучения. Пример использования Примечание Параметр можно использовать как самостоятельно, так и одновременно с параметром exclude_nodes. Значение по умолчанию — null. Команда вывода списка доступных узлов — client_lib.get_nodes(). См.также Выбрать узлы для задачи обучения
exclude_nodes (опц.)	Тип — Array of strings Перечень исключенных узлов, на которых не должна запускаться задача обучения. Пример использования Примечание Параметр можно использовать как самостоятельно, так и одновременно с параметром include_nodes. Значение по умолчанию — null. Команда вывода списка доступных узлов — client_lib.get_nodes(). См.также Выбрать узлы для задачи обучения

Примеры команд

Пример добавления job_desc к задаче

client_lib.Job(base_image='cr.ai.cloud.ru/aicloud-base-images/py3.10-torch2.2.2:0.0.40',
               script='/home/jovyan/quick-start/job_launch/scripts/horovod/tensorflow_mnist_estimator.py',
               instance_type='a100.1gpu.80vG.12C.96G',
               job_desc='your_job_description')

Пример запуска задачи с типом binary

job = client_lib.Job(base_image='cr.ai.cloud.ru/aicloud-base-images/py3.10-torch2.2.2:0.0.40',
               script='ls',
               n_workers=1, instance_type='a100.1gpu.80vG.12C.96G', type ='binary', region='SR002-MT')

job.submit()

При запуске задач с типом binary для переменной script можно использовать bash-скрипты.

Пример задания параметра shm_size_class

job = client_lib.Job(instance_type="a100plus.8gpu.80vG.96C.1456G" type="binary", ...)    # /shm size limit = 256 GB

job = client_lib.Job(instance_type="a100plus.8gpu.80vG.96C.1456G" type="binary", shm_size_class="small", ...)    # /shm size limit = 128 GB

job = client_lib.Job(instance_type="a100plus.8gpu.80vG.96C.1456G" type="binary", shm_size_class="large", ...)    # /shm size limit = 512 GB

job = client_lib.Job(instance_type="a100.2gpu" type="binary", shm_size_class="small", ...)   # /shm size limit = 32 GB

job = client_lib.Job(instance_type="cpu.16C.64G" type="binary", ...)   # /shm size limit = 32 GB

Пример использования параметра processes_per_worker

client_lib.Job(base_image='cr.ai.cloud.ru/aicloud-base-images/py3.10-torch2.2.2:0.0.40',
               script='/home/jovyan/quick-start/job_launch/scripts/horovod/tensorflow_mnist_estimator.py',
               instance_type='a100.1gpu.80vG.12C.96G',
               n_workers=1,
               processes_per_worker=1)

Пример задания параметра flags

   flags = {
     'batch_size': 512,
     'model': 'mymodel50',
     'xla': False
     }

Скрипт будет запущен с параметрами <your_script> --batch_size=512 --model='mymodel50' --xla=False.

Примеры использования JobHealthParams

from client_lib import *

# Example 1

Job(
    base_image='cr.ai.cloud.ru/aicloud-base-images/py3.10-torch2.2.2:0.0.40',
    script='/home/jovyan/quick-start/job_launch/scripts/horovod/tensorflow_mnist_estimator.py',
    instance_type='v100.1gpu',
    # If there were no updates in the job log for 20 minutes,
    # the user will receive a notification, the job will be deleted
    health_params=JobHealthParams(log_period=20, action=JobHealthAction.delete, sub_actions=[JobHealthSubAction.notify]),
)

# Example 2

Job(
    base_image='cr.ai.cloud.ru/aicloud-base-images/py3.10-torch2.2.2:0.0.40',
    script='/home/jovyan/quick-start/job_launch/scripts/horovod/tensorflow_mnist_estimator.py',
    instance_type='v100.1gpu',
    max_retry=3,
    # If there were no updates in the job log for 120 minutes,
    # the user will receive a notification, the job will be restarted
    health_params=JobHealthParams(log_period=120, action='restart', sub_actions=['notify']),
)

# Example 3

Job(
    base_image='cr.ai.cloud.ru/aicloud-base-images/py3.10-torch2.2.2:0.0.40',
    script='/home/jovyan/quick-start/job_launch/scripts/horovod/tensorflow_mnist_estimator.py',
    instance_type='v100.1gpu',
    # If there were no updates in the job log for 180 minutes,
    # the user will receive a notification
    health_params=JobHealthParams(log_period=180, sub_actions=[JobHealthSubAction.notify]),
)

# Example 4

Job(
    base_image='cr.ai.cloud.ru/aicloud-base-images/py3.10-torch2.2.2:0.0.40',
    script='/home/jovyan/quick-start/job_launch/scripts/horovod/tensorflow_mnist_estimator.py',
    instance_type='v100.1gpu',
    max_retry=3,
    # If there were no updates in the job log for 60 minutes,
    # the job will be restarted without notification
    health_params=JobHealthParams(log_period=60, action=JobHealthAction.restart),
)

Примеры использования include_nodes и exclude_nodes

 job = client_lib.Job(
               base_image='cr.ai.cloud.ru/aicloud-base-images/py3.10-torch2.2.2:0.0.40',
               script='/home/jovyan/quick-start/job_launch_pt/train_distributed_example-torch2.py',
               n_workers=1,
               instance_type='a100.1gpu.80vG.12C.96G',
               type ='pytorch2',
               region='SR002-MT',
               include_nodes=["srv-065"],
               exclude_nodes=["srv-012"]
               )

 job.submit()

Команды

submit()

Команда submit() отправляет сформированную задачу на вычисление в регион, после чего задача ставится в очередь на выполнение.

Перед ее использованием рекомендуется выполнить команду get_available_resources_count() для проверки количества доступных ресурсов.

Пример использования submit()

job = client_lib.Job(base_image='cr.ai.cloud.ru/aicloud-base-images/py3.10-torch2.2.2:0.0.40',
               script='ls',
               n_workers=1, instance_type='a100.1gpu.80vG.12C.96G', type ='binary', region='SR002-MT')

job.submit()

status()

Команда status() возвращает статус по последней задаче обучения.

Пример использования status()

job = client_lib.Job(base_image='cr.ai.cloud.ru/aicloud-base-images/py3.10-torch2.2.2:0.0.40',
               script='ls',
               n_workers=1, instance_type='a100.1gpu.80vG.12C.96G', type ='binary', region='SR002-MT')

job.submit()

job.status()

Статусы задач обучения
Статус	Описание
«Pending»	Задача находится в ожидании ресурсов.
«Inqueue»	Задача находится в очереди на запуск.
«Starting»	Ресурсы аллоцированы, происходит скачивание образов и запуск воркеров.
«Running»	Задача обучения выполняется.
«Completed»	Задача обучения завершилась.
«Completing»	Задача обучения завершается.
«Failed»	Задача обучения завершилась с ошибкой, рекомендуется проверить логи задачи.
«Deleted» или «Terminated»	Задача обучения удалена.
«Stopped» или «Aborted»	Задача обучения остановлена.
«Terminating»	Задача обучения останавливается. Освобождаются ресурсы, задача и поды удаляются.
«Aborting»	Задача обучения останавливается. Освобождаются ресурсы, удаляются только поды.

restart()

Команда client_lib.Job(...).restart() перезапускает задачу:

Пример использования client_lib.Job().restart()

from client_lib import Job

result = Job.restart("lm-mpi-job-00000000-0000-0000-0000-000000000000")
print(result)

Возможные ответы:

# If job is found and restarted
Job lm-mpi-job-00000000-0000-0000-0000-000000000000 restarted at lm-mpi-job-00000000-0000-0000-0000-000000000001.

# If job is not found
Not found lm-mpi-job-00000000-0000-0000-0000-000000000000

# Server problems
Can't restart lm-mpi-job-00000000-0000-0000-0000-000000000000

kill()

Команда client_lib.Job(...).kill() удаляет последнюю задачу:

Пример использования client_lib.Job().kill()

job = client_lib.Job(base_image='cr.ai.cloud.ru/aicloud-base-images/py3.10-torch2.2.2:0.0.40',
               script='ls',
               n_workers=1, instance_type='a100.1gpu.80vG.12C.96G', type ='binary', region='SR002-MT')

job.submit()

job.status()

job.kill()

Команда client_lib.kill(job_name, region) удаляет задачу по номеру и ключу региона, где задача выполняется:

Пример использования client_lib.kill()

client_lib.kill('lm-mpi-job-abbb512e-e2c4-4d57-bb72-4c029b82cf02', region='SR002-MT')

logs()

Команда client_lib.Job.logs() возвращает логи задачи обучения.

Пример использования logs(tail, verbose)

job = client_lib.Job(base_image='cr.ai.cloud.ru/aicloud-base-images/py3.10-torch2.2.2:0.0.40',
               script='ls',
               n_workers=1, instance_type='a100.1gpu.80vG.12C.96G', type ='binary', region='SR002-MT')

job.submit()

job.status()

job.logs()

Команда client_lib.logs(job_name, region, tail, verbose) возвращает логи задачи обучения по ее имени.

Пример использования logs(job_name, tail, verbose)

client_lib.logs('lm-mpi-job-abbb512e-e2c4-4d57-bb72-4c029b82cf02',region='SR002-MT',tail=1,verbose=False)

Параметры
Параметр	Описание параметра
job_name	Тип — string Название задачи. Обязательный параметр для logs(job_name, tail, verbose)
tail (опц.)	Тип — integer Значение по умолчанию — None Параметр определяет количество выводимых строк из лога, начиная с конца.
verbose (опц.)	Тип — boolean Значение по умолчанию — False Параметр определяет уровень детализации логов для пользователя. True — предоставляется полный лог. False — из лога исключается информация о статусе выполнения некоторых служебных процессов, например, пула образа или старта рабочих узлов региона.
region (опц.)	Тип — String Значение по умолчанию — DGX2-MT Параметр позволяет выбирать регион размещения вычислительных ресурсов, где была запущена задача обучения. Для параметра доступны следующие значения: Christofari.V100 • DGX2-INF-001 = «DGX2-MT» Christofari.A100.part2 • SR004 = «A100-MT» Cloud.Region.A100 (GPU Tesla A100) • SR002 = «SR002-MT» Cloud.Region.HP1 • SR003 = «SR003» Cloud.Region.HP • SR006 = «SR006»

Эта статья полезна?

Поддержка Юридические документы Политика конфиденциальности