Distributed Train

Посмотреть утилизацию ресурсов на сервисных дашбордах

В Distributed Train можно отслеживать состояние Jupyter Server и задачи обучения в режиме реального времени, а именно:

контролировать и оптимизировать загрузку вычислительных ресурсов в ходе обучения моделей;
отслеживать случаи внепланового завершения задач обучения;
корректировать работу процессов.

Доступны сервисные и пользовательские дашборды. Можно просматривать исторические данные за прошлые периоды.

Доступны несколько сервисных дашбордов, на которых можно настраивать просмотр графиков утилизации.

См.также

Сервисный дашборд Distributed Train Jobs

Чтобы открыть дашборд:

Примечание

График утилизации также доступен в разделе Задачи и окружения в карточке задач обучения на вкладке Мониторинг.

Графики можно настроить по следующим параметрам:

Доступно несколько виджетов. В подсказках к их заголовкам приведены метрики, на которых они основываются.

Дашборд Distributed Train Jobs
Название виджета	Описание
Потребление vCPU	Время в секундах, в течение которого CPU использован контейнером. Показывает активность использования ресурсов процессора.
Потребление RAM	Объем памяти в байтах, которую использует контейнер, включая все выделенные ресурсы и часть памяти, отведенной контейнеру.
Утилизация GPU	Процент времени, в течение которого GPU выполнял вычисления.
Использование буфера кадров GPU	Объем используемой памяти frame buffer (FB) на GPU в данный момент.
Энергопотребление GPU, Вт	Текущее энергопотребление GPU в Ваттах.
Утилизация VRAM GPU	Процент использования копирования памяти, отображающий активность устройства при передаче данных.

Чтобы открыть дашборд:

Примечание

График утилизации также доступен в разделе Jupyter Servers в карточке Jupyter Server на вкладке Мониторинг.

Графики можно настроить по следующим параметрам:

Доступно несколько виджетов. В подсказках к их заголовкам приведены метрики, на которых они основываются.

Дашборд Distributed Train Jupyter Server
Название виджета	Описание
Информация	Лимиты и ресурсные мощности контейнеров.
vCPU, %	Текущая суммарная загрузка vCPU в %.
RAM, GB	Текущее суммарное потребление RAM в GB.
Потребление vCPU	Загрузка ядер vCPU этого Jupyter Server для compute-контейнера.
Потребление RAM	Загрузка RAM этого Jupyter Server для compute-контейнера.
Утилизация GPU	Использование GPU в %.
Использование буфера кадров GPU	Используемый буфер кадров в ГБ. Совпадает со значением использования памяти в команде nvidia-smi.
Энергопотребление GPU, Вт	Потребляемая мощность устройства в Вт.
Утилизация VRAM GPU	Доля занятой памяти.

Если по графику видно, что загрузка вычислительных ресурсов идет не так, как ожидалось, можно подключиться к исполняемой в регионе задаче по протоколу SSH и отладить необходимые процессы. Подключаться необходимо к конкретному поду.

Дашборды основаны на сервисе клиентского мониторинга MonaaS, поэтому вы можете:

Была ли эта статья полезна?