Посмотреть утилизацию ресурсов на сервисных дашбордах
В Distributed Train можно отслеживать состояние Jupyter Server и задачи обучения в режиме реального времени, а именно:
контролировать и оптимизировать загрузку вычислительных ресурсов в ходе обучения моделей;
отслеживать случаи внепланового завершения задач обучения;
корректировать работу процессов.
Доступны сервисные и пользовательские дашборды. Можно просматривать исторические данные за прошлые периоды.
Доступны несколько сервисных дашбордов, на которых можно настраивать просмотр графиков утилизации.
Сервисный дашборд Distributed Train Jobs
Чтобы открыть дашборд:
Перейдите в Environments → Задачи и окружения.
Возле запущенной задачи нажмите
и выберите Мониторинг.
График утилизации также доступен в разделе Задачи и окружения в карточке задач обучения на вкладке Мониторинг.
Графики можно настроить по следующим параметрам:
region — регион размещения ресурсов;
allocation — название аллокации;
workspace — название воркспейса;
job — название задачи обучения;
pod — название пода.
Доступно несколько виджетов. В подсказках к их заголовкам приведены метрики, на которых они основываются.
Название виджета | Описание |
---|---|
Потребление vCPU | Время в секундах, в течение которого CPU использован контейнером. Показывает активность использования ресурсов процессора. |
Потребление RAM | Объем памяти в байтах, которую использует контейнер, включая все выделенные ресурсы и часть памяти, отведенной контейнеру. |
Утилизация GPU | Процент времени, в течение которого GPU выполнял вычисления. |
Использование буфера кадров GPU | Объем используемой памяти frame buffer (FB) на GPU в данный момент. |
Энергопотребление GPU, Вт | Текущее энергопотребление GPU в Ваттах. |
Утилизация VRAM GPU | Процент использования копирования памяти, отображающий активность устройства при передаче данных. |
Сервисный дашборд Distributed Train Jupyter Server
Чтобы открыть дашборд:
Перейдите в Environments → Jupyter Servers.
Возле запущенного Jupyter Server нажмите
и выберите Мониторинг.
График утилизации также доступен в разделе Jupyter Servers в карточке Jupyter Server на вкладке Мониторинг.
Графики можно настроить по следующим параметрам:
region — регион размещения ресурсов;
workspace — название воркспейса;
jupyter_name — название Jupyter Server.
Доступно несколько виджетов. В подсказках к их заголовкам приведены метрики, на которых они основываются.
Название виджета | Описание |
---|---|
Информация | Лимиты и ресурсные мощности контейнеров. |
vCPU, % | Текущая суммарная загрузка vCPU в %. |
RAM, GB | Текущее суммарное потребление RAM в GB. |
Потребление vCPU | Загрузка ядер vCPU этого Jupyter Server для compute-контейнера. |
Потребление RAM | Загрузка RAM этого Jupyter Server для compute-контейнера. |
Утилизация GPU | Использование GPU в %. |
Использование буфера кадров GPU | Используемый буфер кадров в ГБ. Совпадает со значением использования памяти в команде nvidia-smi. |
Энергопотребление GPU, Вт | Потребляемая мощность устройства в Вт. |
Утилизация VRAM GPU | Доля занятой памяти. |
Анализ загрузки ресурсов
Если по графику видно, что загрузка вычислительных ресурсов идет не так, как ожидалось, можно подключиться к исполняемой в регионе задаче по протоколу SSH и отладить необходимые процессы. Подключаться необходимо к конкретному поду.
Что дальше
Дашборды основаны на сервисе клиентского мониторинга MonaaS, поэтому вы можете:
Создать собственные дашборды на основе метрик Distributed Train
- Сервисный дашборд Distributed Train Jobs
- Сервисный дашборд Distributed Train Jupyter Server
- Анализ загрузки ресурсов
- Что дальше