Посмотреть утилизацию ресурсов на сервисных дашбордах
На платформе ML Space можно отслеживать состояние Jupyter Server и задачи обучения в режиме реального времени, а именно:
контролировать и оптимизировать загрузку вычислительных ресурсов в ходе обучения моделей;
отслеживать случаи внепланового завершения задач обучения;
корректировать работу процессов.
Доступны сервисные и пользовательские дашборды. Можно просматривать исторические данные за прошлые периоды.
Доступны несколько сервисных дашбордов, на которых можно настраивать просмотр графиков утилизации.
Сервисный дашборд ML Space Jobs
Чтобы открыть дашборд:
Перейдите в Environments → Задачи и окружения.
Возле запущенной задачи нажмите
и выберите Мониторинг.
График утилизации также доступен в разделе Задачи и окружения в карточке задач обучения на вкладке Мониторинг.
Графики можно настроить по следующим параметрам:
region — регион размещения ресурсов;
allocation — название аллокации;
workspace — название воркспейса;
job — название задачи обучения;
pod — название пода.
Доступно несколько виджетов. В подсказках к их заголовкам приведены метрики, на которых они основываются.
Название виджета |
Описание |
---|---|
Потребление vCPU |
Время в секундах, в течение которого CPU использован контейнером. Показывает активность использования ресурсов процессора. |
Потребление RAM |
Объем памяти в байтах, которую использует контейнер, включая все выделенные ресурсы и часть памяти, отведенной контейнеру. |
Утилизация GPU |
Процент времени, в течение которого GPU выполнял вычисления. |
Использование буфера кадров GPU |
Объем используемой памяти frame buffer (FB) на GPU в данный момент. |
Энергопотребление GPU, Вт |
Текущее энергопотребление GPU в Ваттах. |
Утилизация VRAM GPU |
Процент использования копирования памяти, отображающий активность устройства при передаче данных. |
Сервисный дашборд ML Space Jupyter Server
Чтобы открыть дашборд:
Перейдите в Environments → Jupyter Servers.
Возле запущенного Jupyter Server нажмите
и выберите Мониторинг.
График утилизации также доступен в разделе Jupyter Servers в карточке Jupyter Server на вкладке Мониторинг.
Графики можно настроить по следующим параметрам:
region — регион размещения ресурсов;
workspace — название воркспейса;
jupyter_name — название Jupyter Server.
Доступно несколько виджетов. В подсказках к их заголовкам приведены метрики, на которых они основываются.
Название виджета |
Описание |
---|---|
Информация |
Лимиты и ресурсные мощности контейнеров. |
vCPU, % |
Текущая суммарная загрузка vCPU в %. |
RAM, GB |
Текущее суммарное потребление RAM в GB. |
Потребление vCPU |
Загрузка ядер vCPU этого Jupyter Server для compute-контейнера. |
Потребление RAM |
Загрузка RAM этого Jupyter Server для compute-контейнера. |
Утилизация GPU |
Использование GPU в %. |
Использование буфера кадров GPU |
Используемый буфер кадров в ГБ. Совпадает со значением использования памяти в команде nvidia-smi. |
Энергопотребление GPU, Вт |
Потребляемая мощность устройства в Вт. |
Утилизация VRAM GPU |
Доля занятой памяти. |
Анализ загрузки ресурсов
Если по графику видно, что загрузка вычислительных ресурсов идет не так, как ожидалось, можно подключиться к исполняемой в регионе задаче по протоколу SSH и отладить необходимые процессы. Подключаться необходимо к конкретному поду.
Что дальше
Дашборды основаны на сервисе клиентского мониторинга MonaaS, поэтому вы можете:
Создать собственные дашборды на основе метрик ML Space