nav-img
ML Space

Посмотреть утилизацию ресурсов на сервисных дашбордах

На платформе ML Space можно отслеживать состояние Jupyter Server и задачи обучения в режиме реального времени, а именно:

  • контролировать и оптимизировать загрузку вычислительных ресурсов в ходе обучения моделей;

  • отслеживать случаи внепланового завершения задач обучения;

  • корректировать работу процессов.

Доступны сервисные и пользовательские дашборды. Можно просматривать исторические данные за прошлые периоды.

Доступны несколько сервисных дашбордов, на которых можно настраивать просмотр графиков утилизации.

Сервисный дашборд ML Space Jobs

Чтобы открыть дашборд:


  1. Перейдите в Environments → Задачи и окружения.

  2. Возле запущенной задачи нажмите Кнопка с тремя вертикальными точками и выберите Мониторинг.

Примечание

График утилизации также доступен в разделе Задачи и окружения в карточке задач обучения на вкладке Мониторинг.

Графики можно настроить по следующим параметрам:

Доступно несколько виджетов. В подсказках к их заголовкам приведены метрики, на которых они основываются.

Дашборд ML Space Jobs

Название виджета

Описание

Потребление vCPU

Время в секундах, в течение которого CPU использован контейнером. Показывает активность использования ресурсов процессора.

Потребление RAM

Объем памяти в байтах, которую использует контейнер, включая все выделенные ресурсы и часть памяти, отведенной контейнеру.

Утилизация GPU

Процент времени, в течение которого GPU выполнял вычисления.

Использование буфера кадров GPU

Объем используемой памяти frame buffer (FB) на GPU в данный момент.

Энергопотребление GPU, Вт

Текущее энергопотребление GPU в Ваттах.

Утилизация VRAM GPU

Процент использования копирования памяти, отображающий активность устройства при передаче данных.

Сервисный дашборд ML Space Jupyter Server

Чтобы открыть дашборд:


  1. Перейдите в Environments → Jupyter Servers.

  2. Возле запущенного Jupyter Server нажмите Кнопка с тремя вертикальными точками и выберите Мониторинг.

Примечание

График утилизации также доступен в разделе Jupyter Servers в карточке Jupyter Server на вкладке Мониторинг.

Графики можно настроить по следующим параметрам:

  • regionрегион размещения ресурсов;

  • workspace — название воркспейса;

  • jupyter_name — название Jupyter Server.

Доступно несколько виджетов. В подсказках к их заголовкам приведены метрики, на которых они основываются.

Дашборд ML Space Jupyter Server

Название виджета

Описание

Информация

Лимиты и ресурсные мощности контейнеров.

vCPU, %

Текущая суммарная загрузка vCPU в %.

RAM, GB

Текущее суммарное потребление RAM в GB.

Потребление vCPU

Загрузка ядер vCPU этого Jupyter Server для compute-контейнера.

Потребление RAM

Загрузка RAM этого Jupyter Server для compute-контейнера.

Утилизация GPU

Использование GPU в %.

Использование буфера кадров GPU

Используемый буфер кадров в ГБ. Совпадает со значением использования памяти в команде nvidia-smi.

Энергопотребление GPU, Вт

Потребляемая мощность устройства в Вт.

Утилизация VRAM GPU

Доля занятой памяти.

Анализ загрузки ресурсов

Если по графику видно, что загрузка вычислительных ресурсов идет не так, как ожидалось, можно подключиться к исполняемой в регионе задаче по протоколу SSH и отладить необходимые процессы. Подключаться необходимо к конкретному поду.

Что дальше

Дашборды основаны на сервисе клиентского мониторинга MonaaS, поэтому вы можете: