Дашборд позволяет следить за изменением метрик в реальном времени или анализировать накопленные метрики в динамике. Метрики на графиках дашборда отображаются за определенный временной интервал, общий для всех графиков.
Сервисные (преднастроенные) дашборды мониторинга доступен в личном кабинете, → Мониторинг, раздел Сервисные дашборды.
Сервисный дашборд Distributed Train Jobs
Чтобы открыть дашборд:
-
Перейдите в Environments → Задачи и окружения.
-
Возле запущенной задачи нажмите
и выберите Мониторинг.
График утилизации также доступен в разделе Задачи и окружения в карточке задач обучения на вкладке Мониторинг.
Дашборд поддерживает построение графиков по следующим параметрам:
-
region — регион размещения ресурсов;
-
allocation — название аллокации;
-
workspace — название воркспейса;
-
job — название задачи обучения;
-
pod — название пода.
Доступно несколько виджетов. В подсказках к их заголовкам приведены метрики, на которых они основываются.
Название виджета | Описание |
---|---|
Потребление vCPU | Время в секундах, в течение которого CPU использован контейнером. Показывает активность использования ресурсов процессора. |
Потребление RAM | Объем памяти в байтах, которую использует контейнер, включая все выделенные ресурсы и часть памяти, отведенной контейнеру. |
Утилизация GPU | Процент времени, в течение которого GPU выполнял вычисления. |
Использование буфера кадров GPU | Объем используемой памяти frame buffer (FB) на GPU в данный момент. |
Энергопотребление GPU, Вт | Текущее энергопотребление GPU в Ваттах. |
Утилизация VRAM GPU | Процент использования копирования памяти, отображающий активность устройства при передаче данных. |
Сервисный дашборд Distributed Train Jupyter Server
Чтобы открыть дашборд:
-
Перейдите в Environments → Jupyter Servers.
-
Возле запущенного Jupyter Server нажмите
и выберите Мониторинг.
График утилизации также доступен в разделе Jupyter Servers в карточке Jupyter Server на вкладке Мониторинг.
Дашборд поддерживает построение графиков по следующим параметрам:
-
region — регион размещения ресурсов;
-
workspace — название воркспейса;
-
jupyter_name — название Jupyter Server.
Доступно несколько виджетов. В подсказках к их заголовкам приведены метрики, на которых они основываются.
Название виджета | Описание |
---|---|
Информация | Лимиты и ресурсные мощности контейнеров. |
vCPU, % | Текущая суммарная загрузка vCPU в %. |
RAM, GB | Текущее суммарное потребление RAM в GB. |
Потребление vCPU | Загрузка ядер vCPU этого Jupyter Server для compute-контейнера. |
Потребление RAM | Загрузка RAM этого Jupyter Server для compute-контейнера. |
Утилизация GPU | Использование GPU в %. |
Использование буфера кадров GPU | Используемый буфер кадров в ГБ. Совпадает со значением использования памяти в команде nvidia-smi. |
Энергопотребление GPU, Вт | Потребляемая мощность устройства в Вт. |
Утилизация VRAM GPU | Доля занятой памяти. |
Подробные инструкции о работе с дашбордами читайте в документации сервиса «Мониторинг»:
-
Сервисные дашборды — работа с преднастроенными дашбордами.
-
Пользовательские дашборды — создание пользовательских дашбордов с кастомными виджетами и метриками.
-
Алерты — настройка алертов и уведомлений об изменении в метриках.
-
Вычисляемые метрики — создание сложных запросов на основе существующих метрик.
- Сервисный дашборд Distributed Train Jobs
- Сервисный дашборд Distributed Train Jupyter Server