Дашборд позволяет следить за изменением метрик в реальном времени или анализировать накопленные метрики в динамике. Метрики на графиках дашборда отображаются за определенный временной интервал, общий для всех графиков.
Сервисные (преднастроенные) дашборды мониторинга доступен в личном кабинете, → Мониторинг, раздел Сервисные дашборды.
Сервисный дашборд Distributed Train Jobs
Чтобы открыть дашборд:
Перейдите в Environments → Задачи и окружения.
Возле запущенной задачи нажмите
и выберите Мониторинг.
График утилизации также доступен в разделе Задачи и окружения в карточке задач обучения на вкладке Мониторинг.
Дашборд поддерживает построение графиков по следующим параметрам:
region — регион размещения ресурсов;
allocation — название аллокации;
workspace — название воркспейса;
job — название задачи обучения;
pod — название пода.
Доступно несколько виджетов. В подсказках к их заголовкам приведены метрики, на которых они основываются.
Название виджета | Описание |
|---|---|
Потребление vCPU | Время в секундах, в течение которого CPU использован контейнером. Показывает активность использования ресурсов процессора. |
Потребление RAM | Объем памяти в байтах, которую использует контейнер, включая все выделенные ресурсы и часть памяти, отведенной контейнеру. |
Утилизация GPU | Процент времени, в течение которого GPU выполнял вычисления. |
Использование буфера кадров GPU | Объем используемой памяти frame buffer (FB) на GPU в данный момент. |
Энергопотребление GPU, Вт | Текущее энергопотребление GPU в Ваттах. |
Утилизация VRAM GPU | Процент использования копирования памяти, отображающий активность устройства при передаче данных. |
Сервисный дашборд Distributed Train Jupyter Server
Чтобы открыть дашборд:
Перейдите в Environments → Jupyter Servers.
Возле запущенного Jupyter Server нажмите
и выберите Мониторинг.
График утилизации также доступен в разделе Jupyter Servers в карточке Jupyter Server на вкладке Мониторинг.
Дашборд поддерживает построение графиков по следующим параметрам:
region — регион размещения ресурсов;
workspace — название воркспейса;
jupyter_name — название Jupyter Server.
Доступно несколько виджетов. В подсказках к их заголовкам приведены метрики, на которых они основываются.
Название виджета | Описание |
|---|---|
Информация | Лимиты и ресурсные мощности контейнеров. |
vCPU, % | Текущая суммарная загрузка vCPU в %. |
RAM, GB | Текущее суммарное потребление RAM в GB. |
Потребление vCPU | Загрузка ядер vCPU этого Jupyter Server для compute-контейнера. |
Потребление RAM | Загрузка RAM этого Jupyter Server для compute-контейнера. |
Утилизация GPU | Использование GPU в %. |
Использование буфера кадров GPU | Используемый буфер кадров в ГБ. Совпадает со значением использования памяти в команде nvidia-smi. |
Энергопотребление GPU, Вт | Потребляемая мощность устройства в Вт. |
Утилизация VRAM GPU | Доля занятой памяти. |
Подробные инструкции о работе с дашбордами читайте в документации сервиса «Мониторинг»:
Сервисные дашборды — работа с преднастроенными дашбордами.
Пользовательские дашборды — создание пользовательских дашбордов с кастомными виджетами и метриками.
Алерты — настройка алертов и уведомлений об изменении в метриках.
Вычисляемые метрики — создание сложных запросов на основе существующих метрик.
- Сервисный дашборд Distributed Train Jobs
- Сервисный дашборд Distributed Train Jupyter Server