Дашборд позволяет следить за изменением метрик в реальном времени или анализировать накопленные метрики в динамике. Метрики на графиках дашборда отображаются за определенный временной интервал, общий для всех графиков.
Для Distributed Train доступны сервисные дашборды для управления основными ресурсами:
Чтобы открыть дашборд:
Перейдите в личный кабинет.
Нажмите и выберите Мониторинг.
В разделе ML Space выберите Дашборды → Сервисные → Jupyter Servers.
Дашборд поддерживает построение графиков по следующим параметрам:
region — регион размещения ресурсов;
workspace — название воркспейса;
jupyter_name — название Jupyter Server.
Доступно несколько виджетов. В подсказках к их заголовкам приведены метрики, на которых они основываются.
Название виджета | Описание |
|---|---|
Информация | Лимиты и ресурсные мощности контейнеров. |
vCPU, % | Текущая суммарная загрузка vCPU в %. |
RAM, GB | Текущее суммарное потребление RAM в GB. |
Потребление vCPU | Загрузка ядер vCPU этого Jupyter Server для compute-контейнера. |
Потребление RAM | Загрузка RAM этого Jupyter Server для compute-контейнера. |
Утилизация GPU | Использование GPU в %. |
Использование буфера кадров GPU | Используемый буфер кадров в ГБ. Совпадает со значением использования памяти в команде nvidia-smi. |
Энергопотребление GPU, Вт | Потребляемая мощность устройства в Вт. |
Утилизация VRAM GPU | Доля занятой памяти. |
HTTP-запросы (общее) | Количество HTTP-запросов к Jupyter Server. |
HTTP-запросы (kernels, sessions) | Количество HTTP-запросов к Jupyter Server в разделы kernels и sessions окружения JupyterLab. |
Активные сессии SSH | Количество активных SSH-сессий в Jupyter Server. |
Входящий трафик | Общее количество байт, полученных через сетевой интерфейс. |
Исходящий трафик | Общее количество байт, переданных через сетевой интерфейс. |
Чтобы открыть дашборд:
Перейдите в личный кабинет.
Нажмите и выберите Мониторинг.
В разделе ML Space выберите Дашборды → Сервисные → Задачи обучения.
Дашборд поддерживает построение графиков по следующим параметрам:
region — регион размещения ресурсов;
allocation — название аллокации;
workspace — название воркспейса;
job — название задачи обучения;
pod — название пода.
Доступно несколько виджетов. В подсказках к их заголовкам приведены метрики, на которых они основываются.
Название виджета | Описание |
|---|---|
Потребление vCPU | Время в секундах, в течение которого CPU использован контейнером. Показывает активность использования ресурсов процессора. |
Потребление RAM | Объем памяти в байтах, которую использует контейнер, включая все выделенные ресурсы и часть памяти, отведенной контейнеру. |
Утилизация GPU | Процент времени, в течение которого GPU выполнял вычисления. |
Использование буфера кадров GPU | Объем используемой памяти frame buffer (FB) на GPU в данный момент. |
Энергопотребление GPU, Вт | Текущее энергопотребление GPU в Ваттах. |
Утилизация VRAM GPU | Процент использования копирования памяти, отображающий активность устройства при передаче данных. |
Чтобы открыть дашборд:
Перейдите в личный кабинет.
Нажмите и выберите Мониторинг.
В разделе ML Space выберите Дашборды → Сервисные → Сетевые хранилища.
Дашборд поддерживает построение графиков по следующим параметрам:
storage_zone — название зоны хранения;
storage_system_name — название зоны хранения в системе.
Название виджета | Описание |
|---|---|
Информация | Количество сетевых хранилищ в зонах доступности. |
Объем данных, ТБ | Общий объем данных, хранящихся в сетевых хранилищах. |
Утилизация по объему, % | Процент использования общего объема сетевых хранилищ относительно доступной емкости. |
Изменение объема за час | Разница в объеме данных за последний час, показывающая динамику роста или сокращения хранилища. |
Доступный объем данных, ТБ | Оставшееся свободное пространство в сетевых хранилищах для загрузки новых данных. |
Количество объектов, млн | Общее количество файлов и директорий в сетевых хранилищах. |
Утилизация по количеству объектов, % | Процент заполнения по количеству объектов относительно лимитов сетевых хранилищ. |
Изменение количества объектов за час | Изменение количества объектов в хранилищах за последний час, отражающее активность работы с данными. |
Доступное количество объектов | Оставшееся количество объектов, которое можно добавить в сетевые хранилища до достижения лимитов. |
Чтобы открыть дашборд:
Перейдите в личный кабинет.
Нажмите и выберите Мониторинг.
В разделе ML Space выберите Дашборды → Сервисные → Системные хранилища.
Дашборд поддерживает построение графиков по следующим параметрам:
region — регион размещения ресурсов;
workspace — название воркспейса.
Название виджета | Описание |
|---|---|
Информация | Количество системных хранилищ в регионах. |
Объем данных, ТБ | Общий объем данных, хранящихся в системных хранилищах. |
Утилизация по объему, % | Процент использования общего объема системных хранилищ относительно доступной емкости. |
Изменение объема за час | Разница в объеме данных за последний час, показывающая динамику роста или сокращения хранилища. |
Доступный объем данных, ТБ | Оставшееся свободное пространство в системных хранилищах для загрузки новых данных. |
Количество объектов, млн | Общее количество файлов и директорий в системных хранилищах. |
Утилизация по количеству объектов, % | Процент заполнения по количеству объектов относительно лимитов системных хранилищ. |
Изменение количества объектов за час | Изменение количества объектов в хранилищах за последний час, отражающее активность работы с данными. |
Доступное количество объектов | Оставшееся количество объектов, которое можно добавить в системные хранилища до достижения лимитов. |
Подробные инструкции о работе с дашбордами читайте в документации сервиса «Мониторинг»:
Сервисные дашборды — работа с преднастроенными дашбордами.
Пользовательские дашборды — создание пользовательских дашбордов с кастомными виджетами и метриками.
Алерты — настройка алертов и уведомлений об изменении в метриках.
Вычисляемые метрики — создание сложных запросов на основе существующих метрик.