Проверить загрузку оборудования

В платформу ML Space интегрирована открытая платформа для мониторинга и анализа данных с интерактивной визуализацией Grafana. С ее помощью можно отслеживать состояние задачи обучения в режиме реального времени, а именно:

  • контролировать и оптимизировать загрузку вычислительных ресурсов в ходе обучения моделей;

  • отслеживать случаи внепланового завершения задач обучения;

  • корректировать работу процессов.

Статистика в Grafana

Для доступа в Grafana:

  1. Перейдите Environments → Задачи и окружения.

  2. Возле нужной задачи нажмите Кнопка с тремя вертикальными точками и выберите Мониторинг. Задача должна быть в статусе «Running».

    Примечание

    Чтобы метрики Grafana отобразились для запущенной задачи, обновите страницу спустя некоторое время после начала обучения.

Можно просматривать графики и после того задача завершится, информация доступна в течение семи дней с момента завершения задачи обучения.

На панелях Grafana показываются следующие графики:

  • CPU usage per worker — уровень загруженности CPU, выделенных под рабочий узел региона;

  • Memory usage per worker — уровень загруженности оперативной памяти, выделенной под рабочий узел региона;

  • GPU utilization — уровень загруженности GPU, выделенных под рабочий узел региона;

  • GPU memory usage — уровень загруженности памяти GPU, выделенной под рабочий узел региона.

Посмотреть графики по конкретным рабочим узлам (worker) можно, выбрав требуемый узел (worker_id) из выпадающего списка. Графики можно масштабировать.

Примечание

Если модель обучалась на Jupyter Server без выделенных GPU, в Grafana можно увидеть время завершения задачи. При обучении на Jupyter Server с GPU на графиках отображается время начала выполнения задачи, а время завершения не фиксировано (now).

Анализ загрузки ресурсов

Если по графику видно, что загрузка вычислительных ресурсов идет не так, как ожидалось, можно подключиться к исполняемой в регионе задаче по протоколу SSH и отладить необходимые процессы. Подключаться необходимо к конкретному воркер-поду.

Подробная информация приведена в разделе Подключиться по SSH к задаче обучения из терминала.

Запустили Evolution free tier
для Dev & Test
Получить