- tocdepth
2
Проверить загрузку оборудования
В платформу ML Space интегрирована открытая платформа для мониторинга и анализа данных с интерактивной визуализацией Grafana. С ее помощью можно отслеживать состояние задачи обучения в режиме реального времени, а именно:
контролировать и оптимизировать загрузку вычислительных ресурсов в ходе обучения моделей;
отслеживать случаи внепланового завершения задач обучения;
корректировать работу процессов.
Статистика в Grafana
Для доступа в Grafana:
Перейдите в
.Возле нужной задачи нажмите и выберите Мониторинг. Задача должна быть в статусе «Running».
Примечание
Чтобы метрики Grafana отобразились для запущенной задачи, обновите страницу спустя некоторое время после начала обучения.
Можно просматривать графики и после того задача завершится, информация доступна в течение семи дней с момента завершения задачи обучения.
На панелях Grafana показываются следующие графики:
CPU usage per worker — уровень загруженности CPU, выделенных под рабочий узел региона;
Memory usage per worker — уровень загруженности оперативной памяти, выделенной под рабочий узел региона;
GPU utilization — уровень загруженности GPU, выделенных под рабочий узел региона;
GPU memory usage — уровень загруженности памяти GPU, выделенной под рабочий узел региона.
Посмотреть графики по конкретным рабочим узлам (worker
) можно, выбрав требуемый узел (worker_id
) из выпадающего списка.
Графики можно масштабировать.
Примечание
Если модель обучалась на Jupyter Server без выделенных GPU, в Grafana можно увидеть время завершения задачи. При обучении на Jupyter Server с GPU на графиках отображается время начала выполнения задачи, а время завершения не фиксировано (now).
Анализ загрузки ресурсов
Если по графику видно, что загрузка вычислительных ресурсов идет не так, как ожидалось, можно подключиться к исполняемой в регионе задаче по протоколу SSH и отладить необходимые процессы. Подключаться необходимо к конкретному воркер-поду.
Подробная информация приведена в разделе Подключиться по SSH к задаче обучения.
для Dev & Test