Проверить загрузку оборудования
Пользователи сервиса могут комплексно отслеживать состояние задачи обучения в режиме реального времени, а именно:
Контролировать и оптимизировать загрузку вычислительных ресурсов в ходе обучения моделей.
Отслеживать случаи внепланового завершения задач обучения.
Корректировать работу процессов.
Для этой цели используется Grafana — открытая платформа для мониторинга и анализа данных с интерактивной визуализацией, которая интегрирована в платформу ML Space.
На вкладке
доступен TensorBoard.Для доступа в Grafana перейдите и выберите Мониторинг, после того как задача обучения перешла в статус «Выполняется» (running).
Примечание
Для запущенных задач метрики Grafana появляются не сразу. Чтобы они отобразились, обновите страницу спустя какое-то время после начала обучения.
На панелях Grafana показываются следующие графики:
CPU usage per worker — уровень загруженности CPU, выделенных под рабочий узел региона.
Memory usage per worker — уровень загруженности оперативной памяти, выделенной под рабочий узел региона.
GPU utilization — уровень загруженности GPU, выделенных под рабочий узел региона.
GPU memory usage — уровень загруженности памяти GPU, выделенной под рабочий узел региона.
Посмотреть графики по конкретным рабочим узлам (worker
) можно, выбрав требуемый узел (worker_id
) из выпадающего списка.
Графики можно масштабировать.
Если загрузка вычислительных ресурсов по графику идет не так, как предполагал пользователь, можно подключиться к исполняемой в регионе задаче по протоколу SSH и отладить необходимые процессов. Подключаться необходимо к конкретному воркер-поду. Подробная информация о том, как это сделать, приведена в разделе Подключиться по SSH к исполняемой задаче обучения из терминала.
Пользователи могут просматривать графики и по завершении задачи обучения. Информация по использованным ресурсам доступна в течение семи дней с момента завершения задачи обучения.
Примечание
Если модель обучалась на Jupyter Server без выделенных GPU, в Grafana можно увидеть время завершения задачи. При обучении на Jupyter Server с GPU на графиках отображается время начала выполнения задачи, а время завершения не фиксировано (now).