Проверить загрузку оборудования

Пользователи сервиса могут комплексно отслеживать состояние задачи обучения в режиме реального времени, а именно:

  • Контролировать и оптимизировать загрузку вычислительных ресурсов в ходе обучения моделей.

  • Отслеживать случаи внепланового завершения задач обучения.

  • Корректировать работу процессов.

Для этой цели используется Grafana — открытая платформа для мониторинга и анализа данных с интерактивной визуализацией, которая интегрирована в платформу ML Space.

На вкладке Environments → Мониторинг моделей доступен TensorBoard.

Для доступа в Grafana перейдите Environments → Задачи и окружения. Возле требуемой задачи нажмите Кнопка с тремя вертикальными точками и выберите Мониторинг, после того как задача обучения перешла в статус «Выполняется» (running).

Примечание

Для запущенных задач метрики Grafana появляются не сразу. Чтобы они отобразились, обновите страницу спустя какое-то время после начала обучения.

На панелях Grafana показываются следующие графики:

  • CPU usage per worker — уровень загруженности CPU, выделенных под рабочий узел региона.

  • Memory usage per worker — уровень загруженности оперативной памяти, выделенной под рабочий узел региона.

  • GPU utilization — уровень загруженности GPU, выделенных под рабочий узел региона.

  • GPU memory usage — уровень загруженности памяти GPU, выделенной под рабочий узел региона.

Посмотреть графики по конкретным рабочим узлам (worker) можно, выбрав требуемый узел (worker_id) из выпадающего списка. Графики можно масштабировать.

Если загрузка вычислительных ресурсов по графику идет не так, как предполагал пользователь, можно подключиться к исполняемой в регионе задаче по протоколу SSH и отладить необходимые процессов. Подключаться необходимо к конкретному воркер-поду. Подробная информация о том, как это сделать, приведена в разделе Подключиться по SSH к исполняемой задаче обучения из терминала.

Пользователи могут просматривать графики и по завершении задачи обучения. Информация по использованным ресурсам доступна в течение семи дней с момента завершения задачи обучения.

Примечание

Если модель обучалась на Jupyter Server без выделенных GPU, в Grafana можно увидеть время завершения задачи. При обучении на Jupyter Server с GPU на графиках отображается время начала выполнения задачи, а время завершения не фиксировано (now).