Evolution
Тема интерфейса

Посмотреть утилизацию ресурсов

В Distributed Train можно отслеживать состояние Jupyter Server и задачи обучения в режиме реального времени, а именно:

  • контролировать и оптимизировать загрузку вычислительных ресурсов в ходе обучения моделей;

  • отслеживать случаи внепланового завершения задач обучения;

  • корректировать работу процессов.

Доступны сервисные и пользовательские дашборды. Можно просматривать исторические данные за прошлые периоды.

Доступны несколько сервисных дашбордов, на которых можно настраивать просмотр графиков утилизации.

Если по графику видно, что загрузка вычислительных ресурсов идет не так, как ожидалось, можно подключиться к исполняемой в регионе задаче по протоколу SSH и отладить необходимые процессы. Подключаться необходимо к конкретному поду.