- tocdepth
2
Ошибка NCCL WARN в логах задачи обучения
Задача обучения отправляется в регион методом Job.submit(). В начале работы задачи строится топология коннектов NCCL. В этот момент NCCL проверяет, каким образом каждой из двух пар карт обмениваться данными между собой наиболее эффективно.
В логах можно просмотреть информацию о выполнении операции NCCL INFO
.
Если в ходе проверки NCCL в логах возвращается строчка misc/ibvwrap.cc:252 NCCL WARN Call to ibv_reg_mr failed
, это может означать, что синхронизация завершилась с ошибкой (неуспешно).
Попробуйте перезапустить задачу обучения.
При запуске распределенной задачи обучения рекомендуем:
Дождаться, пока синхронизация обработает несколько батчей.
Обратить внимание на
NCCL WARN
в логах задачи. Задачу обучения на исполнение рекомендуется ставить после того, как закончится построения топологии коннектов NCCL.
Если перезапуск не помог, обратитесь в техническую поддержку.
для Dev & Test