tocdepth

2

Ошибка NCCL WARN в логах задачи обучения

Задача обучения отправляется в регион методом Job.submit(). В начале работы задачи строится топология коннектов NCCL. В этот момент NCCL проверяет, каким образом каждой из двух пар карт обмениваться данными между собой наиболее эффективно.

В логах можно просмотреть информацию о выполнении операции NCCL INFO.

Если в ходе проверки NCCL в логах возвращается строчка misc/ibvwrap.cc:252 NCCL WARN Call to ibv_reg_mr failed, это может означать, что синхронизация завершилась с ошибкой (неуспешно). Попробуйте перезапустить задачу обучения.

При запуске распределенной задачи обучения рекомендуем:

  1. Дождаться, пока синхронизация обработает несколько батчей.

  2. Обратить внимание на NCCL WARN в логах задачи. Задачу обучения на исполнение рекомендуется ставить после того, как закончится построения топологии коннектов NCCL.

Если перезапуск не помог, обратитесь в техническую поддержку.

Запустили Evolution free tier
для Dev & Test
Получить