- Начало работы с ML Space
- Решение проблем
- Решение проблем при обучении моделей
- Ошибка NCCL WARN в логах задачи обучения
- Ошибка «Permission denied, please try again» при запуске задачи обучения
- Tensorflow/Pytorch не видит GPU, низкая скорость обучения
- При выполнении команды «torch.cuda.is_available()» возвращается «False»
- Ошибка «CUDA error: an illegal memory access was encountered»
- Задача завершилась с ошибкой OOMKilled
- Не получается подключиться к GitLab ML Space через SSH
- Тарификация
- Термины и сокращения
- Обратиться в поддержку
Ошибка NCCL WARN в логах задачи обучения
Задача обучения отправляется в регион методом Job.submit(). В начале работы задачи строится топология коннектов NCCL. В этот момент NCCL проверяет, каким образом каждой из двух пар карт обмениваться данными между собой наиболее эффективно.
В логах можно просмотреть информацию о выполнении операции NCCL INFO.
Если в ходе проверки NCCL в логах возвращается строчка misc/ibvwrap.cc:252 NCCL WARN Call to ibv_reg_mr failed, это может означать, что синхронизация завершилась с ошибкой (неуспешно). Попробуйте перезапустить задачу обучения.
При запуске распределенной задачи обучения рекомендуем:
Дождаться, пока синхронизация обработает несколько батчей.
Обратить внимание на NCCL WARN в логах задачи. Задачу обучения на исполнение рекомендуется ставить после того, как закончится построения топологии коннектов NCCL.
Если перезапуск не помог, обратитесь в техническую поддержку.