- Начало работы с ML Space
- Решение проблем
- Решение проблем при обучении моделей
- Ошибка NCCL WARN в логах задачи обучения
- Ошибка «Permission denied, please try again» при запуске задачи обучения
- Tensorflow/Pytorch не видит GPU, низкая скорость обучения
- При выполнении команды «torch.cuda.is_available()» возвращается «False»
- Ошибка «CUDA error: an illegal memory access was encountered»
- Задача завершилась с ошибкой OOMKilled
- Не получается подключиться к GitLab ML Space через SSH
- Тарификация
- Термины и сокращения
- Обратиться в поддержку
Tensorflow/Pytorch не видит GPU, низкая скорость обучения
Возможные причины:
Запуск на ресурсах, в которых не используются GPU (например, бесплатных).
Переустановили базовые версии библиотек.
Примечание
Не рекомендуется менять версию базовых пакетов — Horovod, TensorFlow, Apex, MXNet, TensorBoard, KServe, PyTorch.
Решение:
Удалите папку /home/jovyan/.local, выполнив команду rm –rv ~/.local.
Выберите наш базовый образ с подходящей версией для требуемого региона размещения ресурсов.
Повторно создайте Jupyter Server с конфигурацией, которая требуется для выбранного региона размещения ресурсов.
Была ли статья полезной ?
Предыдущая статья
Ошибка «Permission denied, please try again» при запуске задачи обучения