- Начало работы с ML Space
- Решение проблем
- Решение проблем при обучении моделей
- Ошибка NCCL WARN в логах задачи обучения
- Ошибка «Permission denied, please try again» при запуске задачи обучения
- Tensorflow/Pytorch не видит GPU, низкая скорость обучения
- При выполнении команды «torch.cuda.is_available()» возвращается «False»
- Ошибка «CUDA error: an illegal memory access was encountered»
- Задача завершилась с ошибкой OOMKilled
- Не получается подключиться к GitLab ML Space через SSH
- Тарификация
- Термины и сокращения
- Обратиться в поддержку
Ошибка «Permission denied, please try again» при запуске задачи обучения
Вероятно, при запуске задачи обучения взят образ для Jupyter Server (имеет префикс «jupyter-» в названии). Для запуска задачи обучения нужно использовать базовый образ или кастомный с префиксом «job-» в названии
Пример:
cr.ai.cloud.ru/aicloud-jupyter/jupyter-server:0.0.94 — с этим образом возникнет ошибка,
cr.ai.cloud.ru/aicloud-base-images/py3.10-torch2.2.2:0.0.40 — этот образ будет корректно работать для задачи обучения. Подробнее про использование образов при запуске задачи обучения через client_lib в инструкции.
Была ли статья полезной ?
Предыдущая статья
Ошибка NCCL WARN в логах задачи обучения
Следующая статья
Tensorflow/Pytorch не видит GPU, низкая скорость обучения