- tocdepth
2
CCE AI Suite (NVIDIA GPU)
CCE AI Suite (NVIDIA GPU) — надстройка для поддержки GPU в контейнерах.
Ограничения и особенности
При использовании узлов GPU требуется установка CCE AI Suite (NVIDIA GPU).
Загружаемый драйвер должен быть в формате
.run
.Поддерживаются только драйверы NVIDIA Tesla. Драйверы GRID не поддерживаются.
При установке или переустановке надстройки убедитесь, что указана правильная ссылка для загрузки драйвера. CCE не проверяет доступность ссылки.
Надстройка CCE AI Suite (NVIDIA GPU) позволяет загрузить драйвер и выполнить его установку. Статус надстройки в консоли CCE показывает состояние работы надстройки, а не статус установки драйвера.
CCE не гарантирует совместимость между версией GPU-драйвера и версией библиотеки CUDA в вашем приложении. Самостоятельно проверьте совместимость версий.
Если в пользовательском образе ОС установлен GPU-драйвер, CCE не может гарантировать, что этот драйвер будет совместим с другими компонентами, связанными с GPU. Например, с компонентами мониторинга в CCE.
Получить ссылку на драйвер
Для установки CCE AI Suite (NVIDIA GPU) понадобится ссылка, по которой можно скачать драйвер в формате .run
.
Чтобы получить ссылку:
Перейдите на страницу загрузки драйверов Nvidia.
Задайте параметры поиска драйвера в соответствии с конфигурацией вашего оборудования.
Нажмите Search.
Нажмите Download.
Получите ссылку на скачивание драйвера одним из способов:
Если у рабочего узла, на который нужно установить драйвер, нет доступа в интернет, нажмите Agree & Download. Полученный файл загрузите в OBS.
Если у рабочего узла, на который нужно установить драйвер, есть доступ в интернет, нажмите правой кнопкой мыши на Agree & Download и выберите Копировать адрес ссылки. Сохраните ссылку для следующего шага.
Внимание
Независимо от выбранного способа получения ссылки, убедитесь, что драйвер загружается в расширении
.run
. Если расширение отличается, измените параметры поиска драйвера на сайте Nvidia.
Установка надстройки
Чтобы установить CCE AI Suite (NVIDIA GPU):
Войдите в консоль управления Advanced:
В списке сервисов выберите Cloud Container Engine.
В меню слева перейдите в раздел Add-ons.
Найдите надстройку CCE AI Suite (NVIDIA GPU) и нажмите Install.
В списке Cluster Name выберите кластер, на который нужно установить надстройку.
В поле NVIDIA Driver вставьте ссылку на загрузку драйвера из OBS или с сайта NVIDIA. Все GPU-узлы в кластере будут использовать этот драйвер.
(Опционально) Если вы не хотите, чтобы все узлы в кластере использовали один и тот же драйвер, с помощью Driver Selection установите разные версии драйверов для разных пулов узлов.
Нажмите Install.
После успешной установки надстройка появится на узле GPU в кластере.
Примечание
Чтобы при установке новой версии драйвера изменения вступили в силу, перезапустите узлы.
Верификация надстройки
Чтобы проверить доступность устройства GPU и драйвера, выполните команды:
на узле GPU:
# если версия надстройки ниже, чем 2.0.0: cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi # если версия надстройки 2.0.0 и выше: cd /usr/local/nvidia/bin && ./nvidia-smi
в контейнере:
cd /usr/local/nvidia/bin && ./nvidia-smi
Вывод информации о GPU означает, что видеокарта доступна и надстройка успешно установлена:
для Dev & Test