CCE AI Suite (NVIDIA GPU) — надстройка для поддержки GPU в контейнерах.
Ограничения и особенности
-
При использовании узлов GPU требуется установка CCE AI Suite (NVIDIA GPU).
-
Загружаемый драйвер должен быть в формате .run.
-
Поддерживаются только драйверы NVIDIA Tesla. Драйверы GRID не поддерживаются.
-
При установке или переустановке надстройки убедитесь, что указана правильная ссылка для загрузки драйвера. CCE не проверяет доступность ссылки.
-
Надстройка CCE AI Suite (NVIDIA GPU) позволяет загрузить драйвер и выполнить его установку. Статус надстройки в консоли CCE показывает состояние работы надстройки, а не статус установки драйвера.
-
CCE не гарантирует совместимость между версией GPU-драйвера и версией библиотеки CUDA в вашем приложении. Самостоятельно проверьте совместимость версий.
-
Если в пользовательском образе ОС установлен GPU-драйвер, CCE не может гарантировать, что этот драйвер будет совместим с другими компонентами, связанными с GPU. Например, с компонентами мониторинга в CCE.
-
Если вашей версии дайвера GPU нет в списке поддерживаемых, она может оказаться несовместимой с операционной системой, типом ECS или средой выполнения контейнеров. В результате при установке драйвера или в работе надстройки CCE AI Suite (NVIDIA GPU) могут возникнуть ошибки. Если вы используете кастомный драйвер GPU, убедитесь в его совместимости и работоспособности.
Поддерживаемые драйверы GPU
Для кластера CCE Standard поддерживаются следующие драйверы GPU:
Модель GPU | Спецификация | Операционная система | ||||||
---|---|---|---|---|---|---|---|---|
HCE 2.0 (поддерживается виртуализация GPU) | Ubuntu 22.04 | CentOS Linux 7.6 | EulerOS 2.9 | EulerOS 2.5 | Ubuntu 18.04 (EOM) | EulerOS 2.3 (EOM) | ||
Tesla T4 | g6 pi2 | 535.216.03 535.54.03 510.47.03 470.57.02 | 535.216.03 535.161.08 535.54.03 470.141.03 | 535.54.03 470.141.03 | 535.54.03 470.141.03 | 535.54.03 470.141.03 | 470.141.03 | 470.141.03 |
Tesla V100 | p2s p2vs p2v | 535.216.03 535.54.03 510.47.03 470.57.02 | 535.216.03 535.161.08 535.54.03 470.141.03 | 535.54.03 470.141.03 | 535.54.03 470.141.03 | 535.54.03 470.141.03 | 470.141.03 | 470.141.03 |
-
Список поддерживаемых драйверов GPU актуален для версии надстройки CCE AI Suite (NVIDIA GPU) 1.2.28 и выше.
-
Чтобы использовать последнюю версию драйвера GPU, обновите надстройку CCE AI Suite (NVIDIA GPU) до последней версии.
-
CCE не оказывает техническую поддержку для драйверов GPU, достигших статуса EOL, так как компания NVIDIA не предоставляет обновления и исправления безопасности для таких драйверов. Подробнее см. Driver Lifecycle (en).
Драйверы, которые достигли статуса EOL: 510.47.03, 470.141.03.
Получить ссылку на драйвер
Для установки CCE AI Suite (NVIDIA GPU) понадобится ссылка, по которой можно скачать драйвер в формате .run. Чтобы получить ссылку:
-
Перейдите на страницу загрузки драйверов Nvidia.
-
Задайте параметры поиска драйвера в соответствии с конфигурацией вашего оборудования.
-
Нажмите Search.
-
Нажмите Download.
-
Получите ссылку на скачивание драйвера одним из способов:
-
Если у рабочего узла, на который нужно установить драйвер, нет доступа в интернет, нажмите Agree & Download. Полученный файл загрузите в OBS.
-
Если у рабочего узла, на который нужно установить драйвер, есть доступ в интернет, нажмите правой кнопкой мыши на Agree & Download и выберите Копировать адрес ссылки. Сохраните ссылку для следующего шага.
ВниманиеНезависимо от выбранного способа получения ссылки, убедитесь, что драйвер загружается в расширении .run. Если расширение отличается, измените параметры поиска драйвера на сайте Nvidia.
-
Установка надстройки
Чтобы установить CCE AI Suite (NVIDIA GPU):
-
Войдите в консоль управления Advanced:
-
В списке сервисов выберите Cloud Container Engine.
-
В меню слева перейдите в раздел Add-ons.
-
Найдите надстройку CCE AI Suite (NVIDIA GPU) и нажмите Install.
-
В списке Cluster Name выберите кластер, на который нужно установить надстройку.
-
В поле NVIDIA Driver вставьте ссылку на загрузку драйвера из OBS или с сайта NVIDIA. Все GPU-узлы в кластере будут использовать этот драйвер.
-
(Опционально) Если вы не хотите, чтобы все узлы в кластере использовали один и тот же драйвер, с помощью Driver Selection установите разные версии драйверов для разных пулов узлов.
-
Нажмите Install.
После успешной установки надстройка появится на узле GPU в кластере.
Чтобы при установке новой версии драйвера изменения вступили в силу, перезапустите узлы.
Верификация надстройки
Чтобы проверить доступность устройства GPU и драйвера, выполните команды:
-
на узле GPU:
# если версия надстройки ниже, чем 2.0.0:cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi# если версия надстройки 2.0.0 и выше:cd /usr/local/nvidia/bin && ./nvidia-smi -
в контейнере:
cd /usr/local/nvidia/bin && ./nvidia-smi
Вывод информации о GPU означает, что видеокарта доступна и надстройка успешно установлена:

- Ограничения и особенности
- Поддерживаемые драйверы GPU
- Получить ссылку на драйвер
- Установка надстройки
- Верификация надстройки