Advanced
Тема интерфейса

CCE AI Suite (NVIDIA GPU)

CCE AI Suite (NVIDIA GPU) — надстройка для поддержки GPU в контейнерах.

Ограничения и особенности

  • При использовании узлов GPU требуется установка CCE AI Suite (NVIDIA GPU).

  • Загружаемый драйвер должен быть в формате .run.

  • Поддерживаются только драйверы NVIDIA Tesla. Драйверы GRID не поддерживаются.

  • При установке или переустановке надстройки убедитесь, что указана правильная ссылка для загрузки драйвера. CCE не проверяет доступность ссылки.

  • Надстройка CCE AI Suite (NVIDIA GPU) позволяет загрузить драйвер и выполнить его установку. Статус надстройки в консоли CCE показывает состояние работы надстройки, а не статус установки драйвера.

  • CCE не гарантирует совместимость между версией GPU-драйвера и версией библиотеки CUDA в вашем приложении. Самостоятельно проверьте совместимость версий.

  • Если в пользовательском образе ОС установлен GPU-драйвер, CCE не может гарантировать, что этот драйвер будет совместим с другими компонентами, связанными с GPU. Например, с компонентами мониторинга в CCE.

  • Если вашей версии дайвера GPU нет в списке поддерживаемых, она может оказаться несовместимой с операционной системой, типом ECS или средой выполнения контейнеров. В результате при установке драйвера или в работе надстройки CCE AI Suite (NVIDIA GPU) могут возникнуть ошибки. Если вы используете кастомный драйвер GPU, убедитесь в его совместимости и работоспособности.

Поддерживаемые драйверы GPU

Для кластера CCE Standard поддерживаются следующие драйверы GPU:

Модель GPU

Спецификация

Операционная система

HCE 2.0 (поддерживается виртуализация GPU)

Ubuntu 22.04

CentOS Linux 7.6

EulerOS 2.9

EulerOS 2.5

Ubuntu 18.04 (EOM)

EulerOS 2.3 (EOM)

Tesla T4

g6 pi2

535.216.03 535.54.03 510.47.03 470.57.02

535.216.03 535.161.08 535.54.03 470.141.03

535.54.03 470.141.03

535.54.03 470.141.03

535.54.03 470.141.03

470.141.03

470.141.03

Tesla V100

p2s p2vs p2v

535.216.03 535.54.03 510.47.03 470.57.02

535.216.03 535.161.08 535.54.03 470.141.03

535.54.03 470.141.03

535.54.03 470.141.03

535.54.03 470.141.03

470.141.03

470.141.03

Примечание
  • Список поддерживаемых драйверов GPU актуален для версии надстройки CCE AI Suite (NVIDIA GPU) 1.2.28 и выше.

  • Чтобы использовать последнюю версию драйвера GPU, обновите надстройку CCE AI Suite (NVIDIA GPU) до последней версии.

  • CCE не оказывает техническую поддержку для драйверов GPU, достигших статуса EOL, так как компания NVIDIA не предоставляет обновления и исправления безопасности для таких драйверов. Подробнее см. Driver Lifecycle (en).

    Драйверы, которые достигли статуса EOL: 510.47.03, 470.141.03.

Получить ссылку на драйвер

Для установки CCE AI Suite (NVIDIA GPU) понадобится ссылка, по которой можно скачать драйвер в формате .run. Чтобы получить ссылку:

  1. Задайте параметры поиска драйвера в соответствии с конфигурацией вашего оборудования.

  2. Нажмите Search.

  3. Нажмите Download.

  4. Получите ссылку на скачивание драйвера одним из способов:

    • Если у рабочего узла, на который нужно установить драйвер, нет доступа в интернет, нажмите Agree & Download. Полученный файл загрузите в OBS.

    • Если у рабочего узла, на который нужно установить драйвер, есть доступ в интернет, нажмите правой кнопкой мыши на Agree & Download и выберите Копировать адрес ссылки. Сохраните ссылку для следующего шага.

    Внимание

    Независимо от выбранного способа получения ссылки, убедитесь, что драйвер загружается в расширении .run. Если расширение отличается, измените параметры поиска драйвера на сайте Nvidia.

Установка надстройки

Чтобы установить CCE AI Suite (NVIDIA GPU):

  1. Войдите в консоль управления Advanced:

  2. В списке сервисов выберите Cloud Container Engine.

  3. В меню слева перейдите в раздел Add-ons.

  4. Найдите надстройку CCE AI Suite (NVIDIA GPU) и нажмите Install.

  5. В списке Cluster Name выберите кластер, на который нужно установить надстройку.

  6. В поле NVIDIA Driver вставьте ссылку на загрузку драйвера из OBS или с сайта NVIDIA. Все GPU-узлы в кластере будут использовать этот драйвер.

  7. (Опционально) Если вы не хотите, чтобы все узлы в кластере использовали один и тот же драйвер, с помощью Driver Selection установите разные версии драйверов для разных пулов узлов.

  8. Нажмите Install.

После успешной установки надстройка появится на узле GPU в кластере.

Примечание

Чтобы при установке новой версии драйвера изменения вступили в силу, перезапустите узлы.

Верификация надстройки

Чтобы проверить доступность устройства GPU и драйвера, выполните команды:

  • на узле GPU:

    # если версия надстройки ниже, чем 2.0.0:
    cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi
    # если версия надстройки 2.0.0 и выше:
    cd /usr/local/nvidia/bin && ./nvidia-smi
  • в контейнере:

    cd /usr/local/nvidia/bin && ./nvidia-smi

Вывод информации о GPU означает, что видеокарта доступна и надстройка успешно установлена:

../_images/s__gpu-information.png