tocdepth

2

CCE AI Suite (NVIDIA GPU)

CCE AI Suite (NVIDIA GPU) — надстройка для поддержки GPU в контейнерах.

Ограничения и особенности

  • При использовании узлов GPU требуется установка CCE AI Suite (NVIDIA GPU).

  • Загружаемый драйвер должен быть в формате .run.

  • Поддерживаются только драйверы NVIDIA Tesla. Драйверы GRID не поддерживаются.

  • При установке или переустановке надстройки убедитесь, что указана правильная ссылка для загрузки драйвера. CCE не проверяет доступность ссылки.

  • Надстройка CCE AI Suite (NVIDIA GPU) позволяет загрузить драйвер и выполнить его установку. Статус надстройки в консоли CCE показывает состояние работы надстройки, а не статус установки драйвера.

  • CCE не гарантирует совместимость между версией GPU-драйвера и версией библиотеки CUDA в вашем приложении. Самостоятельно проверьте совместимость версий.

  • Если в пользовательском образе ОС установлен GPU-драйвер, CCE не может гарантировать, что этот драйвер будет совместим с другими компонентами, связанными с GPU. Например, с компонентами мониторинга в CCE.

Получить ссылку на драйвер

Для установки CCE AI Suite (NVIDIA GPU) понадобится ссылка, по которой можно скачать драйвер в формате .run. Чтобы получить ссылку:

  1. Перейдите на страницу загрузки драйверов Nvidia.

  2. Задайте параметры поиска драйвера в соответствии с конфигурацией вашего оборудования.

  3. Нажмите Search.

  4. Нажмите Download.

  5. Получите ссылку на скачивание драйвера одним из способов:

    • Если у рабочего узла, на который нужно установить драйвер, нет доступа в интернет, нажмите Agree & Download. Полученный файл загрузите в OBS.

    • Если у рабочего узла, на который нужно установить драйвер, есть доступ в интернет, нажмите правой кнопкой мыши на Agree & Download и выберите Копировать адрес ссылки. Сохраните ссылку для следующего шага.

    Внимание

    Независимо от выбранного способа получения ссылки, убедитесь, что драйвер загружается в расширении .run. Если расширение отличается, измените параметры поиска драйвера на сайте Nvidia.

Установка надстройки

Чтобы установить CCE AI Suite (NVIDIA GPU):

  1. Войдите в консоль управления Advanced:

  2. В списке сервисов выберите Cloud Container Engine.

  3. В меню слева перейдите в раздел Add-ons.

  4. Найдите надстройку CCE AI Suite (NVIDIA GPU) и нажмите Install.

  5. В списке Cluster Name выберите кластер, на который нужно установить надстройку.

  6. В поле NVIDIA Driver вставьте ссылку на загрузку драйвера из OBS или с сайта NVIDIA. Все GPU-узлы в кластере будут использовать этот драйвер.

  7. (Опционально) Если вы не хотите, чтобы все узлы в кластере использовали один и тот же драйвер, с помощью Driver Selection установите разные версии драйверов для разных пулов узлов.

  8. Нажмите Install.

После успешной установки надстройка появится на узле GPU в кластере.

Примечание

Чтобы при установке новой версии драйвера изменения вступили в силу, перезапустите узлы.

Верификация надстройки

Чтобы проверить доступность устройства GPU и драйвера, выполните команды:

  • на узле GPU:

    # если версия надстройки ниже, чем 2.0.0:
    cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi
    
    # если версия надстройки 2.0.0 и выше:
    cd /usr/local/nvidia/bin && ./nvidia-smi
    
  • в контейнере:

    cd /usr/local/nvidia/bin && ./nvidia-smi
    

Вывод информации о GPU означает, что видеокарта доступна и надстройка успешно установлена:

../_images/s__gpu-information.png
Запустили Evolution free tier
для Dev & Test
Получить