Облачная платформаEvolution

Установить и протестировать NVIDIA GPU Operator

Эта статья полезна?

В инструкции описана установка плагина NVIDIA GPU Operator в кластер и проверка поддержки CUDA.

Для корректной установки NVIDIA GPU Operator из кластера необходим доступ в интернет.

Установить плагин

Создайте группу узлов c GPU.
Подключитесь к кластеру Managed Kubernetes.
Создайте пространство имен gpu-operator:
```
kubectl create ns gpu-operator
```

Перезапишите label:

kubectl label --overwrite ns gpu-operator pod-security.kubernetes.io/enforce=privileged

В личном кабинете перейдите в кластер, для которого создали группу узлов с GPU.
Перейдите в раздел Плагины и справа над списком установленных плагинов нажмите Добавить плагин.
Выберите NVIDIA GPU Operator.
Нажмите Установить и подтвердите действие.
Дождитесь, когда состояние плагина изменится на «Установлен».

Протестировать плагин

Для тестирования корректной работы плагина развернем небольшое приложение CUDA, выполняющее простое сложение векторов.

Создайте спецификацию cuda-vector-add.yaml:

apiVersion: v1
kind: Pod
metadata:
  name: cuda-vector-add
spec:
  restartPolicy: OnFailure
  containers:
    - name: cuda-vector-add
      image: "registry.k8s.io/cuda-vector-add:v0.1"
      resources:
        limits:
          nvidia.com/gpu: 1

Создайте под:
```
kubectl create -f cuda-vector-add.yaml
```

Проверьте логи:

kubectl logs -f cuda-vector-add

Результат:

[Vector addition of 50000 elements]
Copy input data from the host memory to the CUDA device
CUDA kernel launch with 196 blocks of 256 threads
Copy output data from the CUDA device to the host memory
Test PASSED
Done

Эта статья полезна?

Поддержка Юридические документы Политика конфиденциальности