Установить и протестировать NVIDIA GPU Operator
В инструкции описана установка плагина NVIDIA GPU Operator в кластер и проверка поддержки CUDA.
Установить плагин
-
Опция GPU доступна только при выделенной квоте, подробнее — в разделе Квоты.
-
Создайте пространство имен gpu-operator:
kubectl create ns gpu-operator -
Перезапишите label:
kubectl label --overwrite ns gpu-operator pod-security.kubernetes.io/enforce=privileged -
В личном кабинете перейдите в кластер, для которого создали группу узлов с GPU.
-
Перейдите в раздел Плагины и справа над списком установленных плагинов нажмите Добавить плагин.
-
Выберите NVIDIA GPU Operator.
-
Нажмите Установить и подтвердите действие.
-
Дождитесь, когда состояние плагина изменится на «Установлен».
Протестировать плагин
Для тестирования корректной работы плагина развернем небольшое приложение CUDA, выполняющее простое сложение векторов.
-
Создайте спецификацию cuda-vector-add.yaml:
apiVersion: v1kind: Podmetadata:name: cuda-vector-addspec:restartPolicy: OnFailurecontainers:- name: cuda-vector-addimage: "registry.k8s.io/cuda-vector-add:v0.1"resources:limits:nvidia.com/gpu: 1 -
Создайте под:
kubectl create -f cuda-vector-add.yaml -
Проверьте логи:
kubectl logs -f cuda-vector-addРезультат:
[Vector addition of 50000 elements]Copy input data from the host memory to the CUDA deviceCUDA kernel launch with 196 blocks of 256 threadsCopy output data from the CUDA device to the host memoryTest PASSEDDone
- Установить плагин
- Протестировать плагин