Пользовательский образ Spark — это образ Spark, представляющий собой собранный пользователем набор фреймворков и библиотек в формате Dockerfile.
Преимущества пользовательского образа:
-
В пользовательский Docker-образ можно добавить любые библиотеки, например библиотеки для работы с искусственным интеллектом или компьютерным зрением.
-
Все необходимые для проекта файлы включены в Docker-образ.
-
-
Изменения в проект вносятся через запрос слияния в Repo.
-
Pipeline собирает Docker-образ в Artifact Registry.
-
Задача Spark запускается с применением обновленного Docker-образа.
-
Чтобы применить пользовательский образ, его необходимо загрузить в репозиторий Artifact Registry и выбрать из списка при создании задачи.
Пример обработки данных с помощью пользовательского образа Spark приведен в лабораторной работе.