Пользовательский образ Spark — это образ Spark, представляющий собой собранный пользователем набор фреймворков и библиотек в формате Dockerfile.
Преимущества пользовательского образа:
В пользовательский Docker-образ можно добавить любые библиотеки, например библиотеки для работы с искусственным интеллектом или компьютерным зрением.
Все необходимые для проекта файлы включены в Docker-образ.
-
Изменения в проект вносятся через запрос слияния в Repo.
Pipeline собирает Docker-образ в Artifact Registry.
Задача Spark запускается с применением обновленного Docker-образа.
Чтобы применить пользовательский образ, его необходимо загрузить в репозиторий Artifact Registry и выбрать из списка при создании задачи.
Пример обработки данных с помощью пользовательского образа Spark приведен в лабораторной работе.