Managed Spark — движок для распределенной обработки больших данных разного типа: структурированных, полуструктурированных, неструктурированных данных.
Managed Spark позволяет:
-
обрабатывать данные из Object Storage;
-
обрабатывать данные из внешнего S3;
-
обрабатывать данные из реляционных и нереляционных баз данных (БД);
-
обучать ML-модели.
Managed Spark позволяет разворачивать инстансы Spark с необходимой конфигурацией и управлять ими. Также можно создать инстанс с графическим процессором GPU для высоконагруженных систем и требовательных задач. Инстанс разворачивается на кластере Kubernetes и может интегрироваться с другими продуктами через общую клиентскую сеть VPC. Вы можете создать несколько инстансов, например один для тестирования и один для рабочих задач.
Существует несколько вариантов запуска задачи в Managed Spark:
-
запуск скрипта из S3;
-
запуск кастомного образа.

Источники данных
Spark поддерживает большинство БД, файловых систем и файлов. Главное требование — наличие у БД или системы API Spark (Spark SQL), либо протокола JDBC. Подробнее об источниках данных читайте в документации Apache Spark.
Задачи Spark
Managed Spark позволяет запускать скрипт задачи Spark и отслеживать ход его выполнения. При создании задачи вы можете определить необходимые аргументы и параметры в интерфейсе. Ознакомиться со списком параметров, которые определяются по умолчанию или при заполнении формы создания задачи, можно на странице Параметры задач Spark.
Скрипт Spark-задачи может быть написан на одном из языков программирования:
-
Java
-
Python
-
Scala
-
R
Графический процессор GPU
При создании инстанса можно подключить графический процессор GPU. Он необходим для задач, которые требуют высокую производительность, например:
-
машинное обучение;
-
компьютерное зрение;
-
большие данные.
Доступны следующие модели GPU:
- Источники данных
- Задачи Spark
- Графический процессор GPU