- tocdepth
2
Общие понятия
Managed Spark — движок для распределенной обработки больших данных разного типа: структурированных, полуструктурированных, неструктурированных данных.
Managed Spark позволяет:
обрабатывать данные из Object Storage;
обрабатывать данные из внешнего S3;
обрабатывать данные из реляционных и нереляционных баз данных (БД);
обучать ML-модели.
Managed Spark позволяет разворачивать инстансы Spark с необходимой конфигурацией и управлять ими. Инстанс разворачивается на кластере Kubernetes и может интегрироваться с другими продуктами через общую клиентскую сеть VPC. Вы можете создать несколько инстансов, например один для тестирования и один для рабочих задач.
Существует несколько вариантов запуска задачи в Managed Spark:
запуск скрипта из S3;
запуск кастомного образа — в разработке;
интерактивная работа на Jupyter Notebook — в разработке.
Источники данных
Spark поддерживает большинство БД, файловых систем и файлов. Главное требование — наличие у БД или системы API Spark (Spark SQL), либо протокола JDBC. Подробнее об источниках данных читайте в документации Apache Spark.
Задачи Spark
Managed Spark позволяет запускать скрипт задачи Spark и отслеживать ход его выполнения. При создании задачи вы можете определить необходимые аргументы и параметры в интерфейсе. Ознакомиться со списком параметров, которые определяются по умолчанию или при заполнении формы создания задачи, можно на странице Параметры задач Spark.
Скрипт Spark-задачи может быть написан на одном из языков программирования:
Java
Python
Scala
R
для Dev & Test