tocdepth

2

Общие понятия

Managed Spark — движок для распределенной обработки больших данных разного типа: структурированных, полуструктурированных, неструктурированных данных.

Managed Spark позволяет:

  • обрабатывать данные из Object Storage;

  • обрабатывать данные из внешнего S3;

  • обрабатывать данные из реляционных и нереляционных баз данных (БД);

  • обучать ML-модели.

Managed Spark позволяет разворачивать инстансы Spark с необходимой конфигурацией и управлять ими. Инстанс разворачивается на кластере Kubernetes и может интегрироваться с другими продуктами через общую клиентскую сеть VPC. Вы можете создать несколько инстансов, например один для тестирования и один для рабочих задач.

Существует несколько вариантов запуска задачи в Managed Spark:

  • запуск скрипта из S3;

  • запуск кастомного образа — в разработке;

  • интерактивная работа на Jupyter Notebook — в разработке.

../_images/spark__components.png

Источники данных

Spark поддерживает большинство БД, файловых систем и файлов. Главное требование — наличие у БД или системы API Spark (Spark SQL), либо протокола JDBC. Подробнее об источниках данных читайте в документации Apache Spark.

Задачи Spark

Managed Spark позволяет запускать скрипт задачи Spark и отслеживать ход его выполнения. При создании задачи вы можете определить необходимые аргументы и параметры в интерфейсе. Ознакомиться со списком параметров, которые определяются по умолчанию или при заполнении формы создания задачи, можно на странице Параметры задач Spark.

Скрипт Spark-задачи может быть написан на одном из языков программирования:

  • Java

  • Python

  • Scala

  • R

Запустили Evolution free tier
для Dev & Test
Получить