tocdepth

2

Обзор Managed Spark

Managed Spark — сервис, который позволяет развернуть кластерное вычислительное решение на основе Apache Spark для распределенной обработки данных. С помощью сервиса можно создавать, конфигурировать инстансы Spark и запускать задачи препроцессинга данных.

Spark можно использовать для построения приложений данных или выполнения интерактивного специального анализа данных.

Spark включает в себя:

  • большое количество библиотек для работы с данными с помощью SQL;

  • MLlib для машинного обучения;

  • GraphX для работы с графами.

Используется версия Spark 3.5.0.

Логирование

Managed Spark предоставляет возможность отслеживать статусы выполнения задач. Логи выполнения задач доступны в сервисе логирования.

Детальное представление приложений Spark, запущенных задач и планы запросов можно посмотреть в нативном интерфейсе Spark UI.

Обработка больших данных

Spark оптимизирован для эффективной обработки структурированных, слабоструктурированных и неструктурированных данных.

Операции с объектным хранилищем

Spark позволяет обрабатывать данные из Object Storage.

Совместимость с базами данных

Spark может обрабатывать данные из большинства доступных БД.

Машинное обучение

Spark можно использовать для машинного обучения.

Знакомство с сервисом Managed Spark

Настройка прав доступа для работы с Managed Spark

Пошаговые инструкции по работе с инстансами и задачами

Описание принципов устройства и работы Managed Spark

Руководства по решению прикладных задач с помощью Managed Spark

Запустили Evolution free tier
для Dev & Test
Получить