Сервис Managed Spark позволяет создавать и конфигурировать инстансы Spark и запускать
препроцессинга данных.Managed Spark можно использовать для построения приложений данных или выполнения интерактивного специального анализа данных.
Spark включает в себя:
большое количество библиотек для работы с данными с помощью SQL;
MLlib для машинного обучения;
GraphX для работы с графами.
В Managed Spark используется версия Spark 3.5.0.
Логирование
Managed Spark предоставляет возможность отслеживать статусы выполнения задач. Логи выполнения задач доступны в сервисе логирования.
Обработка больших данных
Managed Spark оптимизирован для эффективной обработки структурированных, слабоструктурированных и неструктурированных данных.
Операции с объектным хранилищем
Managed Spark позволяет обрабатывать данные из Object Storage.
Совместимость с базами данных
Managed Spark может обрабатывать данные из большинства популярных баз данных.
Машинное обучение
Managed Spark можно использовать для машинного обучения.