- tocdepth
2
Обзор Managed Spark
Managed Spark — сервис, который позволяет развернуть кластерное вычислительное решение на основе Apache Spark для распределенной обработки данных. С помощью сервиса можно создавать, конфигурировать инстансы Spark и запускать задачи препроцессинга данных.
Spark можно использовать для построения приложений данных или выполнения интерактивного специального анализа данных.
Spark включает в себя:
большое количество библиотек для работы с данными с помощью SQL;
MLlib для машинного обучения;
GraphX для работы с графами.
Используется версия Spark 3.5.0.
Логирование
Managed Spark предоставляет возможность отслеживать статусы выполнения задач. Логи выполнения задач доступны в сервисе логирования.
Детальное представление приложений Spark, запущенных задач и планы запросов можно посмотреть в нативном интерфейсе Spark UI.
Обработка больших данных
Spark оптимизирован для эффективной обработки структурированных, слабоструктурированных и неструктурированных данных.
Операции с объектным хранилищем
Spark позволяет обрабатывать данные из Object Storage.
Совместимость с базами данных
Spark может обрабатывать данные из большинства доступных БД.
Машинное обучение
Spark можно использовать для машинного обучения.
Настройка прав доступа для работы с Managed Spark
Руководства по решению прикладных задач с помощью Managed Spark
для Dev & Test