Общие понятия
Managed Metastore — сервис, который позволяет разворачивать Metastore на кластерах Kubernetes. Если к вашему проекту подключено несколько продуктов Evolution, они будут объединены общей клиентской сетью VPC.
Metastore хранит таблицы с описательной частью данных:
название таблицы;
названия колонок;
типы данных колонок;
партиции;
путь к бакету S3, в котором расположены данные.
Пользователь может отправить SQL-запрос к бакету S3. Обработчик данных, например Trino, считывает метаинформацию о нужной таблице в Metastore, получает данные из S3 и возвращает результат в табличном виде.
Managed Metastore позволяет:
разворачивать инстанс в отдельном кластере;
безопасно хранить данные для подключения;
разворачивать инстанс с минимальным чистом шагов и настроек.
Вы можете создать несколько инстансов: один для тестирования и один для рабочих задач с конфигурацией.
Один инстанс может подключиться только к одному источнику. Если таблицы располагаются в разных бакетах, необходимо создать отдельные инстансы для каждого.
инстанс A — для внешнего S3;
инстанс B — для бакета X Object Storage;
инстанс C — для бакета Y Object Storage.
Metastore для обработки данных
Cloud.ru предоставляет свое решение для обработки данных — Managed Service for Trino. Продукт можно использовать для отправки SQL-запросов к Evolution Object Storage или внешнему S3 благодаря интеграции с Managed Metastore.
Лабораторная работа по интеграции Managed Metastore и Managed Trino доступна на странице Подключение Trino к S3.
- Metastore для обработки данных