С помощью этого руководства вы научитесь использовать платформу Superset для создания графиков на основе данных из Managed PostgreSQL.
В качестве примера вы построите две столбчатые диаграммы, отражающие количество мужчин и женщин среди клиентов и их средний возраст.
Вы будете использовать следующие сервисы:
Managed BI — сервис для визуализации и анализа данных.
Managed PostgreSQL — управляемая база данных PostgreSQL.
Managed Trino — сервис, который предоставляет массивно-параллельный аналитический SQL-движок для обработки больших объемов данных из разных источников.
Шаги:
Перед началом работы
Располагайте все создаваемые сущности в одной сети VPC и используйте единые сетевые настройки.
-
Если вы уже зарегистрированы, войдите под своей учетной записью.
Создайте секрет. В качестве значения в поле Стандартный режим задайте пароль.
Создайте группу безопасности. Добавьте правила входящего и исходящего трафика со следующими параметрами:
Протокол — Любой.
Порт — оставьте незаполненным. При этом будут автоматически выбраны все порты.
Тип источника — IP-адрес.
Источник — 0.0.0.0/0.
ПримечаниеПравила с такими параметрами разрешают входящий и исходящий трафик между любыми машинами в вашей сети и любыми адресами в интернете. В целях безопасности рекомендуем использовать их только для выполнения практических заданий. Для работы с актуальными данными указывайте порт или диапазон портов, отдельные IP-адреса или небольшие диапазоны адресов.
Скачайте и установите root-сертификат на устройство.
Создайте кластер Data Platform, назовите его «dp-labs».
-
Задайте название кластера «DBaaS-PG-1».
Дождитесь, когда статус кластера изменится на «Доступен».
-
В блоке Конфигурация выберите Вычислительные ресурсы — 2 vCPU / 4 RAM (free tier).
Активируйте опцию Подключить публичный хост.
В блоке Сетевые настройки в поле Группа безопасности выберите созданную ранее группу безопасности.
Дождитесь, когда статус инстанса изменится на «Готов».
Установите JDBC-клиент DBeaver.
1. Подготовьте инстанс Managed Trino
На этом шаге вы создадите инстанс Managed Trino и подключитесь к нему с помощью DBeaver.
Откройте карточку кластера Managed PostgreSQL®. Информация из нее понадобится на следующих этапах.
В новой вкладке браузера откройте сервис Managed Trino.
Нажмите Создать и выберите Каталог.
Заполните поля:
Название — postgres.
Коннектор — postgresql.
Хост — внутренний IP, указанный в карточке созданного ранее кластера DBaaS-PG-1.
Порт — порт, указанный в карточке кластера DBaaS-PG-1.
Название базы данных — dbaas_pg_1.
Логин — логин, указанный в карточке кластера DBaaS-PG-1.
Пароль — пароль, сохраненный в Secret Management.
Нажмите Создать.
Перейдите в раздел Инстансы и нажмите Создать инстанс.
В блоке Общие параметры укажите:
Название — trino-instance.
Кластер — dp-labs.
В блоке Конфигурация выберите:
Вычислительные ресурсы — 4 vCPU/16 RAM.
Количество нод — 3. Чтобы указать количество нод, отключите опцию Автомасштабирование.
В блоке Настройки каталога выберите каталог postgres.
Нажмите Продолжить.
В блоке Сетевые настройки:
Зона доступности — выберите задействованную на предыдущих шагах
, .Подсеть — выберите задействованную на предыдущих шагах подсеть.
В блоке Настройки доступа:
Подключить публичный хост — активируйте опцию.
Пользователь — введите имя пользователя.
Пароль — пароль, сохраненный в Secret Management.
Нажмите Создать.
Дождитесь, когда статус инстанса изменится на «Готов».
Откройте карточку инстанса Managed Trino. Информация из нее понадобится на следующих этапах.
2. Загрузите данные в Managed PostgreSQL®
На этом шаге вы загрузите в Managed PostgreSQL® данные для визуализации.
Скачайте таблицу mall_customers.csv.
В DBeaver на верхней панели выберите Редактор SQl → Открыть SQL-скрипт.
Скопируйте и выполните SQL-запрос:
CREATE TABLE postgres.lab.mall_customers (customerid integer,gender varchar(50),age integer,annualincome integer,spendingscore integer);В списке баз данных нажмите правой кнопкой мыши на созданную таблицу.
В контекстном меню выберите Импорт данных.
Настройте трансфер данных:
На шаге Исходный формат выберите .csv.
Укажите скачанную ранее таблицу mall_customers и нажмите Далее.
Проверьте соответствие столбцов и нажмите Далее.
На шаге Настройки загрузки данных отключите опцию Использовать транзакции и нажмите Далее.
Нажмите Продолжить.
3. Создайте подключение в Superset
На этом шаге вы настроите платформу Superset для визуализации данных.
Перейдите в раздел Evolution и выберите сервис Managed BI.
В карточке созданного ранее инстанса нажмите Перейти в интерфейс BI.
Нажмите Sign in with cloud.
Справа сверху нажмите Настройки и выберите Данные → Подключения.
Справа сверху нажмите База данных.
В поле Поддерживаемые базы данных выберите Trino с помощью поиска.
В поле SQLAlchemy URI введите данные инстанса Managed Trino в формате trino://<username>:<password>@<host>:<port>/<catalog>, где:
<username> — имя пользователя, поле Пользователь в карточке инстанса Managed Trino.
<password> — пароль, поле Пароль в карточке инстанса Managed Trino.
<host> — внутренний хост из карточки инстанса Managed Trino.
<port> — порт из карточки инстанса Managed Trino.
<catalog> — postgres.
Нажмите Подключить. Подключение появится в списке Базы данных.
4. Создайте график, отражающий пол клиентов
На этом шаге вы создадите график, который отобразит количество мужчин и женщин среди клиентов.
Перейдите на вкладку Датасеты.
Справа сверху нажмите Датасет.
Заполните поля:
База данных — Trino.
Схема — lab.
Tаблица — mall_customers.
Нажмите Создать датасет и диаграмму.
В блоке Выберите тип диаграммы с помощью поиска выберите тип Столбчатая диаграмма.
В правом нижнем углу нажмите Создать диаграмму.
Перетащите столбец gender в поле Ось Х.
Перетащите столбец gender в поле Mеры.
В открывшемся окне в поле Агрегатная функция выберите COUNT и нажмите Сохранить.
Нажмите Создать диаграмму.
Справа сверху нажмите Сохранить и подтвердите сохранение.
5. Создайте график, отражающий пол и средний возраст клиентов
На этом шаге вы создадите график, который отобразит количество мужчин и женщин среди клиентов и их средний возраст.
Справа сверху нажмите Диаграмма.
В блоке Выберите датасет выберите mall_customers.
В блоке Выберите тип диаграммы с помощью поиска найдите и выберите тип Столбчатая диаграмма.
В правом нижнем углу нажмите Создать диаграмму.
Перетащите столбец gender в поле Ось Х.
Перетащите столбец age в поле Mеры.
В открывшемся окне в поле Агрегатная функция выберите AVG и нажмите Сохранить.
Нажмите Создать диаграмму.
Справа сверху нажмите Сохранить и подтвердите сохранение.
6. Создайте дашборд
На этом шаге вы соберете созданные ранее графики на дашборд.
В Superset перейдите на вкладку Дашборды.
Справа сверху нажмите Дашборд.
Из списка справа перетащите ранее созданные графики в рабочую область слева.
Нажмите Сохранить.
Результат
Вы научились подключать к сервису Managed BI данные, размещенные в Managed PostgreSQL®, и использовать платформу Superset для построения графиков.