Облачная платформаAdvanced

Что такое Data Lake Insight

Язык статьи: Русский
Показать оригинал
Страница переведена автоматически и может содержать неточности. Рекомендуем сверяться с английской версией.

DLI Введение

Data Lake Insight (DLI) — это бессерверный сервис обработки и анализа данных, полностью совместимый с Apache Spark и Apache Flink экосистемы. Он освобождает вас от управления любыми серверами.

DLI поддерживает несколько методов запросов, включая стандартный SQL, Spark SQL и Flink SQL, с совместимостью с основными форматами данных. Вы можете использовать стандартный SQL или приложения Spark и Flink для запросов основных форматов данных без ETL. DLI поддерживает SQL‑запросы и приложения Spark для гетерогенных источников данных, включая CloudTable, RDS, DWS, CSS, OBS, пользовательские базы данных на ECS, и офлайн‑базы данных.

Основные функции

Для получения подробной информации о функциях DLI см Возможности.

Таблица 1 DLI основные функции

Функция

Описание

DLI — это сервис обработки данных и аналитики, построенный на безсерверной архитектуре.

DLI — это безсерверный сервис запросов и аналитики больших данных. С DLI вы платите только за фактически использованные вычислительные ресурсы, без необходимости поддерживать или управлять облачными серверами.

  • Auto scaling: DLI обеспечивает наличие достаточной ёмкости для обработки любых всплесков трафика.

DLI поддерживает несколько вычислительных движков.

DLI полностью совместим с экосистемами, такими как Apache Spark и Apache Flink, и поддерживает стандартный SQL, Spark SQL и Flink SQL. Он совместим с популярными форматами данных, такими как CSV, JSON, Parquet и ORC.

  • Spark это единый аналитический движок, предназначенный для обработки данных в больших масштабах, сосредоточенный на запросах, вычислениях и анализе. DLI прошёл обширную оптимизацию производительности и сервисно‑ориентированные улучшения над открытым исходным кодом Spark, сохраняя совместимость с экосистемой Apache Spark и API, повышая производительность в 2.5 раза, позволяя выполнять запросы и анализ данных в масштабе эксабайт за часы.
  • Flink является распределённым вычислительным движком, который может использоваться для пакетной обработки, включающей работу со статическими датасетами и историческими датасетами. Он также может использоваться для потоковой обработки, обеспечивая обработку данных в реальном времени и мгновенное получение результатов. DLI имеет расширенные функции и безопасность на основе открытого Flink и предлагает функцию Stream SQL, необходимую для обработки данных.

DLI поддерживает несколько методов подключения.

DLI предоставляет несколько методов подключения, чтобы удовлетворить разнообразные потребности и сценарии пользователей.

Методы подключения:

  • Веб‑консоль
  • APIs
  • SDKs
  • Клиентские инструменты
  • Отправка задач DLI с помощью DataArts Studio
  • Подключение к BI‑инструментам для визуального анализа

DLI может подключаться к нескольким источникам данных для межисточечной аналитики.

  • Подключение к Spark datasource: такие источники данных, как DWS, RDS и CSS, можно получить через DLI.
  • Flink поддерживает подключение к нескольким источникам с различными облачными сервисами, образуя богатую потоковую экосистему. Потоковая экосистема DLI делится на экосистемы облачных сервисов и экосистемы с открытым исходным кодом:
    • Экосистема облачных сервисов: DLI поддерживает подключение к другим сервисам в Flink SQL. Вы можете напрямую использовать SQL для чтения и записи данных из этих облачных сервисов.
    • Экосистема с открытым исходным кодом: Устанавливая сетевые соединения с другими VPC через расширенные подключения источников данных, вы можете получать доступ ко всем поддерживаемым Flink и Spark источникам данных и целевым источникам, таким как Kafka, Hbase, Elasticsearch, в очередях DLI, разрешённых для арендатора.

Три базовых типа джоб поддерживаемых DLI

  • SQL джобы позволяют выполнять запросы к данным, используя стандартные SQL‑операторы.
  • Flink джобы поддерживают возможности онлайн‑анализа Flink SQL: поддержка агрегатных функций, таких как Window и Join, использование SQL для описания логики сервиса и удобная быстрая реализация сервисов.
  • Spark джобы предоставляют полностью управляемые возможности вычислений Spark: вы можете отправлять вычислительные задачи через интерактивные сеансы и пакетную обработку, а также выполнять анализ данных в полностью управляемых очередях Spark.

DLI поддерживает раздельное хранение и вычисления.

После сохранения данных в OBS, вы можете подключить DLI к OBS для анализа данных. В архитектуре с раздельным хранением и вычислениями ресурсы хранения и вычислительные ресурсы можно запрашивать и оплачивать отдельно, что снижает затраты и повышает эффективность использования ресурсов.

Вы можете выбрать storage single-AZ или multi-AZ при создании OBS Бакета для хранения избыточных данных в консоли DLI. Отличия двух политик хранения перечислены ниже:

  • Хранилище multi-AZ означает, что данные будут избыточно сохранены в нескольких AZ, обеспечивая более высокую надёжность. Бакеты с хранилищем multi-AZ будут сохранять данные в нескольких разных AZ в пределах того же региона. Если один AZ станет недоступным, данные всё равно можно будет получить нормально из других AZ, что делает его подходящим для сценариев хранения данных, требующих высокой надёжности. Рекомендуется использовать эту политику.
  • Хранилище single-AZ означает, что данные хранятся только в одном AZ, но оно более экономичное по сравнению с хранилищем multi-AZ.

DLI управляет и планирует ресурсы единым способом, используя эластичные пулы ресурсов.

Бэкенд эластичных пулов ресурсов использует архитектуру кластера CCE, поддерживая разнородные ресурсы, поэтому вы можете управлять и планировать ресурсы единым способом.

Для получения подробной информации см Создание Elastic Resource Pool и создание очередей внутри него.

Архитектура продукта DLI

DLI включает следующие основные модули:

Таблица 2 Основные модули DLI

Модуль

Описание

Инструменты экосистемы

DLI использует свою надёжную безсерверную архитектуру и поддержку мульти‑модального движка для удовлетворения разнообразных потребностей различных отраслей, способствуя их цифровой трансформации и стимулируя инновации.

Вычислительный движок

  • Spark: поддерживает пакетную обработку и интерактивный анализ больших объёмов данных и обеспечивает возможности высокопроизводительных распределённых вычислений.
  • Flink: поддерживает обработку потоков данных в реальном времени, способен обрабатывать крупномасштабные потоки данных в реальном времени, с поддержкой обработки событийного времени и управления состоянием.
  • HetuEngine: поддерживает интерактивный анализ данных, быстро обрабатывает сложные SQL‑запросы и облегчает соединения и запросы к различным источникам данных.

Единое управление ресурсами

  • Разделение ресурсов: DLI использует разъединённую архитектуру вычислений и хранилища, отделяя вычислительные ресурсы от ресурсов хранилища. Это позволяет гибко регулировать соотношение между вычислительными и хранилищными ресурсами в соответствии с реальными потребностями, повышая эффективность использования ресурсов и сокращая затраты.
  • Эластичное масштабирование: вычислительные ресурсы DLI построены на контейнеризованном Kubernetes и обладают возможностями эластичного масштабирования. Ресурсы могут автоматически регулироваться в соответствии с требованиями задач.
  • Поддержка многопользовательской среды: вычислительные ресурсы могут изолироваться по тенанту, обеспечивая независимость разных тенантов. Каждый тенант может самостоятельно управлять своими вычислительными ресурсами, что позволяет осуществлять тонкое управление ресурсами и облегчать межотделовое совместное использование данных и управление разрешениями в рамках Enterprise.
  • Оплата вычислительных ресурсов по факту использования: вы платите только за те вычислительные ресурсы, которые действительно используете, без необходимости предзапроса или управления серверами, повышая эффективность использования.

Единое управление метаданными

  • Мультиисточникная интеграция метаданных: DLI поддерживает централизованное управление метаданными из различных источников данных, включая облачные источники данных (например, OBS, RDS, DWS и CSS) и локальные источники данных (например, самостоятельно построенные базы данных и Redis). Вы можете управлять и анализировать метаданные из разных источников данных без необходимости мигрировать данные в единое озеро данных.
  • Синхронизация метаданных: DLI обеспечивает управление метаданными для гарантии актуальности и согласованности метаданных.
  • Запрос и управление метаданными: DLI предлагает стандартные API SQL, позволяя выполнять запросы и управлять метаданными с помощью операторов SQL. Вы можете добавлять, удалять, изменять и запрашивать метаданные для поддержки управления данными и анализа.
  • Безопасность данных и управление разрешениями: Разрешения на каталоги данных, базы данных и таблицы могут управляться. Вы можете назначать разные разрешения различным Тенантам и группам пользователей для обеспечения безопасности данных и соответствия требованиям.

Сервис хранения

OBS и базы данных используются для хранения структурированных или неструктурированных данных для анализа данных, предоставляя постоянные сервисы хранения данных.

Подключение источника данных

  • Cloud data sources can be connected. For example, OBS can be used to store and manage unstructured data. Relational database service (RDS) can be used to store and manage structured data. DWS can be used to efficiently query and analyze data.
  • On-premises data sources, such as self-built databases (MySQL, PostgreSQL, and HDFS), can be connected.

Data applications

DLI can connect to mainstream BI tools in the industry to flexibly meet data presentation needs.

Accessing DLI

A web-based service management platform is provided. You can access DLI using the management console or HTTPS-based APIs, or connect to the DLI server through the JDBC client.

  • Using the management console

    You can submit SQL, Spark, or Flink jobs on the DLI management console.

  • Using APIs

    If you need to integrate DLI into a third-party system for secondary development, you can call DLI APIs to use the service.

    For details, see Data Lake Insight API Reference.

  • DataArts Studio

    DataArts Studio is a one-stop data operations platform that provides intelligent data lifecycle management. It supports intelligent construction of industrial knowledge libraries and incorporates data foundations such as big data storage, computing, and analysis engines. With DataArts Studio, your company can easily construct end-to-end intelligent data systems. These systems can help eliminate data silos, unify data standards, accelerate data monetization, and promote digital transformation.

    Create a data connection on the DataArts Studio management console to access DLI for data analysis.