Облачная платформаAdvanced

What Is Data Lake Insight

Язык статьи: Русский
Показать оригинал
Страница переведена автоматически и может содержать неточности. Рекомендуем сверяться с английской версией.

DLI Introduction

Data Lake Insight (DLI) is a serverless data processing and analysis service fully compatible with Apache Spark and Apache Flink ecosystems. It frees you from managing any servers.

DLI supports standard SQL and is compatible with Spark SQL and Flink SQL. It also supports multiple access modes, and is compatible with mainstream data formats. DLI supports SQL statements and Spark applications for heterogeneous data sources, including CloudTable, RDS, GaussDB(DWS), CSS, OBS, custom databases on ECSs, and offline databases.

Functions

You can query and analyze heterogeneous data sources such as RDS, and GaussDB(DWS) on the cloud using access methods, such as visualized interface, RESTful API, JDBC, and Beeline. The data format is compatible with five mainstream data formats: CSV, JSON, Parquet, and ORC.

  • Basic functions
    • You can use standard SQL statements to query in SQL jobs.
    • Flink jobs support Flink SQL online analysis capabilities: supporting aggregation functions such as Window and Join, using SQL to express service logic, and achieving service implementation conveniently and quickly.
    • For spark jobs, fully-managed Spark computing can be performed. You can submit computing tasks through interactive sessions or in batch to analyze data in the fully managed Spark queues.
  • Federated analysis of heterogeneous data sources
    • Spark datasource connection: Data sources such as GaussDB(DWS), RDS, and CSS can be accessed through DLI.
    • Interconnection with multiple cloud services is supported in Flink jobs to form a rich stream ecosystem. The DLI stream ecosystem consists of cloud service ecosystems and open source ecosystems.
      • Cloud service ecosystem: DLI can interconnect with other services in Flink SQL. You can directly use SQL to read and write data from cloud services.
      • Open-source ecosystem: By establishing network connections with other VPCs through enhanced datasource connections, you can access all Flink and Spark-supported data sources and output sources, such as Kafka, Hbase, Elasticsearch, in the tenant-authorized DLI queues.

  • Storage-compute decoupling

    DLI is interconnected with OBS for data analysis. In this architecture where storage and compute are decoupled, resources of these two types are charged separately, helping you reduce costs and improving resource utilization.

    You can choose single-AZ or multi-AZ storage when you create an OBS bucket for storing redundant data on the DLI console. The differences between the two storage policies are as follows:

    • Multi-AZ storage means data is stored in multiple AZs, improving data reliability. If the multi-AZ storage is enabled for a bucket, data is stored in multiple AZs in the same region. If one AZ becomes unavailable, data can still be properly accessed from the other AZs. The multi-AZ storage is ideal for scenarios that demand high reliability. You are advised to use this policy.
    • Single-AZ storage means that data is stored in a single AZ, with lower costs.
  • Elastic resource pool

    The backend of elastic resource pools adopts a CCE cluster architecture, supporting heterogeneous resources, so you can manage and schedule resources in a unified manner.

    Elastic resource pools have the following advantages:

    • Unified management
      • You can manage multiple internal clusters and schedule jobs. You can manage millions of cores for compute resources.
      • Elastic resource pools can be deployed across multiple AZs to support high availability.
    • Tenant resource isolation

      Resources of different queues are isolated to reduce the impact on each other.

    • Shared access and flexibility
      • Minute-level scaling helps you to handle request peaks.
      • Queue priorities and CU quotas can be set at different time to improve resource utilization.
    • Job-level isolation (supported in later versions)

      SQL jobs can run on independent Spark instances, reducing mutual impacts between jobs.

    • Automatic scaling (supported in later versions)

      The queue quota is updated in real time based on workload and priority.

    Using elastic resource pools has the following advantages.

    Advantage

    No Elastic Resource Pool

    Use Elastic Resource Pool

    Efficiency

    You need to set scaling tasks repeatedly to improve the resource utilization.

    Dynamic scaling can be done in seconds.

    Resource utilization

    Resources cannot be shared among different queues.

    For example, a queue has idle CUs and another queue is heavily loaded. Resources cannot be shared. You can only scale up the second queue.

    Queues added to the same elastic resource pool can share compute resources.

    When you set a data source, you must allocate different network segments to each queue, which requires a large number of VPC network segments.

    Вы можете добавить несколько очередей общего назначения в один и тот же elastic resource pool к одному сетевому сегменту, упростив конфигурацию источника данных.

    Распределение ресурсов

    Если ресурсов недостаточно для задач масштабирования нескольких очередей, некоторые очереди не смогут быть масштабированы.

    Вы можете установить приоритет для каждой очереди в elastic resource pool на основе пиковых часов, чтобы обеспечить правильное распределение ресурсов.

DLI Core Engine: Spark+Flink+Trino

  • Spark — это единый аналитический движок, идеально подходящий для обработки данных в крупномасштабных масштабах. Он ориентирован на запросы, вычисления и анализ. DLI оптимизирует производительность и восстанавливает сервисы на основе открытого Spark. Он совместим с экосистемой и интерфейсами Apache Spark и повышает производительность в 2.5x по сравнению с открытым Spark. Таким образом, DLI позволяет выполнять запросы и анализ ЭБ данных за часы.
  • Flink — это распределённый вычислительный движок, идеальный для пакетной обработки, то есть обработки статических наборов данных и исторических наборов данных. Вы также можете использовать его для потоковой обработки, то есть обработки потоков данных в реальном времени и генерации результатов данных в режиме реального времени. DLI расширяет возможности и безопасность на основе открытого Flink и предоставляет функцию Stream SQL, необходимую для обработки данных.

Безсерверная архитектура

DLI — это безсерверный сервис запросов и анализа больших данных. Он имеет следующие преимущества:

  • Auto scaling: DLI гарантирует, что у вас всегда будет достаточная мощность для обработки любых всплесков трафика.

Доступ к DLI

Предоставлена веб‑ориентированная платформа управления сервисом. Вы можете получить доступ к DLI с помощью консоли управления или HTTPS‑based APIs, либо подключиться к серверу DLI через клиент JDBC.

  • Использование консоли управления

    Вы можете отправлять SQL, Spark или Flink джобы в консоли управления DLI.

  • Использование APIs

    Если вам необходимо интегрировать DLI в стороннюю систему для вторичной разработки, вы можете вызывать DLI APIs для использования сервиса.

    Для получения подробностей см Data Lake Insight Справочник API.

  • DataArts Studio

    DataArts Studio — это универсальная платформа операций с данными, предоставляющая интеллектуальное управление жизненным циклом данных. Она поддерживает интеллектуальное создание промышленных библиотек знаний и включает в себя основы данных, такие как хранилище больших данных, вычисления и аналитические движки. С DataArts Studio ваша компания может легко создавать сквозные интеллектуальные системы данных. Эти системы помогают устранять силосы данных, унифицировать стандарты данных, ускорять монетизацию данных и способствовать цифровой трансформации.

    Создайте подключение данных в консоли управления DataArts Studio для доступа к DLI для анализа данных.