Data Lake Insight (DLI) is a serverless data processing and analysis service fully compatible with Apache Spark and Apache Flink ecosystems. It frees you from managing any servers.
DLI supports standard SQL and is compatible with Spark SQL and Flink SQL. It also supports multiple access modes, and is compatible with mainstream data formats. DLI supports SQL statements and Spark applications for heterogeneous data sources, including CloudTable, RDS, GaussDB(DWS), CSS, OBS, custom databases on ECSs, and offline databases.
You can query and analyze heterogeneous data sources such as RDS, and GaussDB(DWS) on the cloud using access methods, such as visualized interface, RESTful API, JDBC, and Beeline. The data format is compatible with five mainstream data formats: CSV, JSON, Parquet, and ORC.
DLI is interconnected with OBS for data analysis. In this architecture where storage and compute are decoupled, resources of these two types are charged separately, helping you reduce costs and improving resource utilization.
You can choose single-AZ or multi-AZ storage when you create an OBS bucket for storing redundant data on the DLI console. The differences between the two storage policies are as follows:
The backend of elastic resource pools adopts a CCE cluster architecture, supporting heterogeneous resources, so you can manage and schedule resources in a unified manner.
For details, see Creating an Elastic Resource Pool and Queues Within It.
Elastic resource pools have the following advantages:
Resources of different queues are isolated to reduce the impact on each other.
SQL jobs can run on independent Spark instances, reducing mutual impacts between jobs.
The queue quota is updated in real time based on workload and priority.
Using elastic resource pools has the following advantages.
Advantage | No Elastic Resource Pool | Use Elastic Resource Pool |
|---|---|---|
Efficiency | You need to set scaling tasks repeatedly to improve the resource utilization. | Dynamic scaling can be done in seconds. |
Resource utilization | Resources cannot be shared among different queues. For example, a queue has idle CUs and another queue is heavily loaded. Resources cannot be shared. You can only scale up the second queue. | Queues added to the same elastic resource pool can share compute resources. |
When you set a data source, you must allocate different network segments to each queue, which requires a large number of VPC network segments. | Вы можете добавить несколько очередей общего назначения в один и тот же elastic resource pool к одному сетевому сегменту, упростив конфигурацию источника данных. | |
Распределение ресурсов | Если ресурсов недостаточно для задач масштабирования нескольких очередей, некоторые очереди не смогут быть масштабированы. | Вы можете установить приоритет для каждой очереди в elastic resource pool на основе пиковых часов, чтобы обеспечить правильное распределение ресурсов. |
DLI — это безсерверный сервис запросов и анализа больших данных. Он имеет следующие преимущества:
Предоставлена веб‑ориентированная платформа управления сервисом. Вы можете получить доступ к DLI с помощью консоли управления или HTTPS‑based APIs, либо подключиться к серверу DLI через клиент JDBC.
Вы можете отправлять SQL, Spark или Flink джобы в консоли управления DLI.
Если вам необходимо интегрировать DLI в стороннюю систему для вторичной разработки, вы можете вызывать DLI APIs для использования сервиса.
Для получения подробностей см Data Lake Insight Справочник API.
DataArts Studio — это универсальная платформа операций с данными, предоставляющая интеллектуальное управление жизненным циклом данных. Она поддерживает интеллектуальное создание промышленных библиотек знаний и включает в себя основы данных, такие как хранилище больших данных, вычисления и аналитические движки. С DataArts Studio ваша компания может легко создавать сквозные интеллектуальные системы данных. Эти системы помогают устранять силосы данных, унифицировать стандарты данных, ускорять монетизацию данных и способствовать цифровой трансформации.
Создайте подключение данных в консоли управления DataArts Studio для доступа к DLI для анализа данных.