Облачная платформаAdvanced

Обзор

Эта статья полезна?
Язык статьи: Русский
Показать оригинал
Страница переведена автоматически и может содержать неточности. Рекомендуем сверяться с английской версией.

DataArts Factory — это комплексная платформа для совместной разработки больших данных, предоставляющая полностью управляемые возможности планирования больших данных. Она управляет различными сервисами больших данных, делая их более доступными, чем когда‑либо, и помогает вам без усилий создавать центры обработки больших данных.

DataArts Factory раньше назывался Data Lake Factory (DLF). Поэтому в этом документе оба названия Data Lake Factory и DLF могут использоваться для обозначения DataArts Factory.

Введение в DataArts Factory

DataArts Factory позволяет выполнять различные операции, такие как управление данными, разработка скриптов, разработка заданий, планирование заданий и мониторинг, способствуя анализу и обработке данных.

Figure 1 DataArts Factory architecture


Main Functions

Table 1 Main functions of DataArts Factory

Function

Description

Data management

  • Управляет несколькими хранилищами данных, такими как GaussDB(DWS), DLI и MRS Hive.
  • Управляет таблицами данных с помощью GUI или языка описания данных (DDL).

Разработка скриптов

  • Предоставляет онлайн‑редактор скриптов, позволяющий более чем одному оператору совместно разрабатывать и отлаживать скрипты SQL, Python и Shell онлайн.
  • Позволяет использовать переменные и функции.

Разработка задач

  • Предоставляет графический конструктор, позволяющий быстро создавать рабочий процесс обработки данных с помощью перетаскивания.
  • Предустанавливает несколько типов задач, таких как интеграция данных, SQL и Shell, и завершает анализ и обработку данных с учётом зависимостей между задачами.
  • Поддерживает импорт и экспорт задач.

Управление ресурсами

Поддерживает единое управление файлами, jar и архивными ресурсами, используемыми в процессе разработки скриптов и задач.

Планирование задач

Планирует выполнение джоб один раз или рекурсивно и использует события для запуска планирования джоб. Если частота планирования установлена на час, период планирования может быть основан на интервале часа или дискретном часе.

Мониторинг

  • Вы можете запустить, приостановить, восстановить или завершить джоб.
  • Вы можете просматривать детали операций каждой джобы и каждого узла в джобе.
  • Вы можете использовать различные методы для получения уведомлений при возникновении ошибки джобы или задачи.

Объекты в DataArts Factory

  • Подключение к данным: Подключение к данным — это набор информации, необходимой для доступа к пространству хранения данных (вычислений), включая тип подключения, название и учетные данные.
  • Решение: Решение предоставляет пользователям удобные и систематизированные операции управления для более полного соответствия требованиям и целям сервиса. Каждое решение может содержать одну или более бизнес‑ориентированных джоб, а одну джоб можно использовать в нескольких решениях.
  • Джоба: Джоба состоит из одного или более узлов и может быть выполнена для завершения операций с данными.
  • Script: Скрипт — это расширение пакетного файла обработки. Это программа, которая хранит текст. Как правило, программа компьютерного скрипта представляет собой комбинацию серии операций, которые управляют компьютерами для выполнения операций. В программе скрипта могут быть реализованы определённые логические ветвления.
  • Node: Узел определяет операции, выполняемые над данными.
  • Resource: Ресурсы относятся к пользовательским кодам или текстовым файлам, которые загружаются пользователями и планируются при выполнении задач узла.
  • Expression: Значения параметров узла в задаче узла могут динамически генерироваться на основе рабочей среды с использованием Expression Language (EL). EL использует простую арифметику и логику для вычисления и ссылки на встроенные объекты, включая объекты задач и объекты инструментов.
  • Environment variable: Переменная окружения — это объект с конкретным именем в операционной системе. Она содержит информацию, используемую одним или несколькими приложениями.
  • PatchData: PatchData относится к экземпляру, который генерируется за определённый период времени периодически запланированной задачей.