Advanced
Тема интерфейса

Обзор

Язык статьи: Русский
Показать оригинал
Страница переведена автоматически и может содержать неточности. Рекомендуем сверяться с английской версией.

DataArts Factory — это платформа «все в одном» для совместной разработки больших данных, предоставляющая полностью управляемые возможности планирования больших данных. Она управляет различными сервисами больших данных, делая их более доступными, чем когда‑либо, и помогает без труда строить центры обработки больших данных.

DataArts Factory ранее назывался Data Lake Factory (DLF). Поэтому в этом документе обе названия Data Lake Factory и DLF могут использоваться для обозначения DataArts Factory.

Введение в DataArts Factory

DataArts Factory предоставляет разнообразные операции, такие как управление данными, разработка скриптов, разработка задач, планирование задач и мониторинг, облегчая анализ и обработку данных.

Рисунок 1 Архитектура DataArts Factory


Основные функции

Таблица 1 Основные функции DataArts Factory

Функция

Описание

Управление данными

  • Управляет несколькими хранилищами данных, такими как GaussDB(DWS), DLI и MRS Hive.
  • Управляет таблицами данных с помощью GUI или языка определения данных (DDL).

Разработка скриптов

  • Предоставляет онлайн‑редактор скриптов, который позволяет более чем одному оператору совместно разрабатывать и отлаживать скрипты SQL, Python и Shell онлайн.
  • Позволяет использовать переменные и функции.

Разработка Джобы

  • Предоставляет графический дизайнер, который позволяет быстро построить рабочий процесс обработки данных с помощью перетаскивания.
  • Предустанавливает несколько типов задач, таких как интеграция данных, SQL и Shell, и завершает анализ и обработку данных за счёт зависимостей между задачами.
  • Поддерживает импорт и экспорт задач.

Управление ресурсами

Поддерживает единое управление файлами, jar и архивными ресурсами, используемыми во время разработки скриптов и задач.

Планирование задач

Планирует jobs для однократного или рекурсивного выполнения и использует события для триггера планирования jobs. Если частота планирования установлена в hour, период планирования может быть основан на interval hour или discrete hour.

Мониторинг

  • Вы можете запускать, приостанавливать, восстанавливать или завершать джобу.
  • Вы можете просматривать детали операций каждой джобы и каждого узла в джобе.
  • Вы можете использовать различные методы для получения уведомлений, когда возникает ошибка джобы или задачи.

Объекты в DataArts Factory

  • Data connection: Data connection — это набор информации, необходимой для доступа к пространству хранения данных (вычислений), включая тип соединения, имя и сведения для входа.
  • Solution: Solution предоставляет пользователям удобные и систематические операции управления для лучшего соответствия требованиям и целям сервиса. Каждый solution может содержать одну или несколько бизнес‑связанных джоб, и одна джоба может использоваться несколькими solution.
  • Job: Джоба состоит из одного или нескольких узлов и может быть выполнена для завершения операций с данными.
  • Script: Скрипт является расширением файла пакетной обработки. Это программа, которая хранит текст. Как правило, компьютерная скриптовая программа представляет собой комбинацию серии операций, которые управляют компьютерами для выполнения операций. В скриптовой программе могут быть реализованы определённые логические ветви.
  • Node: Узел определяет операции, выполняемые над данными.
  • Resource: Ресурсы относятся к пользовательским кодам или текстовым файлам, которые загружаются пользователями и планируются при выполнении задач узла.
  • Expression: Значения параметров узла в задаче узла могут динамически генерироваться на основе исполняющей среды с помощью языка выражений (EL). EL использует простую арифметику и логику для вычисления и ссылки на встроенные объекты, включая объекты задач и объекты инструментов.
  • Environment variable: Переменная окружения — это объект с определённым именем в операционной системе. Она содержит информацию, которая будет использована одним или несколькими приложениями.
  • PatchData: PatchData относится к экземпляру, который генерируется за определённый период времени периодически запланированной задачей.