DataArts Factory — это платформа «все в одном» для совместной разработки больших данных, предоставляющая полностью управляемые возможности планирования больших данных. Она управляет различными сервисами больших данных, делая их более доступными, чем когда‑либо, и помогает без труда строить центры обработки больших данных.
DataArts Factory ранее назывался Data Lake Factory (DLF). Поэтому в этом документе обе названия Data Lake Factory и DLF могут использоваться для обозначения DataArts Factory.
Введение в DataArts Factory
DataArts Factory предоставляет разнообразные операции, такие как управление данными, разработка скриптов, разработка задач, планирование задач и мониторинг, облегчая анализ и обработку данных.
Рисунок 1 Архитектура DataArts Factory

Основные функции
Функция | Описание |
---|---|
Управление данными |
|
Разработка скриптов |
|
Разработка Джобы |
|
Управление ресурсами | Поддерживает единое управление файлами, jar и архивными ресурсами, используемыми во время разработки скриптов и задач. |
Планирование задач | Планирует jobs для однократного или рекурсивного выполнения и использует события для триггера планирования jobs. Если частота планирования установлена в hour, период планирования может быть основан на interval hour или discrete hour. |
Мониторинг |
|
Объекты в DataArts Factory
- Data connection: Data connection — это набор информации, необходимой для доступа к пространству хранения данных (вычислений), включая тип соединения, имя и сведения для входа.
- Solution: Solution предоставляет пользователям удобные и систематические операции управления для лучшего соответствия требованиям и целям сервиса. Каждый solution может содержать одну или несколько бизнес‑связанных джоб, и одна джоба может использоваться несколькими solution.
- Job: Джоба состоит из одного или нескольких узлов и может быть выполнена для завершения операций с данными.
- Script: Скрипт является расширением файла пакетной обработки. Это программа, которая хранит текст. Как правило, компьютерная скриптовая программа представляет собой комбинацию серии операций, которые управляют компьютерами для выполнения операций. В скриптовой программе могут быть реализованы определённые логические ветви.
- Node: Узел определяет операции, выполняемые над данными.
- Resource: Ресурсы относятся к пользовательским кодам или текстовым файлам, которые загружаются пользователями и планируются при выполнении задач узла.
- Expression: Значения параметров узла в задаче узла могут динамически генерироваться на основе исполняющей среды с помощью языка выражений (EL). EL использует простую арифметику и логику для вычисления и ссылки на встроенные объекты, включая объекты задач и объекты инструментов.
- Environment variable: Переменная окружения — это объект с определённым именем в операционной системе. Она содержит информацию, которая будет использована одним или несколькими приложениями.
- PatchData: PatchData относится к экземпляру, который генерируется за определённый период времени периодически запланированной задачей.
- Введение в DataArts Factory
- Основные функции
- Объекты в DataArts Factory