Облачная платформаAdvanced

В OBS

Эта статья полезна?
Язык статьи: Русский
Показать оригинал
Страница переведена автоматически и может содержать неточности. Рекомендуем сверяться с английской версией.

Если ссылка назначения задания является OBS ссылка, то есть данные должны быть импортированы в OBS, сконфигурируйте параметры назначения задания на основе Table 1.

Расширенные атрибуты являются необязательными и по умолчанию не отображаются. Вы можете нажать Показать Расширенные атрибуты для их отображения.

Table 1 Описание параметра

Категория

Параметр

Описание

Пример Значения

Базовые параметры

Бакет Name

Имя OBS бакета, в который будут записываться данные

bucket_2

Каталог записи

OBS каталог, в который будут записываться данные. Не добавляйте / перед именем каталога.

Этот параметр можно настроить как макропеременную даты и времени, и имя пути может содержать несколько макропеременных. Когда макропеременная даты и времени используется в запланированной задаче, инкрементные данные могут синхронно синхронизироваться периодически.

NOTE:

Если вы настроили макропеременную даты и времени и запланировали задачу CDM через DataArts Studio DataArts Factory, система заменяет макропеременную даты и времени на (Запланированное время начала задачи разработки данныхСмещение) rather than (Фактическое время начала задачи CDMСмещение).

каталог/

Формат файла

Формат, в котором записываются данные. Параметры перечислены ниже:

  • CSV: Данные записываются в формате CSV, который используется для миграции таблиц данных в файлы.
  • Бинарный: Файлы будут передаваться напрямую. CDM записывает файлы без изменения их формата. Эта настройка подходит для миграции файлов.

Если данные мигрируют между источниками, связанными с файлами, такими как FTP, SFTP, OBS и HDFS, значение Формат файла должен быть таким же, как формат исходного файла.

NOTE:
  • Формат может быть только CSV, когда ссылка источника является ссылкой MRS Hive.
  • Если источник является сервером FTP/SFTP, поддерживается только бинарный формат.

CSV

Метод обработки дублирующих файлов

Этот параметр доступен, когда источником миграции является HDFS.

Файлы с одинаковым именем и размером определяются как дублирующие файлы. Если при записи данных возникают дублирующие файлы, доступны следующие методы:

  • Заменить
  • Пропустить
  • Остановить задачу

Пропустить

Расширенные атрибуты

Шифрование

Нужно ли шифровать загруженные данные и режим шифрования. Параметры указаны ниже:

  • Нет: Данные записываются без шифрования.
  • KMS: В Data Encryption Workshop (DEW) используется KMS для шифрования. Если включено шифрование KMS, проверка MD5 для данных не может быть выполнена.

KMS

KMS ID

Ключ шифрования данных. Этот параметр отображается, когда Шифрование установлено в KMS. Нажмите рядом с текстовым полем, чтобы выбрать ключ KMS, созданный в DEW.

  • Если используется ключ KMS того же проекта, что и кластер CDM, вам не нужно изменять ID проекта.
  • Если используется ключ KMS другого проекта, вам нужно изменить ID проекта.

53440ccb-3e73-4700-98b5-71ff5476e621

ID проекта

ID проекта, к которому относится ID KMS. Значение по умолчанию — ID проекта, к которому относится текущий кластер CDM.

  • Если KMS и кластер CDM находятся в одном проекте, сохраните значение по умолчанию ID проекта.
  • Если используется KMS другого проекта, задайте этот параметр как ID проекта, к которому принадлежит KMS.

9bd7c4bd54e5417198f9591bef07ae67

Копировать Content-Type

Этот параметр отображается только когда Формат файла является Бинарный, и источник миграции, и назначение являются объектным хранилищем.

Если вы установите этот параметр в Да, атрибут Content-Type исходного файла копируется во время миграции объектных файлов. Эта функция в основном используется для миграции статических веб-сайтов.

Атрибут Content-Type нельзя записать в Archive bucket. Поэтому, если вы установите этот параметр в Да, назначение миграции должно быть не-Archive bucket.

Нет

Разделитель строк

Символ перевода строки в файле. По умолчанию система автоматически определяет \n, \r, и \r\n. Этот параметр не используется, когда Формат файла установлен в Бинарный.

\n

Разделитель полей

Разделитель полей в файле. Этот параметр не используется, когда Формат файла установлен в Бинарный.

,

Размер файла

Этот параметр отображается только когда источник миграции — база данных. Файлы разбиваются на несколько файлов по размеру, чтобы их можно было экспортировать подходящего размера. Единица измерения — МБ.

1024

Проверить значение MD5

Значение MD5 может быть проверено только когда файлы передаются в Бинарный формат. Шифрование KMS не может использоваться, если необходимо проверить значение MD5.

Вычислите значение MD5 исходных файлов и проверьте его с помощью значения MD5, возвращённого OBS. Если файл MD5 существует в источнике миграции, система напрямую считывает файл MD5 из источника миграции и проверяет его с помощью значения MD5, возвращённого OBS.

Да

Записать результат проверки MD5

Записывать ли результат проверки MD5 когда Проверить значение MD5 установлено в Да

Да

Записать ссылку MD5

Ссылка OBS, в которую будет записан результат проверки MD5

obslink

Записать MD5 Бакет

OBS бакет, в который будет записан результат проверки MD5

cdm05

Записать MD5 Директорию

Каталог, в который будет записан результат проверки MD5

/md5/

Тип кодировки

Тип кодировки, например, UTF-8 или GBK. Этот параметр не используется когда Формат файла установлен в Бинарный.

GBK

Использовать символ кавычки

Этот параметр отображается только когда Формат файла является CSV. Он используется когда таблицы баз данных мигрируют в файловые системы.

Если вы установите этот параметр в Да и поле в исходной таблице данных содержит разделитель полей или разделитель строк, CDM использует двойные кавычки (") в качестве символа кавычек, чтобы заключить содержимое поля целиком и предотвратить разделение поля разделителем полей на два поля или разделителем строк на разные строки. Например, если hello,world поле в базе данных заключается в кавычки, оно будет экспортировано в CSV файл целиком.

Нет

Использовать первую строку в качестве заголовка

Этот параметр отображается только при экспорте данных из реляционной базы данных в OBS и Формат файла установлен CSV.

При миграции таблицы в CSV файл CDM по умолчанию не переносит строку заголовка таблицы. Если установить этот параметр в Да, CDM записывает строку заголовка таблицы в файл.

Нет

Файл маркера успешного Джоба

Генерировать ли файл маркера с пользовательским именем в директории назначения после успешного выполнения джобы. Если имя файла не указано, эта функция отключена по умолчанию.

finish.txt

Режим папки

Этот параметр доступен только при экспорте данных из реляционной базы данных в OBS.

Если эта функция включена, сгенерированные файлы именуются в следующем формате: Корневой каталог-Имя таблицы-Тип данных-Формат папки данных. Пример: raw_schema/tbl_student/datas/tbl_student_1.csv

Да

Blog/Clog расширение имени файла

Этот параметр доступен только когда Режим папки установлено Да. Указывает расширение для имён файлов, содержащих пользовательские данные Blob/Clog в режиме папки.

.dat/.jpg/.png

Настройка иерархического каталога

Если этот параметр установлен в Да, файлы после миграции могут быть сохранены в пользовательском каталоге. То есть мигрируются только файлы. Каталоги, к которым принадлежат файлы, не мигрируются.

Да

Иерархический каталог

Пользовательский каталог хранения файлов после миграции. Поддерживается макропеременная времени.

NOTE:

Если исходная ссылка является ссылкой на реляционную базу данных, имя каталога состоит из имени исходной таблицы и пользовательского имени каталога. В других сценариях каталог является пользовательским каталогом.

${dateformat(yyyy-MM-dd HH:mm:ss, -1, DAY)}

Настроить имя файла

Этот параметр отображается только при экспорте данных из реляционной базы данных в OBS и Формат файла установлен в CSV.

Этот параметр определяет имя файла, генерируемого OBS. Возможные варианты следующие:

  • Строка символов: Допустимы специальные символы. Например, если этот параметр установлен в cdm#, имя сгенерированного файла cdm#.csv.
  • Макрос переменной времени: Если этот параметр установлен в ${timestamp()}, имя сгенерированного файла 1554108737.csv.
  • Макрос‑переменная имени таблицы: если этот параметр установлен в ${tableName}, имя сгенерированного файла — имя исходной таблицы sqltabname.csv.
  • Макрос‑переменная номера версии: если этот параметр установлен в ${version}, имя сгенерированного файла — номер версии кластера 2.9.2.200.csv.
  • Любая комбинация строкового литерала и макрос‑переменной (макрос‑переменной времени, имени таблицы или номера версии). Например, если этот параметр установлен в cdm#${timestamp()}_${version}, имя сгенерированного файла — cdm#1554108737_2.9.2.200.csv.

cdm