Облачная платформаAdvanced

В OBS

Эта статья полезна?
Язык статьи: Русский
Показать оригинал
Страница переведена автоматически и может содержать неточности. Рекомендуем сверяться с английской версией.

Если ссылка назначения задания является OBS ссылка, то есть данные будут импортированы в OBS, настройте параметры задания назначения, основываясь на Таблица 1.

Расширенные атрибуты являются опциональными и по умолчанию не отображаются. Вы можете нажать Показать расширенные атрибуты чтобы отобразить их.

Таблица 1 Описание параметра

Категория

Параметр

Описание

Пример значения

Базовые параметры

Бакет Имя

Имя OBS бакета, в который будут записываться данные

bucket_2

Каталог записи

Каталог OBS, в который будут записываться данные. Не добавляйте / перед именем каталога.

Этот параметр можно настроить как макропеременную даты и времени, и имя пути может содержать несколько макропеременных. Когда макропеременная даты и времени используется с запланированной задачей, инкрементные данные могут синхронизироваться периодически.

NOTE:

Если вы настроили макропеременную даты и времени и запланировали задачу CDM через DataArts Studio DataArts Factory, система заменяет макропеременную даты и времени на (Запланированное время начала задачи разработки данныхСмещение)Фактическое время начала задачи CDMСмещение).

directory/

Формат файла

Формат, в котором записываются данные. Параметры перечислены ниже:

  • CSV: Данные записываются в формате CSV, который используется для миграции таблиц данных в файлы.
  • Бинарный: Файлы будут передаваться напрямую. CDM записывает файлы без изменения их формата. Эта настройка подходит для миграции файлов.

Если данные мигрируют между источниками, связанными с файлами, такими как FTP, SFTP, OBS и HDFS, значение Формат файла должен быть таким же, как формат исходного файла.

ПРИМЕЧАНИЕ:
  • Формат может быть только CSV, когда исходная ссылка является ссылкой MRS Hive.
  • Если источник — сервер FTP/SFTP, поддерживается только бинарный формат.

CSV

Метод обработки дублирующих файлов

Этот параметр доступен, когда источником миграции является HDFS.

Файлы с одинаковыми именем и размером определяются как дублирующие файлы. Если при записи данных появляются дублирующие файлы, доступны следующие методы:

  • Заменить
  • Пропустить
  • Остановить задачу

Пропустить

Дополнительные атрибуты

Шифрование

Шифровать ли загруженные данные и выбрать режим шифрования. Ниже перечислены варианты:

  • Нет: Данные записываются без шифрования.
  • KMS: KMS в Data Encryption Workshop (DEW) используется для шифрования. Если включено шифрование KMS, проверка MD5 данных не может быть выполнена.

KMS

KMS ID

Ключ шифрования данных. Этот параметр отображается, когда Шифрование установлен KMS. Щелкните Рядом с полем ввода, чтобы выбрать KMS‑ключ, созданный в DEW.

  • Если используется KMS‑ключ того же проекта, что и кластер CDM, изменять его не требуется ID проекта.
  • Если используется KMS‑ключ другого проекта, необходимо изменить ID проекта.

53440ccb-3e73-4700-98b5-71ff5476e621

ID проекта

ID проекта, к которому принадлежит KMS‑ID. Значение по умолчанию — ID проекта, к которому принадлежит текущий кластер CDM.

  • Если KMS и кластер CDM находятся в одном проекте, оставьте значение по умолчанию ID проекта.
  • Если используется KMS другого проекта, установите этот параметр в значение ID проекта, к которому принадлежит KMS.

9bd7c4bd54e5417198f9591bef07ae67

Копировать Content-Type

Этот параметр отображается только когда Формат файла является Бинарный, и оба источника и назначения миграции являются объектным хранилищем.

Если вы установите этот параметр в Да, атрибут Content-Type исходного файла копируется во время миграции объектных файлов. Эта функция в основном используется для миграции статических веб‑сайтов.

Атрибут Content-Type нельзя записать в Archive‑бакеты. Поэтому, если вы установите этот параметр в Да, место назначения миграции должно быть не‑Archive бакетом.

Нет

Разделитель строк

Символ перевода строки в файле. По умолчанию система автоматически определяет \n, \r, и \r\n. Этот параметр не используется, когда Формат файла установлен в Двоичный.

\n

Разделитель полей

Разделитель полей в файле. Этот параметр не используется, когда Формат файла установлен в Двоичный.

,

Размер файла

Этот параметр отображается только тогда, когда источником миграции является база данных. Файлы разбиваются на несколько файлов по размеру, чтобы их можно было экспортировать в нужном размере. Единица измерения — MB.

1024

Проверить значение MD5

Значение MD5 может быть проверено только когда файлы передаются в Бинарный формат. Шифрование KMS нельзя использовать, если необходимо проверить значение MD5.

Вычислите значение MD5 исходных файлов и проверьте его с помощью значения MD5, возвращаемого OBS. Если файл MD5 существует в источнике миграции, система напрямую читает файл MD5 из источника миграции и проверяет его с помощью значения MD5, возвращаемого OBS.

Да

Записать результат проверки MD5

Записывать результат проверки MD5 при Проверить значение MD5 установлено Да

Да

Записать MD5 ссылку

OBS ссылка, в которую будет записан результат проверки MD5

obslink

Записать MD5 Бакет

OBS Бакет, в который будет записан результат проверки MD5

cdm05

Записать MD5 директорию

Каталог, в который будет записан результат проверки MD5

/md5/

Тип кодировки

Тип кодировки, например, UTF-8 или GBK. Этот параметр не используется, когда Формат файла установлен в Бинарный.

GBK

Использовать символ кавычек

Этот параметр отображается только когда Формат файла это CSV. Он используется, когда таблицы баз данных мигрируют в файловые системы.

Если вы установите этот параметр в Да и поле в исходной таблице данных содержит разделитель полей или разделитель строк, CDM использует двойные кавычки (\") в качестве символа кавычек, чтобы заключить содержание поля целиком, предотвращая разделение поля разделителем полей на два поля или разделителем строк на разные строки. Например, если hello,world поле в базе данных заключено в кавычки, оно будет экспортировано в CSV‑файл целиком.

Нет

Использовать первую строку в качестве заголовка

Этот параметр отображается только при экспорте данных из реляционной базы данных в OBS и Формат файла установлен в CSV.

При миграции таблицы в CSV‑файл CDM по умолчанию не переносит строку заголовка таблицы. Если установить этот параметр в Да, CDM записывает строку заголовка таблицы в файл.

Нет

Файл маркера успешной джобы

Создавать ли файл маркера с пользовательским именем в каталоге назначения после успешного выполнения джобы. Если имя файла не указано, эта функция отключена по умолчанию.

finish.txt

Режим папки

Этот параметр доступен только при экспорте данных из реляционной базы данных в OBS.

Если эта функция включена, созданные файлы именуются в следующем формате: Корневой каталог-Имя таблицы-Тип данных-Формат папки данных. Пример: raw_schema/tbl_student/datas/tbl_student_1.csv

Да

Blog/Clog Расширение имени файла

Этот параметр доступен только когда Режим папки установлен в Да. Указывает расширение для имён файлов, содержащих пользовательские данные Blob/Clog в режиме папки.

.dat/.jpg/.png

Настроить иерархический каталог

Если этот параметр установлен в Да, файлы после миграции могут быть сохранены в пользовательском каталоге. То есть мигрируют только файлы. Каталоги, к которым принадлежат файлы, не мигрируются.

Да

Иерархический каталог

Пользовательский каталог хранения файлов после миграции. Поддерживается переменная макроса времени.

ПРИМЕЧАНИЕ:

Если исходная ссылка является ссылкой на реляционную базу данных, имя каталога состоит из имени исходной таблицы и пользовательского имени каталога. В других сценариях каталог является пользовательским каталогом.

${dateformat(yyyy-MM-dd HH:mm:ss, -1, DAY)}

Настроить имя файла

Этот параметр отображается только при экспорте данных из реляционной базы данных в OBS и Формат файла установлен в CSV.

Этот параметр задает имя файла, созданного OBS. Параметры следующие:

  • Строка символов: Допускаются специальные символы. Например, если этот параметр установлен в cdm#, имя сгенерированного файла cdm#.csv.
  • Макрос переменной времени: если этот параметр установлен в ${timestamp()}, имя сгенерированного файла 1554108737.csv.
  • Макрос переменной имени таблицы: если этот параметр установлен в ${tableName}, имя сгенерированного файла — имя исходной таблицы sqltabname.csv.
  • Макрос переменной номера версии: если этот параметр установлен в ${version}, имя сгенерированного файла — номер версии кластера 2.9.2.200.csv.
  • Любая комбинация строкового символа и макроса переменной (макрос переменной времени, имени таблицы или номера версии). Например, если этот параметр установлен в cdm#${timestamp()}_${version}, имя сгенерированного файла — cdm#1554108737_2.9.2.200.csv.

cdm