Advanced
Тема интерфейса

Задачи миграции таблиц/файлов

Эта статья полезна?
Язык статьи: Русский
Показать оригинал
Страница переведена автоматически и может содержать неточности. Рекомендуем сверяться с английской версией.

Сценарий

CDM поддерживает миграцию таблиц и файлов между однородными или разнородными источниками данных. Для получения подробной информации о поддерживаемых источниках данных см. Поддерживаемые источники данных.

Ограничения

  • Функция записи грязных данных зависит от OBS.
  • JSON‑файл задачи для импорта не может превышать 1 МБ.
  • Размер передаваемого файла не может превышать 1 ТБ.
  • Имена полей параметров источника и назначения не могут содержать амперсанды (&) или знаки процента (%).

Предварительные условия

  • Создана ссылка. Для получения подробной информации см. Создание ссылок.
  • Кластер CDM может взаимодействовать с источником данных.

Процедура

  1. Войдите в консоль управления и выберите Список сервисов > Миграция данных в облаке. В левой навигационной панели выберите Управление Кластером. Найдите целевой кластер и щелкните Управление Джобой.
  2. Выберите Миграция таблиц/файлов > Создать Джобу. Отображается страница настройки Джобы.

    Рисунок 1 Создание миграционной Джобы


  3. Выберите исходные и целевые ссылки.

    • Имя Джобы: Введите строку, состоящую из 1 до 240 символов. Имя может содержать цифры, буквы, дефисы (-), подчёркивания (_) и точки (.), и не может начинаться с дефиса (-) или точки (.). Пример значения oracle2rds_t.
    • Имя исходной ссылки: Выберите источник данных, из которого будут экспортированы данные.
    • Имя целевой ссылки: Выберите источник данных, в который будут импортированы данные.

  4. Настройте параметры исходной ссылки.

    Параметры зависят от источников данных. Для получения подробной информации о параметрах задачи для других типов источников данных см. Таблица 1 и Таблица 2.

    Таблица 1 Описание параметра исходной ссылки

    Источник миграции

    Описание

    Настройки параметров

    OBS

    Данные могут быть извлечены в формате CSV, JSON или бинарном. Извлечённые в бинарном формате данные не зависят от разрешения файлов, что обеспечивает высокую производительность и более подходит для миграции файлов.

    Подробности см. Из OBS.

    • MRS HDFS
    • FusionInsight HDFS
    • Apache HDFS

    Данные HDFS могут быть экспортированы в формате CSV, Parquet или бинарном и могут быть сжаты в нескольких форматах.

    Подробности см. Из HDFS.

    • MRS HBase
    • FusionInsight HBase
    • Apache HBase
    • CloudTable Service

    Данные могут быть экспортированы из MRS, FusionInsight HD, open source Apache Hadoop HBase или CloudTable. Нужно знать все семейства колонок и имена полей таблиц HBase.

    Подробности см. Из HBase/CloudTable.

    • MRS Hive
    • FusionInsight Hive
    • Apache Hive

    Данные можно экспортировать из Hive через JDBC API.

    Если источник данных — Hive, CDM автоматически разделит данные, используя файл разметки данных Hive.

    Для подробностей см Из Hive.

    DLI

    Данные можно экспортировать из DLI.

    Для подробностей см Из DLI.

    • FTP
    • SFTP

    Данные FTP и SFTP можно экспортировать в формате CSV, JSON или двоичном формате.

    Для подробностей см Из FTP/SFTP.

    • HTTP

    Эти коннекторы используются для чтения файлов с URL HTTP/HTTPS, например, для чтения общедоступных файлов в сторонней системе объектного хранилища и веб‑дисках.

    В настоящее время данные можно экспортировать только из HTTP‑URL.

    Для получения подробной информации смотрите Из HTTP.

    Data Warehouse Service

    Данные можно экспортировать из DWS.

    Для получения подробной информации смотрите Из DWS.

    SAP HANA

    Данные можно экспортировать из SAP HANA.

    Для получения подробной информации смотрите Из SAP HANA.

    • RDS for PostgreSQL
    • RDS for SQL Server
    • Microsoft SQL Server
    • PostgreSQL

    Данные могут быть экспортированы из облачных сервисов баз данных.

    Необлачные базы данных могут быть созданными в локальном дата-центре или развернутыми на ECSs, либо сервисами баз данных в сторонних облаках.

    Когда данные экспортируются из этих источников данных, CDM использует JDBC API для извлечения данных. Параметры задания для источника миграции одинаковы. Для получения подробностей см Из PostgreSQL/SQL Server.

    MySQL

    Данные могут быть экспортированы из базы данных MySQL.

    Для получения подробностей см Из MySQL.

    Oracle

    Данные могут быть экспортированы из базы данных Oracle.

    Для получения подробностей см Из Oracle.

    Шардирование баз данных

    Данные могут быть экспортированы из шарда.

    Для подробностей см Из фрагмента базы данных.

    • MongoDB
    • Document Database Service

    Данные могут быть экспортированы из MongoDB или DDS.

    Для подробностей см Из MongoDB/DDS.

    Redis

    Данные могут быть экспортированы из open source Redis.

    Для подробностей см Из Redis.

    • Apache Kafka
    • DMS Kafka
    • MRS Kafka

    Данные могут быть экспортированы только в Cloud Search Service (CSS).

    Для подробностей см Из Kafka/DMS Kafka.

    • Cloud Search Service
    • Elasticsearch

    Данные можно экспортировать из CSS или Elasticsearch.

    Для получения подробностей см Из Elasticsearch или CSS.

    MRS Hudi

    Данные можно экспортировать из MRS Hudi.

    Для получения подробностей см Из MRS Hudi.

    MRS ClickHouse

    Данные можно экспортировать из MRS ClickHouse.

    Для получения подробностей см Из MRS ClickHouse.

    ShenTong база данных

    Данные можно экспортировать из базы данных ShenTong.

    Для получения подробностей см Из базы данных ShenTong.

  5. Настройте параметры задания для места назначения миграции на основе Таблица 2.

    Таблица 2 Описание параметра

    Место назначения миграции

    Описание

    Настройки параметров

    OBS

    Файлы (даже в большом объёме) могут быть пакетно мигрированы в OBS в формате CSV или в бинарном формате.

    Для подробностей см. В OBS.

    MRS HDFS

    Вы можете выбрать формат сжатия при импорте данных в HDFS.

    Для подробностей см. В HDFS.

    MRS HBase

    CloudTable Service

    Данные можно импортировать в HBase. Алгоритм сжатия можно установить при создании новой таблицы HBase.

    Для подробностей, см. К HBase/CloudTable.

    MRS Hive

    Данные можно быстро импортировать в MRS Hive.

    Для подробностей, см. К Hive.

    • MySQL
    • SQL Server
    • PostgreSQL

    Данные можно импортировать в облачные сервисы баз данных.

    Для подробностей о том, как использовать JDBC API для импорта данных, см. К MySQL/SQL Server/PostgreSQL.

    DWS

    Данные можно импортировать в DWS.

    Для подробностей, см. К DWS.

    Oracle

    Данные можно импортировать в базу данных Oracle.

    Для подробностей см. К Oracle.

    DLI

    Данные можно импортировать в DLI.

    Для подробностей см. К DLI.

    Elasticsearchor Cloud Search Service (CSS)

    Данные можно импортировать в CSS.

    Для подробностей см. К Elasticsearch/CSS.

    MRS Hudi

    Данные можно быстро импортировать в MRS Hudi.

    Для подробностей см. К MRS Hudi.

    MRS ClickHouse

    Данные можно быстро импортировать в MRS ClickHouse.

    Для подробностей, см В MRS ClickHouse.

    MongoDB

    Данные можно быстро импортировать в MongoDB.

    Для подробностей, см В MongoDB.

  6. После настройки параметров щелкните Далее. Эта Поле сопоставления отображена страница вкладки.

    Если файлы мигрируют между FTP, SFTP, OBS и HDFS и источник миграции Формат файла установлен в Бинарный, файлы будут переданы напрямую, без сопоставления полей.

    В других сценариях CDM автоматически сопоставляет поля исходной таблицы и таблицы назначения. Необходимо проверить, корректны ли сопоставление и формат времени. Например, проверить, может ли тип поля источника быть преобразован в тип поля назначения.

    Рисунок 2 Сопоставление полей


    Note
    • Если поля источника и назначения не совпадают, вы можете перетаскивать поля для корректировки.
    • На Сопоставить поле на вкладке, если CDM не удаётся получить все столбцы, получая образцы значений (например, когда данные экспортируются из HBase, CloudTable или MongoDB, или когда данные мигрируют из SFTP/FTP в DLI, существует высокая вероятность, что CDM не получит все столбцы), вы можете нажать и выберите Добавить новое поле чтобы добавить новые поля и гарантировать, что данные, импортированные в пункт назначения миграции, полны.
    • Когда в качестве источника миграции используется реляционная база данных, Hive, DLI или MRS Hudi, образцы значений не могут быть получены.
    • На Map Field странице, вы можете нажать чтобы добавить пользовательские константы, переменные и выражения.
    • Имена столбцов отображаются, когда источником задачи миграции является OBS, файлы CSV подлежат миграции, и параметр Extract first row as columns установлен в Да.
    • Когда SQLServer является целевым, поля типа timestamp нельзя записать. Необходимо изменить их тип (например, на datatime), чтобы их можно было записать.
    • Когда Hive служит в качестве источника, данные типов массив и map могут быть прочитаны.
    • Сопоставление полей не используется, когда для миграции файлов в файлы применяется двоичный формат.
    • Если данные импортируются в DWS, необходимо выбрать распределительные столбцы в целевых полях. Рекомендуется выбирать распределительные столбцы согласно следующим принципам:
      1. Используйте первичный ключ в качестве распределительного столбца.
      2. Если несколько сегментов данных объединены в качестве первичных ключей, укажите все первичные ключи как столбец распределения.
      3. В сценарии, когда первичный ключ недоступен, если не выбран столбец распределения, DWS по умолчанию использует первый столбец в качестве столбца распределения. В результате существует риск дисбаланса данных.

  7. CDM поддерживает преобразование полей. Нажмите и затем нажмите Создать конвертер.

    Рисунок 3 Создание конвертера


    CDM поддерживает следующие конвертеры:

    • Анонимизация: скрывает ключевые данные в строке символов.

      Например, если вы хотите преобразовать 12345678910 в 123****8910, настройте параметры следующим образом:

      • Установить Зарезервировать начальную длину до 3.
      • Установить Зарезервировать конечную длину до 4.
      • Установить Заменить символ до *.

    • Обрезать автоматически удаляет пробелы до и после строки.
    • Обратить строку автоматически разворачивает строку. Например, reverse ABC в CBA.
    • Заменить строку заменяет указанную строку символов.
    • Преобразование выражения использует язык выражений JSP (EL) для преобразования текущего поля или строки данных. .
    • Удалить разрыв строки удаляет символы новой строки, такие как \n, \r и \r\n из поля.
    Note

    Если Использовать оператор SQL установлено в Да в конфигурации исходного задания конвертеры не могут быть созданы.

  8. Нажмите Далее, установите параметры задания и нажмите Показать дополнительные атрибуты для отображения и настройки необязательных параметров.

    Рисунок 4 Параметры задачи


    Таблица 3 описывает связанные параметры.

    Таблица 3 Описание параметра

    Параметр

    Описание

    Пример значения

    Retry upon Failure

    Вы можете выбрать Retry 3 times или Never.

    Рекомендуется настроить автоматическую повторную попытку только для задач миграции файлов или задач миграции баз данных с Import to Staging Table включено, чтобы избежать несоответствия данных, вызванного повторными записями.

    NOTE:

    Если вы хотите задать параметры в DataArts Studio DataArts Factory для планирования задачи миграции CDM, не настраивайте этот параметр. Вместо этого задайте параметр Retry upon Failure для узла CDM в DataArts Factory.

    Никогда

    Джоба

    Выберите группу, в которой находится джоба. Группа по умолчанию DEFAULT. На Управление джобой страница, джобы могут отображаться, запускаться или экспортироваться по группе.

    DEFAULT

    Планирование выполнения

    Если вы выберете Да, вы можете задать время начала, цикл и период действия джобы. Подробнее см Планирование выполнения джобы.

    ПРИМЕЧАНИЕ:

    Если вы используете DataArts Studio DataArts Factory для планирования задания миграции CDM и настройки этого параметра, оба конфигурационных действия вступают в силу. Чтобы обеспечить единую логику сервиса и избежать конфликтов планирования, включите планирование заданий в DataArts Factory и не настраивайте запланированную задачу для задания в DataArts Migration.

    Нет

    Concurrent Extractors

    Настройте количество задач, которые будут разделены из задания CDM.

    CDM переносит данные с помощью заданий миграции данных. Он работает следующим образом:

    1. Когда задания миграции данных отправляются, CDM разделяет каждое задание на несколько задач на основе Concurrent Extractors параметр в конфигурации задания.
      NOTE:

      Задания для разных источников данных могут быть разделены по различным измерениям. Некоторые задания могут не быть разделены по Concurrent Extractors параметр.

    2. CDM отправляет задачи в рабочий пул последовательно. Задачи (определяемые Максимальное количество одновременных извлекателей) запускать одновременно. Избыточные задачи помещаются в очередь.

    Устанавливая соответствующие значения для этого параметра и Максимальное количество одновременных извлекателей параметр, вы можете ускорить миграцию.

    Настройте количество одновременных извлекателей на основе следующих правил:

    1. Когда данные мигрируют в файлы, CDM не поддерживает несколько одновременных задач. В этом случае установите один процесс для извлечения данных.
    2. Если строка таблицы содержит данные объёмом менее или равно 1 MB, данные могут извлекаться одновременно. Если строка содержит более 1 MB данных, рекомендуется извлекать данные в одном потоке.
    3. Установить Одновременные извлекатели для задания на основе Максимальное количество одновременных извлекателей для кластера. Рекомендуется Одновременные извлекатели меньше чем Максимальное количество одновременных экстракторов.
    4. Если назначение — DLI, рекомендуется установить количество одновременных экстракторов равным 1. В противном случае данные могут не быть записаны.

    Максимальное количество одновременных экстракторов для кластера зависит от типа кластера CDM. Рекомендуется установить максимальное количество одновременных экстракторов в два раза больше количества vCPU кластера CDM. Например, максимальное количество одновременных экстракторов для кластера с 8 vCPU и 16 GB памяти равно 16.

    1

    Одновременные загрузчики

    Количество загрузчиков, которые будут выполняться одновременно

    Этот параметр отображается только когда HBase или Hive выступают в качестве источника данных назначения.

    3

    Количество повторных попыток разделения

    Количество повторных попыток, когда split не удалось выполнить. Value 0 указывает, что повторные попытки не будут выполнены.

    0

    Записать грязные данные

    Записывать ли грязные данные. По умолчанию этот параметр установлен в Нет.

    Грязные данные в CDM означают данные в недопустимом формате. Если исходные данные содержат грязные данные, рекомендуется включить эту функцию. Иначе работа миграционной задачи может завершиться с ошибкой.

    ПРИМЕЧАНИЕ:

    Грязные данные могут быть записаны только в пути OBS. Поэтому этот параметр доступен только при наличии OBS‑ссылки.

    Да

    Ссылка на запись грязных данных

    Этот параметр отображается только когда Записать грязные данные установлен в Да.

    Можно выбрать только OBS‑ссылку.

    obs_link

    OBS Бакет

    Этот параметр отображается только когда Записать Ссылку На Грязные Данные это ссылка на OBS.

    Имя OBS Бакета, в который будут записываться грязные данные.

    dirtydata

    Каталог Грязных Данных

    Этот параметр отображается только когда Записать Грязные Данные установлен в Да.

    Грязные данные хранятся в каталоге для хранения грязных данных в OBS. Грязные данные сохраняются только когда этот параметр настроен.

    Вы можете перейти в этот каталог, чтобы запросить данные, которые не удалось обработать или были отфильтрованы во время выполнения задания, и проверить исходные данные, не соответствующие правилам преобразования или очистки.

    /user/dirtydir

    Макс. Ошибочных записей в одном шарде

    Этот параметр отображается только когда Записать Грязные Данные установлен в Да.

    Когда количество записей с ошибками в отдельной карте превышает верхний предел, задача автоматически завершится, и импортированные данные нельзя будет откатить. Рекомендуется использовать временную таблицу в качестве целевой таблицы. После импорта данных переименуйте таблицу или объедините её с итоговой таблицей данных.

    0

    Регулирование

    Включение регулирования уменьшает нагрузку чтения на источник. Оно контролирует скорость передачи CDM, а не трафик NIC.

    NOTE:
    • Регулирование можно включить для задач миграции файлов, не являющихся бинарными.
    • Для настройки регулирования нескольких задач умножьте скорость на количество одновременных задач.
    • Регулирование не поддерживается для бинарной передачи между файлами.

    Да

    Максимум записей с ошибками в отдельном шарде

    Максимальная скорость для задачи. Для настройки регулирования нескольких задач умножьте скорость на количество одновременных задач.

    NOTE:

    Коэффициент — целое число, большее 1.

    20

  9. Нажмите Сохранить или Сохранить и запустить. На отображаемой странице можно просмотреть статус задачи.

    Note

    Статус задачи может быть Новое, В ожидании, Загрузка, Выполняется, Ошибка, Успешно, либо Остановлен.

    В ожидании указывает, что джоба ожидает планирования системой, и Загрузка указывает, что данные для миграции анализируются.