CDM поддерживает миграцию таблиц и файлов между однородными или разнородными источниками данных. Для получения подробной информации о поддерживаемых источниках данных см Поддерживаемые источники данных.
Рисунок 1 Создание задачи миграции

Параметры различаются в зависимости от источников данных. Подробную информацию о параметрах задания для других типов источников данных см Таблица 1 и Таблица 2.
Источник миграции | Описание | Настройки параметров |
|---|---|---|
OBS | Данные можно извлекать в формате CSV, JSON или в бинарном формате. Извлечённые в бинарном формате данные не зависят от разрешения файла, что обеспечивает высокую производительность и лучше подходит для миграции файлов. | Для подробностей см. Из OBS. |
| Данные HDFS можно экспортировать в формате CSV, Parquet или в бинарном формате и сжимать в нескольких форматах. | Для подробностей см. Из HDFS. |
| Данные можно экспортировать из MRS, FusionInsight HD, open source Apache Hadoop HBase или CloudTable. Вам необходимо знать все семейства столбцов и имена полей таблиц HBase. | Для подробностей см. Из HBase/CloudTable. |
| Данные можно экспортировать из Hive через JDBC API. Если источником данных является Hive, CDM автоматически разделит данные, используя файл распределения данных Hive. | Для подробностей см. Из Hive. |
DLI | Данные можно экспортировать из DLI. | Для подробностей см. Из DLI. |
| Данные FTP и SFTP можно экспортировать в формате CSV, JSON или бинарном формате. | Для получения подробностей см. Из FTP/SFTP. |
| Эти коннекторы используются для чтения файлов по URL HTTP/HTTPS, например, для чтения публичных файлов в сторонних системах объектного хранилища и веб‑дисков. В настоящее время данные можно экспортировать только из URL HTTP. | Для получения подробностей см. Из HTTP. |
Data Warehouse Service | Данные можно экспортировать из DWS. | Для получения подробностей см. Из DWS. |
SAP HANA | Данные можно экспортировать из SAP HANA. | Для получения подробностей см. Из SAP HANA. |
| Данные могут быть экспортированы из облачных сервисов баз данных. Необлачные базы данных могут быть созданы в локальном дата‑центре или развернуты на ECSs, либо представлять собой сервисы баз данных в сторонних облаках. | Когда данные экспортируются из этих источников данных, CDM использует JDBC API для извлечения данных. Параметры задания для источника миграции одинаковы. Для получения подробной информации см Из PostgreSQL/SQL Server. |
MySQL | Данные могут быть экспортированы из базы данных MySQL. | Для получения подробной информации см Из MySQL. |
Oracle | Данные могут быть экспортированы из базы данных Oracle. | Для получения подробностей см От Oracle. |
Шардирование базы данных | Данные могут быть экспортированы из шарда. | Для получения подробностей см Из шарда базы данных. |
| Данные могут быть экспортированы из MongoDB или DDS. NOTE: Источники данных MongoDB и DDS с включённым SSL не поддерживаются. | Для получения подробностей см Из MongoDB/DDS. |
Redis | Данные могут быть экспортированы из открытого Redis. | Для получения подробностей см Из Redis. |
| Данные могут быть экспортированы только в Cloud Search Service (CSS). | Для получения подробностей см Из Kafka/DMS Kafka. |
| Данные могут быть экспортированы из CSS или Elasticsearch. | Для получения подробностей см Из Elasticsearch или CSS. |
MRS Hudi | Данные могут быть экспортированы из MRS Hudi. | Для получения подробностей см Из MRS Hudi. |
MRS ClickHouse | Данные могут быть экспортированы из MRS ClickHouse. | Для получения подробностей см Из MRS ClickHouse. |
LogHub (SLS) | Данные могут быть экспортированы из LogHub (SLS). | Для подробностей см. Из LogHub (SLS). |
ShenTong database | Данные могут быть экспортированы из базы данных ShenTong. | Для подробностей см. Из базы данных ShenTong. |
Назначение миграции | Описание | Настройки параметра |
|---|---|---|
OBS | Файлы (даже в большом объёме) можно пакетно мигрировать в OBS в формате CSV или в бинарном формате. | Для получения подробностей см К OBS. |
MRS HDFS | Вы можете выбрать формат сжатия при импорте данных в HDFS. | Для получения подробностей см К HDFS. |
MRS HBase CloudTable Service | Данные можно импортировать в HBase. Алгоритм сжатия можно задать при создании новой таблицы HBase. | Для получения подробностей см К HBase/CloudTable. |
MRS Hive | Данные можно быстро импортировать в MRS Hive. | Для получения подробностей см К Hive. |
| Данные можно импортировать в облачные сервисы баз данных. | Для получения подробной информации о том, как использовать JDBC API для импорта данных, см. В MySQL/SQL Server/PostgreSQL. |
DWS | Данные можно импортировать в DWS. | Для получения подробной информации, см. В DWS. |
Oracle | Данные можно импортировать в базу данных Oracle. | Для получения подробной информации, см. В Oracle. |
DLI | Данные можно импортировать в DLI. | Для получения подробной информации, см. В DLI. |
Elasticsearchor Cloud Search Service (CSS) | Данные могут быть импортированы в CSS. | Для получения подробных сведений см К Elasticsearch/CSS. |
MRS Hudi | Данные могут быть быстро импортированы в MRS Hudi. | Для получения подробных сведений см К MRS Hudi. |
MRS ClickHouse | Данные могут быть быстро импортированы в MRS ClickHouse. | Для получения подробных сведений см К MRS ClickHouse. |
MongoDB | Данные могут быть быстро импортированы в MongoDB. NOTE: Источники данных MongoDB с включённым SSL не поддерживаются. | Для получения подробных сведений см К MongoDB. |
Если файлы мигрируют между FTP, SFTP, OBS и HDFS и исходный источник Формат файла установлен в Бинарный, файлы будут переданы напрямую, без сопоставления полей.
В других сценариях CDM автоматически сопоставляет поля исходной таблицы и целевой таблицы. Необходимо проверить, корректны ли сопоставление и формат времени. Например, проверьте, может ли тип поля источника быть преобразован в тип поля назначения.
Рисунок 2 Сопоставление полей

и выбрать Добавить новое поле чтобы добавить новые поля и обеспечить полную импортируемую в пункт назначения миграции данных.
чтобы добавить пользовательские константы, переменные и выражения.
а затем нажмите Создать конвертер.Рисунок 3 Создание конвертера

CDM поддерживает следующие конвертеры:
Например, если вы хотите преобразовать 12345678910 в 123****8910, настройте параметры следующим образом:
Если Использовать SQL-запрос установлено в Да в конфигурации исходного джобы конверторы не могут быть созданы.
Рисунок 4 Параметры задачи

Таблица 3 описывает связанные параметры.
Параметр | Описание | Пример значения |
|---|---|---|
Retry upon Failure | Вы можете выбрать Повторить 3 раза или Никогда. Рекомендуется настроить автоматический повтор только для задач миграции файлов или задач миграции баз данных с Импорт в промежуточную таблицу включено, чтобы избежать несоответствия данных, вызванного повторными записями. NOTE: Если вы хотите задать параметры в DataArts Studio DataArts Factory для планирования задачи миграции CDM, не настраивайте этот параметр. Вместо этого задайте параметр Retry upon Failure для узла CDM в DataArts Factory. | Никогда |
Задача | Выберите группу, в которой находится задача. Группа по умолчанию — DEFAULT. На Управление задачами странице, задачи могут отображаться, запускаться или экспортироваться по группам. | DEFAULT |
Запуск расписания | Если вы выберете Да, вы можете установить время начала, цикл и период действия задания. Подробнее см. Настройка запланированного CDM задания. NOTE: Если вы используете DataArts Studio DataArts Factory для планирования задания миграции CDM и настройки этого параметра, обе конфигурации вступают в силу. Чтобы обеспечить единообразную логику сервиса и избежать конфликтов расписаний, включите планирование заданий в DataArts Factory и не настраивайте запланированную задачу для задания в DataArts Migration. | Нет |
Параллельные извлекатели | Максимальное количество потоков задания для чтения данных из источника NOTE: Количество параллельных потоков может быть меньше или равно значению этого параметра для некоторых источников данных, которые не поддерживают параллельное извлечение, например, CSS и ClickHouse. CDM переносит данные через задания миграции данных. Он работает следующим образом:
Устанавливая подходящие значения для этого параметра и Максимального количества параллельных извлекателей параметра, вы можете ускорить миграцию. Настройте количество параллельных извлекателей в соответствии со следующими правилами:
Максимальное количество одновременных экстракторов для кластера зависит от флейвора кластера CDM. Рекомендуется установить максимальное количество одновременных экстракторов в два раза больше количества vCPU кластера CDM. Например, максимальное количество одновременных экстракторов для кластера с 8 vCPU и 16 GB памяти равно 16. | 1 |
Одновременные загрузчики | Количество загрузчиков, которые будут выполняться одновременно Этот параметр отображается только в том случае, когда HBase или Hive используется в качестве целевого источника данных. | 3 |
Количество повторов разбиения | Количество повторов, когда разбиение не удалось выполнить. Значение 0 указывает, что повтор не будет выполнен. | 0 |
Записать грязные данные | Определяет, записывать ли грязные данные. По умолчанию этот параметр установлен в Нет. Грязные данные в CDM относятся к данным в неверном формате. Если исходные данные содержат грязные данные, рекомендуется включить эту функцию. В противном случае задание миграции может завершиться ошибкой. ПРИМЕЧАНИЕ: Грязные данные могут быть записаны только в пути OBS. Поэтому этот параметр доступен только при наличии ссылки OBS. | Да |
Записать ссылку на грязные данные | Этот параметр отображается только когда Записать грязные данные установлен в Да. Можно выбрать только ссылку OBS. | obs_link |
OBS Бакет | Этот параметр отображается только когда Записать ссылку на грязные данные является ссылкой на OBS. Имя OBS бакета, в который будут записаны грязные данные. | dirtydata |
Каталог грязных данных | Этот параметр отображается только когда Записать грязные данные установлен на Да. Грязные данные хранятся в каталоге для хранения грязных данных в OBS. Грязные данные сохраняются только когда этот параметр настроен. Вы можете перейти в этот каталог, чтобы запросить данные, которые не удалось обработать или которые были отфильтрованы во время выполнения задачи, и проверить исходные данные, которые не соответствуют правилам конвертации или очистки. | /user/dirtydir |
Max. Ошибочных записей в одном шарде | Этот параметр отображается только когда Записать грязные данные установлен на Да. Когда количество записей с ошибками в отдельной карте превышает верхний предел, задание автоматически завершается, и импортированные данные нельзя откатить. Рекомендуется использовать временную таблицу в качестве таблицы назначения. После импорта данных переименуйте таблицу или объедините её с окончательной таблицей данных. | 0 |
Троттлинг | Включение троттлинга уменьшает нагрузку чтения на источник. Он контролирует скорость передачи CDM, а не трафик NIC. ПРИМЕЧАНИЕ:
| Да |
byteRate(MB/s) | Максимальная скорость чтения/записи задания Регулирование может быть включено для задачи миграции данных в Hive, DLI, JDBC, OBS или HDFS. Если разрешено несколько одновременно выполняемых задач, фактическая максимальная скорость может быть рассчитана как значение этого параметра, умноженное на количество одновременно выполняемых задач. ПРИМЕЧАНИЕ: Скорость — целое число, большее 1. | 20 |
Размер кэша промежуточной очереди (MB) | Объём данных, который может кэшировать промежуточная очередь. Диапазон значений от 1 до 500. Значение по умолчанию — 64. Если объём данных строки превышает значение этого параметра, миграция может завершиться с ошибкой. Если значение этого параметра слишком велико, кластер может работать некорректно. Установите подходящее значение для этого параметра и используйте значение по умолчанию (64) если не указано иное. | 64 |
Статус задания может быть Новый, Ожидание, Загрузка, Выполняется, Сбой, Успешно, или Остановлен.
Ожидание указывает, что задание ожидает планирования системой, и Загрузка указывает, что данные для миграции анализируются.