tocdepth

2

Быстрый старт

Быстрый старт описывает первые шаги по работе с DataArts Studio на примере миграции данных из одного бакета OBS в другой в случае, если эти бакеты расположены в разных тенантах. За миграцию данных в этом сценарии отвечает CDM — компонент сервиса DataArts Studio.

Перед началом работы

  1. C помощью Cloud Trace Service включите запись операций, выполняемых в консоли управления или посредством вызовов API. Аудит фиксируемых операций позволяет убедиться, что не выполняются недопустимые или несанкционированные действия.

  2. Создайте IAM-пользователя и выдайте ему необходимые разрешения.

    Создавать инстансы DataArts Studio могут только пользователи с правами администратора DAYU Administrator или Tenant Administrator. В целях безопасности управляйте инстансами DataArts Studio отдельным IAM-пользователем с правами DAYU Administrator.

  3. Создайте целевой бакет OBS.

    CDM будет копировать в него данные из исходного бакета, расположенного в другом тенанте.

Подготовка исходного бакета

Эти шаги выполняются в тенанте с исходным бакетом.

  1. Скачайте ключи доступа AK/SK к исходному бакету.

  2. Скопируйте и сохраните адрес точки подключения к исходному бакету. Для этого откройте бакет и в блоке Basic Information скопируйте адрес рядом с параметром Endpoint.

Создание инстанса

  1. Войдите в консоль управления Advanced:

  2. Чтобы открыть список сервисов, нажмите Service List.

  3. Перейдите в раздел EI Enterprise Intelligence → DataArts Studio.

  4. Нажмите Create Instance.

  5. Выберите Enterprise Project, к которому будет относиться инстанс.

    Примечание

    Создание проекта

  6. В поле Instance Name введите название инстанса.

  7. Нажмите Create Now.

  8. В окне Authorize Access активируйте опцию OBS и нажмите Authorize.

Подготовка кластера CDM

  1. Нажмите Create на карточке инстанса DataArts Studio.

  2. Выберите CDM в параметре Package.

  3. Укажите AZ — зону доступности.

  4. Задайте название кластера в поле Cluster.

  5. Выберите спецификацию кластера в поле Instance Type.

  6. Выберите виртуальный ЦОД VPC, подсеть Subnet и группу безопасности Security Group.

  7. Нажмите Create Now и подтвердите создание кластера.

  8. Откройте инстансу DataArts Studio доступ в интернет. Для этого:

Создание коннекторов

Перед созданием задачи миграции создайте коннекторы, позволяющую кластеру CDM считывать данные из исходного бакета в другом тенанте и записывать их в целевой бакет в вашем тенанте.

  1. На странице Cluster Management выберите Job Management → Links → Create Link.

  2. Выберите коннектор типа «Object Storage Service (OBS)» и нажмите Next.

  3. На странице настройки коннектора для исходного бакета задайте его параметры:

    • Name — введите название коннектора.

    • Endpoint — введите адрес точки подключения (endpoint) к источнику данных.

    • Access Key ID — вставьте идентификатор секретного ключа.

    • SK — вставьте секретный ключ к бакету.

    См.также

    Инструкция по созданию ключей доступа для ресурсов Object Storage Service.

  4. Нажмите Test для проверки коннектора или нажмите Save, и система автоматически проверит соединение и сохранит коннектор после успешной проверки.

    Примечание

    Если транспортная сеть имеет низкую пропускную способность или источник данных имеет слишком большой размер, проверка коннектора может занять от 30 до 60 секунд.

  5. Нажмите Create Link и создайте коннектор для целевого бакета по аналогии с коннектором для исходного бакета.

Создание и запуск задания на миграцию

Для создания задания на миграцию:

  1. Выберите Job Management → Table/File Migration → Create Job на странице Cluster Management.

  2. Укажите настройки задания на шаге Configure Basic Information:

    • Job Name — введите название задания.

    • Source Link Name — выберите источник, из которого мигрируете данные.

    • Destination Link Name — выберите конечную точку, в которую мигрируете данные.

  3. Укажите в блоке Source Job Configuration:

    • Bucket Name — название бакета, из которого мигрируете данные.

    • Source Directory/File — путь к каталогу, из которого мигрируете данные. Например, укажите «/», если нужно мигрировать содержимое всего бакета.

    • File Format — формат данных, в котором необходимо выполнить миграцию данных из источника. Для переноса всех файлов выберите Binary.

  4. Укажите в блоке Destination Job Configuration:

    • Bucket Name — название бакета, в который мигрируете данные.

    • Write Directory — путь к папке OBS, в который мигрируете данные, например, корневую папку бакета «/».

    • File Format — формат данных, в котором мигрируете данные. Для переноса всех файлов выберите Binary.

    • Duplicate File Processing Method — метод обработки дубликатов файлов. Выберите: Skip.

  5. Нажмите Next, чтобы завершить создание задания на миграцию.

  6. Задайте расписание для выполнения задания на шаге Configure Task:

    • Retry if Failure — количество повторных попыток при сбое. Выберите: Never или Retry 3 times if failed.

    • Group — выберите группу, в которой находится задание (группа по умолчанию — DEFAULT).

    • Schedule Execution — включите возможность выполнения задания по расписанию.

  7. Нажмите Save and Run, чтобы сохранить и сразу запустить задание. Нажмите Save, чтобы только сохранить задание.

    Задание можно запустить в любой момент — для этого на вкладке Table/File Migration нажмите Run.

Просмотр результатов миграции

  1. Статус запущенного задания можно просмотреть на вкладке Table/File Migration.

  2. После успешного завершения миграции откройте целевой бакет в сервисе OBS и убедитесь, что он содержит файлы из исходного бакета.

Если вы включили запись операций в сервисе CTS, то вы сможете смотреть, кто создавал или запускал задание на миграцию.

Запустили Evolution free tier
для Dev & Test
Получить