Быстрый старт
Быстрый старт описывает первые шаги по работе с DataArts Studio на примере миграции данных из одного бакета OBS в другой в случае, если эти бакеты расположены в разных тенантах. За миграцию данных в этом сценарии отвечает CDM — компонент сервиса DataArts Studio.
Перед началом работы
-
C помощью Cloud Trace Service включите запись операций, выполняемых в консоли управления или посредством вызовов API. Аудит фиксируемых операций позволяет убедиться, что не выполняются недопустимые или несанкционированные действия.
-
Создайте IAM-пользователя и выдайте ему необходимые разрешения.
Создавать инстансы DataArts Studio могут только пользователи с правами администратора DAYU Administrator или Tenant Administrator. В целях безопасности управляйте инстансами DataArts Studio отдельным IAM-пользователем с правами DAYU Administrator.
-
CDM будет копировать в него данные из исходного бакета, расположенного в другом тенанте.
Подготовка исходного бакета
Эти шаги выполняются в тенанте с исходным бакетом.
-
Скачайте ключи доступа AK/SK к исходному бакету.
-
Скопируйте и сохраните адрес точки подключения к исходному бакету. Для этого откройте бакет и в блоке Basic Information скопируйте адрес рядом с параметром Endpoint.
Создание инстанса
-
Войдите в консоль управления Advanced:
-
В списке сервисов выберите DataArts Studio.
-
Нажмите Create Instance.
-
Выберите Enterprise Project, к которому будет относиться инстанс.
Примечание -
В поле Instance Name введите название инстанса.
-
Нажмите Create Now.
-
В окне Authorize Access активируйте опцию OBS и нажмите Authorize.
Подготовка кластера CDM
-
Нажмите Create на карточке инстанса DataArts Studio.
-
Выберите CDM в параметре Package.
-
Укажите AZ — зону доступности.
-
Задайте название кластера в поле Cluster.
-
Выберите спецификацию кластера в поле Instance Type.
-
Выберите виртуальный ЦОД VPC, подсеть Subnet и группу безопасности Security Group.
-
Нажмите Create Now и подтвердите создание кластера.
-
Откройте инстансу DataArts Studio доступ в интернет. Для этого:
-
Создайте NAT-шлюз в той же подсети, где расположен кластер CDM.
-
Добавьте SNAT-правило и привяжите к NAT-шлюзу созданный ранее внешний IP-адрес.
Создание коннекторов
Перед созданием задачи миграции создайте коннекторы, позволяющую кластеру CDM считывать данные из исходного бакета в другом тенанте и записывать их в целевой бакет в вашем тенанте.
-
На странице Cluster Management выберите Job Management → Links → Create Link.
-
Выберите коннектор типа «Object Storage Service (OBS)» и нажмите Next.
-
На странице настройки коннектора для исходного бакета задайте его параметры:
-
Name — введите название коннектора.
-
Endpoint — введите адрес точки подключения (endpoint) к источнику данных.
-
Access Key ID — вставьте идентификатор секретного ключа.
-
SK — вставьте секретный ключ к бакету.
См.такжеИнструкция по созданию ключей доступа для ресурсов Object Storage Service.
-
-
Нажмите Test для проверки коннектора или нажмите Save, и система автоматически проверит соединение и сохранит коннектор после успешной проверки.
ПримечаниеЕсли транспортная сеть имеет низкую пропускную способность или источник данных имеет слишком большой размер, проверка коннектора может занять от 30 до 60 секунд.
-
Нажмите Create Link и создайте коннектор для целевого бакета по аналогии с коннектором для исходного бакета.
Создание и запуск задания на миграцию
Для создания задания на миграцию:
-
Выберите Job Management → Table/File Migration → Create Job на странице Cluster Management.
-
Укажите настройки задания на шаге Configure Basic Information:
-
Job Name — введите название задания.
-
Source Link Name — выберите источник, из которого мигрируете данные.
-
Destination Link Name — выберите конечную точку, в которую мигрируете данные.
-
-
Укажите в блоке Source Job Configuration:
-
Bucket Name — название бакета, из которого мигрируете данные.
-
Source Directory/File — путь к каталогу, из которого мигрируете данные. Например, укажите «/», если нужно мигрировать содержимое всего бакета.
-
File Format — формат данных, в котором необходимо выполнить миграцию данных из источника. Для переноса всех файлов выберите Binary.
-
-
Укажите в блоке Destination Job Configuration:
-
Bucket Name — название бакета, в который мигрируете данные.
-
Write Directory — путь к папке OBS, в который мигрируете данные, например, корневую папку бакета «/».
-
File Format — формат данных, в котором мигрируете данные. Для переноса всех файлов выберите Binary.
-
Duplicate File Processing Method — метод обработки дубликатов файлов. Выберите: Skip.
-
-
Нажмите Next, чтобы завершить создание задания на миграцию.
-
Задайте расписание для выполнения задания на шаге Configure Task:
-
Retry if Failure — количество повторных попыток при сбое. Выберите: Never или Retry 3 times if failed.
-
Group — выберите группу, в которой находится задание (группа по умолчанию — DEFAULT).
-
Schedule Execution — включите возможность выполнения задания по расписанию.
-
-
Нажмите Save and Run, чтобы сохранить и сразу запустить задание. Нажмите Save, чтобы только сохранить задание.
Задание можно запустить в любой момент — для этого на вкладке Table/File Migration нажмите Run.
Просмотр результатов миграции
-
Статус запущенного задания можно просмотреть на вкладке Table/File Migration.
-
После успешного завершения миграции откройте целевой бакет в сервисе OBS и убедитесь, что он содержит файлы из исходного бакета.
Если вы включили запись операций в сервисе CTS, то вы сможете смотреть, кто создавал или запускал задание на миграцию.
- Перед началом работы
- Подготовка исходного бакета
- Создание инстанса
- Подготовка кластера CDM
- Создание коннекторов
- Создание и запуск задания на миграцию
- Просмотр результатов миграции