Миграция данных из S3 в сервис OBS средствами CDM
Cloud Data Migration (CDM) — это компонент сервиса DataArts Studio.
CDM — один из инструментов миграции в облако Advanced, который позволяет мигрировать данные из разных источников. Например, из объектного хранилища, SQL/NoSQL баз данных данных или решений Big Data.
С помощью этой инструкции можно перенести бакет из S3-совместимого объектного хранилища в бакет облачного сервиса Object Storage Service.
Перед началом работы
Проверьте наличие доступа в тенант Advanced и к сервису DataArts Studio:
-
Войдите в консоль управления Advanced:
-
В списке сервисов выберите DataArts Studio.
Если консоль и сервис доступны, перейдите к созданию ключей.
Чтобы создать Access Key и Secret Key:
-
Нажмите на логин пользователя в правом верхнем углу и перейдите в раздел My Credentials → Access Keys.
-
Нажмите Create Access Key.
-
Чтобы сохранить Access Key и Secret Key, нажмите Download. На компьютер будет загружен файл credentials.csv.
Предварительные требования выполнены.
Создание инстанса DataArts Studio
-
В списке сервисов выберите DataArts Studio.
-
При появлении окна с доступом к облачным ресурсам, активируйте параметры ALL, OBS и нажмите Authorize:
-
Чтобы создать инстанс, нажмите Create Instance.
-
Задайте параметры:
-
Region — выберите регион, в котором будет создан инстанс;
-
Enterprise Project — выберите проект, в котором будет создан инстанс;
-
Instance Name — задайте название инстанса.
-
-
Нажмите Create Now.
Инстанс DataArts Studio создан.
Создание инстанса CDM
-
В консоли сервиса DataArts Studio в разделе Available Instances нажмите Create:
-
Задайте параметры:
-
Package — выберите CDM;
-
AZ — выберите зону доступности, в которой будет создан инстанс;
-
Workspace — выберите пространство;
-
Cluster — задайте название инстанса CDM;
-
Instance — выберите тип флейвора для инстанса CDM;
-
VPC — выберите виртуальную сеть, в которой будет размещен инстанс;
-
Subnet — выберите подсеть, в которой будет размещен инстанс;
-
Security Group — выберите группу безопасности.
-
-
Нажмите Create Now.
Инстанс CDM создан.
Настройка подключений к источникам данных
Для миграции данных нужно настроить подключение к двум источникам:
-
к целевому хранилищу в OBS;
-
к исходному S3-хранилищу.
Настройка подключения к OBS
-
В консоли сервиса DataArts Studio выберите пространство, в котором был создан инстанс CDM, и нажмите Data Integration.
-
В разделе Cluster Management нажмите Job Management в строке инстанса.
-
Переключитесь на вкладку Links и нажмите Create Link.
-
В списке источников данных выберите Object Storage Service (OBS) и нажмите Next.
-
Задайте параметры:
-
Name — название источника данных;
-
OBS Endpoint — IP-адрес или доменное имя точки доступа к сервису OBS (по умолчанию — obs.ru-moscow-1.hc.sbercloud.ru);
-
Port — порт доступа к сервису OBS (по умолчанию — 443);
-
OBS Bucket Type — тип доступа к бакету OBS (Object Storage или Parallel File System);
-
AK — Access Key из файла credentials.csv для подключения к сервису OBS;
-
SK — Secret Key из файла credentials.csv для подключения к сервису OBS.
-
-
Чтобы проверить подключение, нажмите Test.
-
Чтобы сохранить источник данных, нажмите Save.
Подключение к целевому хранилищу OBS сохранено.
Настройка подключения к хранилищу S3
-
В консоли сервиса DataArts Studio выберите пространство, в котором был создан инстанс CDM, и нажмите Data Integration.
-
В разделе Cluster Management нажмите Job Management в строке инстанса.
-
Переключитесь на вкладку Links и нажмите Create Link.
-
В списке источников данных выберите Amazon S3 и нажмите Next.
-
Задайте параметры:
-
Name — название источника данных;
-
Endpoint — IP-адрес или доменное имя для подключения к сервису S3;
-
SecretID — ключ доступа для подключения к сервису S3;
-
SK — секретный ключ доступа к сервису S3.
-
-
Чтобы проверить подключение, нажмите Test.
-
Чтобы сохранить источник данных, нажмите Save.
Подключение к исходному хранилищу S3 сохранено.
Настройка задания миграции в сервисе CDM
-
В разделе Cluster Management нажмите Job Management в строке инстанса.
-
На вкладке Table/File Migration нажмите Create Job.
-
Задайте параметры:
-
Job Name — задайте название задания миграции;
-
Source Link Name — в качестве источника данных выберите хранилище S3, откуда нужно перенести данные;
-
Destination Link Name — выберите целевое хранилище OBS, в которое нужно перенести данные;
-
Bucket Name — укажите названия исходного и целевого бакетов в соответствующих полях;
-
Source Directory/File — укажите каталоги и файлы, которые нужно перенести в OBS;
-
Write Directory — укажите каталог, в который будут записаны новые объекты;
-
File Format — выберите формат файлов, которые будут перенесены (при миграции бакета целиком выберите Binary).
-
-
Нажмите Next.
-
При необходимости задайте дополнительные параметры:
-
Retry if failed — повторный запуск задания в случае возникновения ошибки;
-
Schedule Execution — настройка запуска по расписанию.
-
-
Чтобы сохранить задание миграции, нажмите Save.
-
Чтобы запустить задание, нажмите Run.
-
Чтобы просмотреть результаты миграции, нажмите Historical Record в строке задания.
Миграция завершена.
- Перед началом работы
- Создание инстанса DataArts Studio
- Создание инстанса CDM
- Настройка подключений к источникам данных
- Настройка подключения к хранилищу S3
- Настройка задания миграции в сервисе CDM