Миграция данных в облако

Распространение технологий мобильного интернета вызвало взрывной рост объемов данных. Форматы данных и требования к их обработке также претерпели значительные изменения. Кроме того, распределенные приложения и хранилища данных стали самыми серьезными препятствиями для цифровой трансформации предприятий. Главные причины появления разрозненных хранилищ данных:

  • Информационные каналы разных подразделений генерируют разные форматы хранения данных.

  • Подразделения описывают данные в соответствии со своим направлением бизнеса. В результате стандартизованного описания данных не существует, и одни и те же данные имеют разный смысл.

    С точки зрения управления данными мы можем столкнуться с такими сложностями, как разрозненные ресурсы, недоступность данных и изолированные приложения.

    ../../_images/data-migration-to-cloud__challenges.svg

Наиболее актуальными задачами, которые предприятиям предстоит решить, являются следующие:

  • Оперативная интеграция новых и исторических данных, чтобы избежать разрозненности информации.

  • Обработка и анализ различных типов данных с различной плотностью информации в режиме реального времени экономичным и эффективным способом согласно требованиям бизнеса.

  • Превращение данных в ценные активы и создание возможности для инноваций на основе данных, чтобы стимулировать развитие бизнеса.

Платформа управления данными и аналитики

Озеро данных представляет собой централизованный репозиторий нового типа, способный хранить как структурированные, так и неструктурированные данные любого масштаба и не требующий предварительной структуризации данных.

Озера данных

Озера данных первого поколения строятся на основе распределенной архитектуры экосистемы Apache Hadoop с открытым исходным кодом. Для размещения и обработки больших объемов первичных данных они используют стандартное оборудование, установленное в локальных центрах обработки данных. Распределенная файловая система Hadoop (HDFS) позволяет заказчикам хранить данные в их естественном виде. Администраторы озер данных первого поколения должны заниматься решением таких сложных задач, как планирование емкости, распределение ресурсов и оптимизация производительности. Из-за своей сложности, медленной окупаемости и большой нагрузки, связанной с управлением системой, многие проекты по созданию локальных озер данных не оправдали ожиданий.

Озера данных нового поколения

В основе озер данных нового поколения лежат облачные объектные хранилища. Облачные инфраструктуры позволяют создавать разнообразные высокопроизводительные, масштабируемые и надежные аналитические подсистемы и обеспечивают экономию за счет масштаба, что делает озера данных более выгодным и гибко расширяемым решением.

Озера данных нового поколения от Cloud.ru строятся на базе объектного хранилища OBS. Их особенностью является разделение функций хранения и вычислительных возможностей. Это означает, что вычислительные ресурсы и ресурсы хранения можно масштабировать независимо друг от друга, не допуская несбалансированного выделения этих ресурсов какому-либо единственному узлу.

Озеро данных представляет собой платформу для работы с большими данными, на которой внутри предприятия объединяются источники данных в разных форматах. Оно обеспечивает доступ к данным и вычислительным мощностям под строгим контролем механизмов безопасности. Озеро данных — это большой репозиторий с множеством небольших витрин данных. Наиболее важная отличительная черта озер данных связана с тем, что они позволяют проанализировать один и тот же фрагмент данных несколькими способами.

Развитие озер данных можно разделить на три этапа:

  • Озеро данных в автономном режиме. Данные попадают в озеро более чем через 15 минут после их создания.

  • Озеро данных в реальном времени. Данные попадают в озеро в реальном (как правило, менее чем через одну минуту после их создания) или квазиреальном времени (1–15 минут после создания).

  • Логическое озеро данных. Данные интегрируются в виртуальное озеро данных, образованное из множества изолированных физических платформ данных.

../../_images/data-migration-to-cloud__data-lakes.svg

Специализированные витрины данных хранят данные, представленные в особых форматах и предназначенные для запросов и анализа в специфических сценариях. Они являются важным дополнением к озеру данных. В соответствии с разнообразными требованиями к анализу данных заказчики могут выбирать различные витрины данных. Например, те из них, кто предъявляет сверхвысокие требования к производительности, могут выбрать базу данных OLAP с обработкой в реальном времени или резидентную базу данных, а те, для кого важнее удовлетворить требования существующих приложений, выбирают поисковые базы данных.

Если данные заказчика используются только для запросов и анализа определенного типа, то специализированные витрины данных не зависят от озера данных. Но в настоящее время такие случаи встречаются нечасто, и специализированные витрины данных обычно используются в сочетании с озером данных.

Помимо основных характеристик хранилищ данных, витрины хранилищ могут обладать следующими свойствами:

  • Они имеют небольшие размеры, отличаются гибкостью и могут быть организованы различными способами, например, по приложениям, подразделениям или регионам.

  • Бизнес-подразделения, как правило, определяют подходы к их разработке, осуществляют проектирование, реализацию, управление и обслуживание.

  • Их можно реализовать быстро и с небольшими затратами. Инвестиции в них окупаются за короткий срок.

  • Они включают в себя целый ряд инструментов.

Для снижения затрат рекомендуется хранить исходные и детализированные данные в объектном хранилище OBS, а обобщенные — в DWS.

Специализированные витрины данных в зависимости от сценариев применения подразделяются на витрины реального времени и автономные витрины. Витрины реального времени используются вместе с Kafka и Flink. Типичный пример — витрина для запросов банковских транзакций.

Интеллектуальное озеро данных Cloud FusionInsight

Это озеро данных нового поколения использует все преимущества облачных технологий, такие как скорость развертывания, автоматическое масштабирование, экономически выгодное разделение ресурсов хранения и вычислений и возможности бессерверного анализа данных. Это решение обеспечивает предприятиям возможность создать высокомасштабируемую и доступную экосистему озера данных нового поколения, что позволит сократить время и затраты на эксплуатацию и обслуживание и выделить больше ресурсов на анализ данных и развитие бизнеса.

../../_images/data-migration-to-cloud__cloud-fusioninsight.svg

Платформа FusionInsight включает в себя широкий спектр аналитических сервисов, способных адаптироваться к любым сценариям анализа данных. Cloud.ru предлагает экономичные и масштабируемые сервисы для всех этапов работы с данными — сбора, управления, хранения, анализа данных, журналов и потоков.

  • Прежде всего, перед использованием платформы больших данных понадобится выполнить миграцию. Для этого можно воспользоваться различными инструментами интеграции в зависимости от типа данных. Например, для импорта данных в реальном времени можно применить сервис DIS в составе сервиса DAYU. Для перемещения больших массивов данных на платформу Cloud.ru подойдет решение CDM в составе сервиса DAYU. Для миграции баз данных — сервис репликации DRS.

    DIS позволяет легко осуществлять сбор, обработку и репликацию потоковых данных в реальном времени и благодаря этому оперативно реагировать на поступающую информацию. DIS можно использовать совместно с широким рядом инструментов сбора данных сторонних разработчиков. Кроме того, этот сервис обеспечивает различные коннекторы, агенты и наборы средств разработки (SDK) для облачных сервисов. Сервис DIS применим в таких сценариях, как мониторинг устройств, выдача рекомендаций в реальном времени и анализ журналов в таких отраслях, как IoT, интернет и СМИ.

    Сведения о CDM и DRS содержатся В разделе «Инструменты для миграции больших данных».

  • Данные, перенесенные в облако, рекомендуется хранить в системе OBS. Если данные небольшого размера необходимо своевременно обрабатывать, их можно хранить также в файловой системе HDFS.

    Сервис объектного хранилища OBS представляет собой безопасное, надежное и недорогое хранилище данных неограниченной емкости. OBS обеспечивает хранение разных типов данных, что позволяет удовлетворить любые потребности заказчиков.

  • Что касается обработки данных, для разных сценариев предлагается использование следующих компонентов. Для потоковой обработки можно воспользоваться сервисом DAYU, для автономной пакетной обработки — сервисом MRS или DLI. Для интерактивного анализа данных или получения бизнес-аналитики — сервисом DWS, а для поиска данных — сервисом CSS.

    MRS предлагает эффективные сервисы для больших данных из экосистемы Hadoop, такие как ClickHouse, Spark, Flink, Kafka и HBase, и предусматривает поддержку озер данных, хранилищ данных, средств бизнес-аналитики. MRS доступен как в гибридном, так и в публичном облаке. В гибридном облаке MRS обеспечивает возможность создания автономных и логических озер данных, а также озер данных реального времени в облачно-ориентированной архитектуре, упрощая модернизацию систем заказчиков. В общедоступном облаке MRS помогает быстро создать экономичную, гибкую, открытую и надежную универсальную платформу больших данных.

    DWS представляет собой полностью управляемый облачный сервис хранилища данных корпоративного класса. Он не требует затрат на эксплуатацию и поддержку, совместим с экосистемой PostgreSQL и поддерживает горизонтальное масштабирование кластеров в режиме онлайн и загрузку данных из нескольких источников. Он помогает предприятиям эффективным и не дорогим способом анализировать огромные объемы данных.

    Сервис DLI для бессерверной обработки и анализа данных на базе экосистемы Apache Spark, Apache Flink и openLooKeng (на базе Presto).

    CSS представляет собой онлайн-сервис распределенного поиска на базе системы Elasticsearch. Он обеспечивает возможность поиска по нескольким условиям, сбора статистики и генерации отчетов для структурированных и неструктурированных текстовых данных и совместим с API Elasticsearch. С помощью CSS можно создавать формы поиска для веб-сайтов или приложений, что упрощает поиск документов и других данных. Кроме того, он позволяет создать платформу для мониторинга и анализа логов, а также для обслуживания и анализа эксплуатационных данных.

    См.также

    Более подробную информацию можно найти на странице: Cloud Search Service (en).

    Результаты анализа больших данных, в том числе анализа для отчетности, анализа OLAP, интеллектуального анализа пути клиента и тегирования пользователей можно использовать для решения задач корпоративного управления и принятия обоснованных бизнес-решений.

Типовые сценарии использования озер данных

Классический режим работы — это режим, при котором имеется хранилище данных реального времени, а данные в него поступают в основном из баз данных.

Хранилище данных и отчетная аналитика

Хранилище агрегирует данные из разных бизнес-систем (таких как ERP, CRM, OA, системы финансового учета), осуществляет обработку, управление, а также производит аналитику на разных уровнях данных. Хранилища данных устраняют информационную разобщенность между подразделениями, помогают создать систему аналитики и принятия решений и обеспечивают данные для анализа и обоснования решений.

../../_images/data-migration-to-cloud__data-warehouse.svg

Данное решение использует в основном DWS. Оно обладает следующими особенностями:

  • Универсальная платформа бизнес-аналитики для больших данных. Платформа для тщательного и эффективного сбора и анализа данных и получения аналитики, которая систематизирует данные из множества бизнес-систем и предоставляет полный стек технологических возможностей.

  • Эффективная разработка и простота управления. DAYU обеспечивает возможность наглядного, удобного, гибкого и эффективного создания и планирования ETL задач (извлечение, преобразование и загрузка данных).

  • Продуманные и надежные инструменты бизнес-аналитики. Cloud.ru в сотрудничестве с ведущими разработчиками средств бизнес-анализа создает продуманные, надежные, гибкие и эффективные визуальные инструменты бизнес-аналитики, которые значительно упрощают оперативный анализ и позволяют быстрее монетизировать преимущества.

Интегрированное решение для потоковой, пакетной обработки и одиночных запросов

Это решение в основном применяется для обработки журналов событий, которые часто используются в системах анализа клиентского опыта и формирования продуктовых рекомендаций. Журналы событий с помощью брокера сообщений Kafka передаются на платформу Flink для обработки в реальном времени. Необходимые Flink таблицы измерений хранятся в базе DWS, которая позволяет Flink выполнять миллионы запросов в секунду, сохраняет результаты анализа и дает бизнес-сервисам возможность делать запросы к этим результатам.

Spark представляет собой систему пакетной обработки. Отчетные данные, обработанные Spark, сохраняются в базе DWS или OBS и считываются при помощи внешних таблиц DWS.

../../_images/data-migration-to-cloud__integrated-solution.svg

Данное решение использует в основном DWS. Оно обладает следующими особенностями:

  • Сервис DLI — Flink поддерживает потоковую обработку данных и может эффективно обрабатывать журналы событий.

  • Сервис DWS поддерживает эффективную индексацию, кластеризацию и позволяет выполнять миллионы запросов в секунду к таблицам измерений Flink.

  • DWS может напрямую читать данные из OBS, так что к данным обработанным с помощью Spark можно делать запросы без выделения дополнительного хранилища.

  • DWS позволяет самостоятельно выполнять анализ данных и выполнять запросы к отчетам, предоставляя высокую производительность, многопоточность и гибкие возможности для создания отчетов.

Импорт данных из СУБД в озеро Данных в реальном времени

Инкрементные данные из баз данных можно в реальном времени импортировать в озеро данных.

DRS обеспечивает функции отслеживания измененных данных (CDC) для TP/HTAP баз данных и отправки их в реальном времени в кластер Kafka для последующего потребления в озере данных.

../../_images/data-migration-to-cloud__real-time-import_data.svg
  1. CDC импортирует данные в озеро с помощью DRS и Kafka.

    DIS/DMS обеспечивает Kafka канал для сервисов больших данных, таких как MRS и DLI.

  2. Функция CDC базы данных с помощью DRS и Kafka в реальном времени импортирует данные в DWS.

    • Импорт напрямую. Этот режим используется в сценариях, где необходимо синхронизировать не более 3000 строк данных в секунду. DRS интерпретирует инкрементные данные реального времени в исходной базе данных и записывает их непосредственно в DWS.

    • Импорт через буфер. Этот режим используется в сценариях, где необходимо синхронизировать более 3000 строк данных в секунду. DRS получает из исходной базы данных инкрементные данные реального времени и помещает их во внутренний кластер сообщений Kafka. Затем встроенный в DWS коннектор GDS-Kafka записывает данные в таблицы DWS.

Импорт сообщений и журналов событий в озеро данных в реальном времени

DIS позволяет создавать бессерверные кластеры сообщений, а также собирать данные и выгружать их в OBS или таблицы DLI.

LTS обеспечивает функции эксплуатации и обслуживания приложений, например, сбор информации из журналов событий, обработка запросов и их анализ. Кроме того, LTS позволяет выгружать данные журналов для дальнейшего анализа в компоненты озера данных, такие как OBS, DIS и таблицы DLI.

../../_images/data-migration-to-cloud__real-time-import_log-collection.svg
Импорт в озеро данных в реальном времени с помощью DIS потоковых данных, таких как сообщения.
  • DIS обеспечивает создание внесерверных кластеров сообщений с каналами сообщений для выгрузки их в облачные сервисы больших данных, такие как MRS и DLI.

  • DIS также позволяет собирать и выгружать по расписанию данные в сервисы экосистемы больших данных, например, OBS или DLI.

Импорт потоковых данных, таких как журналы приложений, в озеро данных с помощью LTS
  • LTS обеспечивает функции сбора журналов, эксплуатации и обслуживания, а также позволяет выгружать журналы в DIS/DMS, OBS и DLI для дальнейшего анализа.

Миграция больших данных

Миграция больших данных — часть общего процесса миграции, осуществляемая в соответствии с принципами миграции в облачные инфраструктуры и логикой управления проектом.

Процесс

С точки зрения управления проектом миграция больших данных включает четыре этапа: бизнес-исследование, проектирование решения для миграции, реализация миграции и обеспечение эффективности миграции.

../../_images/data-migration-to-cloud__big-data-migration_process.svg

Проектирование решения для миграции

На этапе обследования бизнес-процессов основным действующим лицом является заказчик, а компания Cloud.ru оказывает поддержку. Они должны совместно провести исследование и оценить состояние информационной составляющей бизнеса заказчика, в том числе:

  • имеющиеся у заказчика платформы и сервисы для работы с большими данными;

  • возможность физической организации платформы больших данных и потоков данных;

  • наборы больших данных, в том числе ресурсы, сами данные и конфигурации доступов.

На этапе проектирования решения для миграции основной экспертизой обладает Cloud.ru, а заказчик оказывает необходимую поддержку. Они должны совместно разработать решение для миграции и оценить объем соответствующих работ, в том числе:

  • необходимые действия по реорганизации и оптимизации данных для успешной адаптации на целевой платформе и обеспечения плавной миграции;

  • следует ли выполнять миграцию поэтапно и каковы должны быть цели каждого этапа;

  • облачные сервисы, задействованные в миграции платформы;

  • объем данных, которые необходимо перенести, и способ миграции;

  • систему планирования задач заказчика, которая является основой для миграции задач;

  • решение для переключения трафика, поддерживающее потоки данных в реальном времени и основные сервисные возможности;

  • способы обеспечить обратное переключение при необходимости.

Кроме того, следует спланировать и оценить необходимые облачные ресурсы, в том числе:

  • ресурсы для создания платформы;

  • пропускную способность сети для миграции.

Эти факторы тесно связаны с решением для миграции в целом и предусматривают оценку затрат. Помимо этого, следует спланировать сетевую инфраструктуру в облаке, в том числе обеспечение сетевых подключений и защиту безопасности сети.

На этапе реализации миграции основным активным лицом является заказчик. Он отвечает за подготовку и развертывание ресурсов, развертывание системы управления задачами и верификацию процессов, миграцию и верификацию данных, миграцию и верификацию инкрементных данных, параллельную работу и настройку производительности.

Этап приемки миграции включает перенос, обследование и верификацию сервисов, выявление и устранение рисков, проведение специальных учебных занятий и передачу компетенций и официальную сдачу проекта.

Примерный план и сроки миграции

Конкретный план и сроки миграции могут отличаться в зависимости от объема данных, количества задач и используемых компонентов, типа системы планирования, пропускной способности выделенного канала связи и периода времени, в который можно осуществлять миграцию данных. На следующем рисунке представлен примерный план и сроки миграции для организации среднего размера (объем данных: x ПБ, вычислительные ресурсы: x тысяч ядер).

../../_images/data-migration-to-cloud__big-data-migration_migration-plan.svg

Инструменты миграции больших данных

Cloud.ru предлагает заказчикам различные инструменты миграции данных в зависимости от сценария, источника данных, их объема и требований к приложениям.

../../_images/data-migration-to-cloud__big-data-migration_migration-tools.svg

Cloud.ru предлагает следующие инструменты миграции больших данных:

  • DAYU CDM

    CDM — простой и эффективный сервис пакетной миграции данных. Он предоставляет удобные функции и позволяет объединить широкий ряд источников в озеро данных, упрощая процессы миграции и интеграции и повышая эффективность.

    См.также

    Более подробную информацию о сервисе CDM можно найти в Data As You Use. Руководство пользователя

    ../../_images/data-migration-to-cloud__big-data-migration_migration-tools_cdm.svg
  • Kafka MirrorMaker

    Эта утилита в реальном времени передает потоковые данные узлу MRS-Kafka на платформе Cloud.ru. Она работает с последовательными сообщениями, так как группа потребителей предъявляет жесткие требования к последовательности сообщений.

    Как правило, утилиту MirrorMaker необходимо запускать в целевой системе. Метаданные кластера-источника и кластера-назначения Kafka должны совпадать — их необходимо сконфигурировать вручную.

  • DRS

    DRS предназначен для горячей миграции баз данных в облако. Он поддерживает миграцию между гомогенными, гетерогенными, распределенными и шардированными базами данных. Он также позволяет интегрировать и передавать данные в БД, хранилища данных и кластеры больших данных, создавая тем самым прочную основу для цифровых преобразований на предприятиях.

Масштабная конференция
GoCloud 2024:
облачные грани будущего