Конвертация CSV файла в Parquet формат
Parquet — это открытый, колоночный формат хранения данных, совместимый с большинством фреймворков обработки данных в среде Hadoop.
Он обеспечивает эффективные схемы сжатия и кодирования данных, которые максимизируют эффективность хранения на дисках, и предоставляет повышенную производительность для обработки сложных данных в больших объемах.
Используя DLI, можно легко конвертировать данные формата CSV в формат Parquet.
-
Выберите сервис Storage → Object Storage Service.
-
Нажмите на имя нужного бакета.
ПодсказкаЕсли нужного бакета нет, создайте его.
-
Перейдите в раздел Objects и нажмите Upload Object.
-
Нажмите Add file и выберите файл CSV формата. Нажмите Upload.
-
Перейдите в сервис Data Lake Insight.
-
В боковом меню выберите SQL Editor.
-
Введите в строку запрос на создание таблицы и нажмите Execute:
create table test_csv(id1 int, id2 int, id3 int, id4 int, id5 int) using csv options(path 's3a://dli-test/test/test_name.csv')где
-
test_csv — это имя создаваемой таблицы;
-
dli-test/test/test_name.csv — путь к файлу таблицы CSV формата, загруженной в бакет (например, dli-test — бакет, test — папка, test_name.csv — файл).
-
-
Если запрос прошел успешно внизу появится соответствующая надпись.
-
Запросите данные из таблицы test_csv и нажмите Execute:
Select * from demo.test_csvгде
-
demo — это имя базы данных;
-
test_csv — это имя таблицы.
-
-
Введите в строку запрос на создание таблицы в бакете OBS:
CREATE TABLE `test_parquet` (`id1` INT, `id2` INT, `id3` INT, `id4` INT, `id5`INT) USING parquet OPTIONS (path 's3a://dli-test/test/')где
-
test_parquet — это имя создаваемой таблицы;
-
dli-test/test/ — путь к файлу в бакете OBS (например, dli-test — бакет, test — папка).
ПримечаниеУказывать файл формата Parquet не нужно, т. к. файл будет создан только после загрузки данных в таблицу.
-
-
Теперь можно загрузить данные из таблицы CSV в таблицу Parquet. Введите запрос и нажмите Execute:
insert into test_parquet select * from test_csvгде
-
test_parquet — это имя таблицы Parquet;
-
test_csv — имя таблицы CSV в базе данных DLI.
-
-
Проверьте результат в бакете OBS — будет загружен файл с данными в формате Parquet.