- tocdepth
2
Конвертация CSV файла в Parquet формат
Parquet — это открытый, колоночный формат хранения данных, совместимый с большинством фреймворков обработки данных в среде Hadoop.
Он обеспечивает эффективные схемы сжатия и кодирования данных, которые максимизируют эффективность хранения на дисках, и предоставляет повышенную производительность для обработки сложных данных в больших объемах.
Используя DLI, можно легко конвертировать данные формата CSV в формат Parquet.
Выберите сервис
.Нажмите на имя нужного бакета.
Подсказка
Если нужного бакета нет, создайте его.
Перейдите в раздел Objects и нажмите Upload Object.
Нажмите Add file и выберите файл CSV формата. Нажмите Upload.
Перейдите в сервис Data Lake Insight.
В боковом меню выберите SQL Editor.
Введите в строку запрос на создание таблицы и нажмите Execute:
create table test_csv(id1 int, id2 int, id3 int, id4 int, id5 int) using csv options(path 's3a://dli-test/test/test_name.csv')
где
test_csv
— это имя создаваемой таблицы;dli-test/test/test_name.csv
— путь к файлу таблицы CSV формата, загруженной в бакет (например,dli-test
— бакет,test
— папка,test_name.csv
— файл).
Если запрос прошел успешно внизу появится соответствующая надпись.
Запросите данные из таблицы
test_csv
и нажмите Execute:Select * from demo.test_csv
где
demo
— это имя базы данных;test_csv
— это имя таблицы.
Введите в строку запрос на создание таблицы в бакете OBS:
CREATE TABLE `test_parquet` (`id1` INT, `id2` INT, `id3` INT, `id4` INT, `id5`INT) USING parquet OPTIONS (path 's3a://dli-test/test/')
где
test_parquet
— это имя создаваемой таблицы;dli-test/test/
— путь к файлу в бакете OBS (например,dli-test
— бакет,test
— папка).
Примечание
Указывать файл формата Parquet не нужно, т. к. файл будет создан только после загрузки данных в таблицу.
Теперь можно загрузить данные из таблицы CSV в таблицу Parquet. Введите запрос и нажмите Execute:
insert into test_parquet select * from test_csv
где
test_parquet
— это имя таблицы Parquet;test_csv
— имя таблицы CSV в базе данных DLI.
Проверьте результат в бакете OBS — будет загружен файл с данными в формате Parquet.
для Dev & Test