Преобразование HDFS-каталога JSON-файлов в Parquet - PullRequest
0 голосов
/ 03 января 2019

У меня очень большая коллекция записей JSON, организованная следующим образом для HDFS:

/ год / месяц / день / hour.gz

где каждая строка сжатого файла hour.gz является объектом JSON.

Как эти файлы можно преобразовать в файлы .parquet, сохранив ту же структуру каталогов?

...