У меня очень большая коллекция записей JSON, организованная следующим образом для HDFS:
/ год / месяц / день / hour.gz
где каждая строка сжатого файла hour.gz является объектом JSON.
Как эти файлы можно преобразовать в файлы .parquet, сохранив ту же структуру каталогов?