Создавать файл метаданных в HDFS при записи файла паркета в качестве вывода из фрейма данных в pyspark - PullRequest
1 голос
/ 09 мая 2020

У меня есть программа преобразования Spark, которая читает 2 файла паркета и создает один окончательный фрейм данных, который затем записывается в файл паркета в другом каталоге в HDFS.

Есть ли способ создать файл метаданных / схемы паркета в том же каталоге, что и паркет в HDFS?

Нам нужен этот файл метаданных / схемы для другой обработки.

1 Ответ

1 голос
/ 09 мая 2020

Предполагая, что потребитель метафайла не является потребителем паркетного файла (поскольку тогда метафайл избыточен, поскольку схема встроена в паркетный формат), вы можете использовать свойство schema в фрейме данных и записать это в файл в виде строки.

Обратите внимание, что вы не можете записать этот метафайл по тому же пути, что и файл паркета, поскольку вы получите сообщение об ошибке, когда попытаетесь прочитать файл паркета обратно, но сможете записать его в родительский каталог.

...