Pyspark .partitionBy (). Parquet () не сохраняет файлы - PullRequest
0 голосов
/ 17 ноября 2018

Я сейчас работаю в Azure Databricks. У меня есть один консолидированный спарк-фрейм с такими столбцами, как «год», «месяц» и «день».

Что мне нужно сделать, так это разделить его на основе этих столбцов и сохранить их все в моем хранилище озера данных Azure (в формате паркета). Таким образом, для каждого раздела путь должен выглядеть как «adl / Data / UserData / year / month / day /»

Насколько я понимаю, все должно быть просто так:

 new_user_dataframe.write.partitionBy("year", "month", "day").parquet("adl/Data/UserData")

Задание spark работает в моем блокноте, но родительская папка остается пустой. Это работает отлично без partitionBy условия, хотя. Так что я могу написать new_user_dataframe.write.parquet(full path for some specific day), но это не то, что мне нужно.

Я думал о том, чтобы сделать что-то вроде new_user_dataframe.write.partitionBy("year", "month", "day").parquet("adl/Data/UserData/y=" + year + "/m=" + month + "/d=" + day). Однако я не знаю, как получить доступ к этим переменным, чтобы передать их в путь.

Спасибо за любой совет

...