Я сейчас работаю в Azure Databricks. У меня есть один консолидированный спарк-фрейм с такими столбцами, как «год», «месяц» и «день».
Что мне нужно сделать, так это разделить его на основе этих столбцов и сохранить их все в моем хранилище озера данных Azure (в формате паркета). Таким образом, для каждого раздела путь должен выглядеть как «adl / Data / UserData / year / month / day /»
Насколько я понимаю, все должно быть просто так:
new_user_dataframe.write.partitionBy("year", "month", "day").parquet("adl/Data/UserData")
Задание spark работает в моем блокноте, но родительская папка остается пустой. Это работает отлично без partitionBy
условия, хотя. Так что я могу написать new_user_dataframe.write.parquet(full path for some specific day)
, но это не то, что мне нужно.
Я думал о том, чтобы сделать что-то вроде new_user_dataframe.write.partitionBy("year", "month", "day").parquet("adl/Data/UserData/y=" + year + "/m=" + month + "/d=" + day)
. Однако я не знаю, как получить доступ к этим переменным, чтобы передать их в путь.
Спасибо за любой совет