По умолчанию Spark создает directories
на основе столбца раздела, т.е.
<partition_column_name>=<value>
Easiest way
, чтобы исправить это сохранить имя столбца как table_name
и использовать в разделении по предложению .
enriched = df.withColumn("table_name", unix_timestamp(lit(timestamp),'yyyy-MM-dd HH:mm:ss').cast("timestamp"))
enriched.write.partitionBy("table_name").format("parquet").mode("append").save("s3://s3-enriched-bucket/" + job_statement[0])
Other way would be:
Переименование каталогов с помощью итерации с использованием hadoop.fs file API
и изменить load_timestamp
на table_name
.