PySpark создает папку ticket___HIVE_DEFAULT_PARTITION__ - PullRequest
0 голосов
/ 23 марта 2020

Я записываю файлы в S3 из искрового фрейма данных, созданного из таблицы HiveContext, и получаю папку HIVE_DEFAULT_PARTITION . Что это за папка и как ее удалить?

Ниже приведена строка, которую я использую для этого,

my_df.write \
    .partitionBy("my_column") \
    .format("csv") \
    .bucketBy(1, "my_other_column") \
    .option("header", True)\
    .option("delimiter", my_delimiter) \
    .mode("overwrite") \
    .save("s3://my_bucket/my_folder/")

Спасибо.

1 Ответ

0 голосов
/ 23 марта 2020

Это означает, что ваш partitionBy столбец my_column имеет значение null. Улей и в действительности искра, по умолчанию записывает это как HIVE_DEFAULT_PARTITION. ticket_, кажется, является строковой операцией, которую вы выполняли со столбцами разделов.

Есть способы удалить это, но не без изменения / потери данных: 1. Не пишите это во-первых, используйте какое-то разумное значение для null. 2. Удалите раздел, изменив таблицу.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...