Я использую код ниже искры, который записывает в таблицу разделов кустов.
df.write.mode(SaveMode.Overwrite).format("orc").insertInto("s**000h.test")
Внутренне все исполнители пишут в область этапа Hive (.hive-staging_hive_2020-03-30_13-47- 16_727_5670185411499574661-1) и это занимает больше времени по сравнению с тем, как я явно записываю данные в каталог HDFS, как указано ниже.
df.write.mode(mode).format("orc").partitionBy("dept_id").save(tempPath)
Разница во времени приближается 1 час на 900 перегородок.
Не могли бы вы объяснить это поведение.