Почему запись в каталог стадии куста занимает больше времени с помощью функции insertInto в Spark? - PullRequest
2 голосов
/ 30 марта 2020

Я использую код ниже искры, который записывает в таблицу разделов кустов.

df.write.mode(SaveMode.Overwrite).format("orc").insertInto("s**000h.test")

Внутренне все исполнители пишут в область этапа Hive (.hive-staging_hive_2020-03-30_13-47- 16_727_5670185411499574661-1) и это занимает больше времени по сравнению с тем, как я явно записываю данные в каталог HDFS, как указано ниже.

df.write.mode(mode).format("orc").partitionBy("dept_id").save(tempPath)

Разница во времени приближается 1 час на 900 перегородок.

Не могли бы вы объяснить это поведение.

...