Перезапись вставки Spark в таблицу динамических разделов не работает должным образом - PullRequest
0 голосов
/ 12 июня 2018

Я пытаюсь объединить множество маленьких файлов, сгенерированных в один больший.Мои файлы в паркетном формате.Я создаю новую временную таблицу (внешнюю таблицу) в новом месте, а затем перезаписываю ее старой.Файлы в новом расположении таблицы будут идеально объединены, если я сделаю это с HiveSQL CLI (я получаю только один файл на раздел) ... Но когда я пытаюсь сделать это через Spark SQL (используя те же команды Hive), я не получаюфайлы слились, но вместо этого, как и прежде, они были там в старом месте.Я установил настройки

sqlContext.setConf("hive.exec.dynamic.partition", "true")
sqlContext.setConf("hive.exec.dynamic.partition.mode", "nonstrict")

sqlContext.sql("INSERT OVERWRITE TABLE <newtable> PARTITION (<partition_cols>) SELECT * FROM <oldtable>")

Пожалуйста, помогите !!

PS: - Я использую Spark 1.6.0

...