Hive сжимает данные лучше, чем Spark (с включенным кустом) - PullRequest
0 голосов
/ 12 декабря 2018

У меня есть скрипт куста, который считывает данные json и вставляет (используя INSERT OVERWRITE) в таблицу кустов в формате ORC со сжатием zlib.

Теперь я переместил эти устаревшие скрипты на работу.Задание Spark считывает исходные данные json и вставляет (используя Dataframe и sparkSession.sql ()) в целевую таблицу кустов (формат ORC со сжатием zlib).

После миграции я вижу, что размер файла, генерируемый заданием spark, больше по сравнению со скриптом куста (- который использует инструкцию INSERT OVERWRITE).По сути, запрос улья делает сжатие примерно на 40% лучше, чем искровое задание.

Примечание: Задание Spark включено для куста i.e - enableHiveSupport() и использует запрос INSERT OVERWRITE, т.е. - SparkSession.sql("INSERT OVERWRITE .....") для вставки данных в таблицу Hive.

В чем может быть причина запрос Hive INSERT OVERWRITE обеспечивает лучшее сжатие, чем hive Включено задание зажигания ?

...