Запишите одинаковые данные OR C, используя Spark SQL и Hive, поэтому файл Spark SQL на 50% больше, чем куст? - PullRequest
0 голосов
/ 30 марта 2020

Выполнить то же самое sql, файлы, созданные с помощью куста, имеют размер 2,5 ГБ, а файлы, сгенерированные с помощью spark sql, равны 4,1 ГБ. Я установил spark. sql .or c .compression.code c для zlib, который мы используем в улье, и установил spark. sql .or c .impl для улья, моя версия spark 2.4.0

1 Ответ

0 голосов
/ 31 марта 2020

Извините, но мой вопрос недостаточно ясен, потому что sql очень большой, более 500 строк и чувствителен к бизнесу.

В любом случае, после исследования я обнаружил, что проблема вызвана MR / Разница между Spark и Sharffle: MR сортирует, а Spark - нет. И отсортированные данные очень удобны для кодирования длин серий.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...