Question

Выполнить то же самое sql, файлы, созданные с помощью куста, имеют размер 2,5 ГБ, а файлы, сгенерированные с помощью spark sql, равны 4,1 ГБ. Я установил spark. sql .or c .compression.code c для zlib, который мы используем в улье, и установил spark. sql .or c .impl для улья, моя версия spark 2.4.0

Xilang · Answer 1 · 31 марта 2020

Извините, но мой вопрос недостаточно ясен, потому что sql очень большой, более 500 строк и чувствителен к бизнесу.

В любом случае, после исследования я обнаружил, что проблема вызвана MR / Разница между Spark и Sharffle: MR сортирует, а Spark - нет. И отсортированные данные очень удобны для кодирования длин серий.

Запишите одинаковые данные OR C, используя Spark SQL и Hive, поэтому файл Spark SQL на 50% больше, чем куст？

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Запишите одинаковые данные OR C, используя Spark SQL и Hive, поэтому файл Spark SQL на 50% больше, чем куст？

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы