Question

При использовании лежащих в основе паркетных файлов таблиц из spark1.6 помогает ли вычисление статистики?Пример:

 hiveCtx.read.format("parquet")
        .load("/path/*.parquet").registerTempTable("TEST")

Dhrub Thakur · Answer 1 · 20 марта 2019

Это зависит от различных случаев

, является ли ваша таблица секционированной и если она секционирована, то читаете ли вы один раздел или все в одном виде.
Если ваша таблица секционированатогда всегда желательно читать из таблицы, поскольку Hive ИЛИ Impala поддерживает метаданные, а создание фрейма данных в искре со связанными данными сделает ваш код более быстрым, когда вы примените какое-либо преобразование к Spark DF.
Я вижу, что вы используете hiveContextчтобы прочесть файл вашего паркета, производительность будет незначительной, но в целом не будет большой разницы.

Spark 1.6 и вычислить статистику

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.