Spark 1.6 и вычислить статистику - PullRequest
0 голосов
/ 20 марта 2019

При использовании лежащих в основе паркетных файлов таблиц из spark1.6 помогает ли вычисление статистики?Пример:

 hiveCtx.read.format("parquet")
        .load("/path/*.parquet").registerTempTable("TEST") 

1 Ответ

0 голосов
/ 20 марта 2019

Это зависит от различных случаев

  • , является ли ваша таблица секционированной и если она секционирована, то читаете ли вы один раздел или все в одном виде.
  • Если ваша таблица секционированатогда всегда желательно читать из таблицы, поскольку Hive ИЛИ Impala поддерживает метаданные, а создание фрейма данных в искре со связанными данными сделает ваш код более быстрым, когда вы примените какое-либо преобразование к Spark DF.
  • Я вижу, что вы используете hiveContextчтобы прочесть файл вашего паркета, производительность будет незначительной, но в целом не будет большой разницы.
...