Чтение секционированной таблицы HIVE в SQL SPARK - PullRequest
0 голосов
/ 09 октября 2019

Я пытаюсь прочитать, что таблица HIVE содержит данные за 2 года и разбита на сутки, чтение через SPARK-SQL занимает более 10 минут даже после применения фильтра для данных за 6 месяцев.

ЛюбыеИдея, как улучшить, я пытался с предложением DISTRIBUTE BY в Hive QL

1 Ответ

0 голосов
/ 09 октября 2019

Вы можете включить отсечение разделов, установив свойство:

spark.sql.hive.metastorePartitionPruning=true

Это отфильтрует разделы

...