Импала запрос возвращает неверные результаты в Pyspark - PullRequest
1 голос
/ 08 июля 2019

Я пытаюсь получить счет таблицы Импалы в pyspark.Но я получаю неправильные результаты в искре.

Таблица impala является секционированной таблицей.Он делится на год и месяц ( EX: 201906 ).Я даже делаю недействительные метаданные, изменяю таблицу, восстанавливаю разделы и обновляю таблицу после обновления таблицы.Но я все еще не получаю правильных результатов в искре.

Выполнение

select count(*) dbname.tablename where timestamp>='2019-06-01' and timestamp<='2019-06-15' 

возвращает

10931

и

spark.sql("select count(*) dbname.tablename") where timestamp>='2019-06-01' and timestamp<='2019-06-15'

возвращает

0

1 Ответ

1 голос
/ 11 июля 2019

Столы это паркетные и пишут строки из Импалы? Если да, то ответ здесь .

Отсутствуют результаты в заданиях Hive, Spark, Pig, Custom MapReduce и других приложениях Java при фильтрации данных паркета, написанных Impala

...