Spark не предоставляет обновленные результаты, доступные в Hive - PullRequest
0 голосов
/ 06 июня 2019

Я использую код pyspark для обработки некоторых данных, полученных из Hive View.В настоящее время мы используем версию HDP 3.1.Проблема в том, что я вижу, что Hive View содержит данные, например: Данные на дату 5 июня 2019 года, где, например, когда я пытаюсь получить данные из Spark SQL, я получаю данные не позднее даты 4 июня 2019 года.

Я попытался выбрать полные данные в spark и затем упорядочить их по дате DESC, чтобы быть уверенным в проблеме.Я также проверил, что данные за 5 июня доступны в Hive.

Я узнал, что Spark и Hive управляют другим каталогом в HDP 3+.Но, насколько мне известно, Admin уже позаботился о том, чтобы указать Spark на Hive Catalog.Это проблема каталога, которую мне нужно проверить еще раз?

Обновление: Задать вопрос в комментарии, вот пример кода, который я запустил в Hive, и всплыть с примерами результатов, которые я получил -

Hive Query

select number,v_date, location, region  from View1 where Upper(category) ="I" and lower(region) ="cochin" and to_date(visit_date) between "2019-06-02" AND "2019-06-06"  order by  to_date(visit_date) desc limit 500;

Образец Результат:

enter image description here

Как показано выше, я получаю результаты за 5 июня в Hive.Теперь, когда я выполняю то же самое в PySpark:

data_for_region = sparkSession.sql('select number, v_date, location, region  from View1 where Upper(category) ="I" and lower(region) ="cochin" and date_format(visit_date,"yyyy-MM-dd") between "2019-06-02" AND "2019-06-06" order by visit_date desc limit 50')

Образец результата

enter image description here

Как вы можете видеть, это просто не показывает мне результаты за 5 июня, но дает данные с 4 июня.Я просто не знаю, как устранить это несоответствие.

...