Я использую код pyspark для обработки некоторых данных, полученных из Hive View.В настоящее время мы используем версию HDP 3.1.Проблема в том, что я вижу, что Hive View содержит данные, например: Данные на дату 5 июня 2019 года, где, например, когда я пытаюсь получить данные из Spark SQL, я получаю данные не позднее даты 4 июня 2019 года.
Я попытался выбрать полные данные в spark и затем упорядочить их по дате DESC, чтобы быть уверенным в проблеме.Я также проверил, что данные за 5 июня доступны в Hive.
Я узнал, что Spark и Hive управляют другим каталогом в HDP 3+.Но, насколько мне известно, Admin уже позаботился о том, чтобы указать Spark на Hive Catalog.Это проблема каталога, которую мне нужно проверить еще раз?
Обновление: Задать вопрос в комментарии, вот пример кода, который я запустил в Hive, и всплыть с примерами результатов, которые я получил -
Hive Query
select number,v_date, location, region from View1 where Upper(category) ="I" and lower(region) ="cochin" and to_date(visit_date) between "2019-06-02" AND "2019-06-06" order by to_date(visit_date) desc limit 500;
Образец Результат:
Как показано выше, я получаю результаты за 5 июня в Hive.Теперь, когда я выполняю то же самое в PySpark:
data_for_region = sparkSession.sql('select number, v_date, location, region from View1 where Upper(category) ="I" and lower(region) ="cochin" and date_format(visit_date,"yyyy-MM-dd") between "2019-06-02" AND "2019-06-06" order by visit_date desc limit 50')
Образец результата
Как вы можете видеть, это просто не показывает мне результаты за 5 июня, но дает данные с 4 июня.Я просто не знаю, как устранить это несоответствие.