Внешние таблицы Hive, сохраняющие старый файл данных после операции перезаписи вставки в HDP 3.1 - PullRequest
1 голос
/ 05 апреля 2019

Я выполняю операции перезаписи вставки в Hive (HDP 3.1).Проблема заключается в том, что он продолжает добавлять базовые и дельта-файлы, где базовые файлы содержат вновь вставленные данные, а дельта-данные содержат старые данные перед операциями перезаписи.

Запросы в Hive предоставляют мне только что добавленные данные, но когда дело доходит до искры - он имеет тенденцию выводить как старые, так и новые данные из дельта- и базовых файлов, которые находятся в местоположении HDFS.

Мне нужно найти решение для ниже -

1) Есть ли способ, который не позволяет Hive сохранять дельта-файлы на первом месте при использовании операций перезаписи вставки - (Любая настройка?)

2) Почему искра извлекает старые данные?Всегда ли это относится к расположению таблицы внутри?Как я могу предотвратить чтение дельта-файлов?

Примечание. Наш администратор настроил коннектор хранилища Hive для чтения из любой базы данных в Hive, как описано в документации HDP.И я не хочу вручную удалять файлы, используя hadoop fs -rm -r file перед чтением данных в spark.Может ли кто-нибудь предоставить какие-либо указатели.

Спасибо.

...