Я выполняю операции перезаписи вставки в Hive (HDP 3.1).Проблема заключается в том, что он продолжает добавлять базовые и дельта-файлы, где базовые файлы содержат вновь вставленные данные, а дельта-данные содержат старые данные перед операциями перезаписи.
Запросы в Hive предоставляют мне только что добавленные данные, но когда дело доходит до искры - он имеет тенденцию выводить как старые, так и новые данные из дельта- и базовых файлов, которые находятся в местоположении HDFS.
Мне нужно найти решение для ниже -
1) Есть ли способ, который не позволяет Hive сохранять дельта-файлы на первом месте при использовании операций перезаписи вставки - (Любая настройка?)
2) Почему искра извлекает старые данные?Всегда ли это относится к расположению таблицы внутри?Как я могу предотвратить чтение дельта-файлов?
Примечание. Наш администратор настроил коннектор хранилища Hive для чтения из любой базы данных в Hive, как описано в документации HDP.И я не хочу вручную удалять файлы, используя hadoop fs -rm -r file перед чтением данных в spark.Может ли кто-нибудь предоставить какие-либо указатели.
Спасибо.