Я записываю потоковые данные в файлы паркета, используя spark.И я создал внешнюю таблицу улья, указывающую на местоположение файла паркета, которое необходимо для использования в инструментах BI.Но когда файл партера обновляется, запросы к этой внешней таблице не дают мне последние данные.
Когда обновляется таблица, он получает последние записи - REFRESH TABLE <table_name>
.Также ANALYZE TABLE <table_name> COMPUTE STATISTICS
обновления с последними данными.Но не всегда правильно обновлять таблицу, прежде чем запрашивать ее.
Как правильно достичь этого?Если таблица Hive - это просто указатель на файл паркета, разве он не должен всегда извлекать последние записи?Также нужно знать, является ли обновление таблицы дорогой операцией?
Я пытался отключить кэширование метаданных spark.sql.parquet.cacheMetadata = false
.Но, похоже, это не имеет никакого эффекта.