Запросы к внешней таблице Hive не извлекают последние данные из файла паркета - PullRequest
0 голосов
/ 25 ноября 2018

Я записываю потоковые данные в файлы паркета, используя spark.И я создал внешнюю таблицу улья, указывающую на местоположение файла паркета, которое необходимо для использования в инструментах BI.Но когда файл партера обновляется, запросы к этой внешней таблице не дают мне последние данные.

Когда обновляется таблица, он получает последние записи - REFRESH TABLE <table_name>.Также ANALYZE TABLE <table_name> COMPUTE STATISTICS обновления с последними данными.Но не всегда правильно обновлять таблицу, прежде чем запрашивать ее.

Как правильно достичь этого?Если таблица Hive - это просто указатель на файл паркета, разве он не должен всегда извлекать последние записи?Также нужно знать, является ли обновление таблицы дорогой операцией?

Я пытался отключить кэширование метаданных spark.sql.parquet.cacheMetadata = false.Но, похоже, это не имеет никакого эффекта.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...