Question

Я записываю потоковые данные в файлы паркета, используя spark.И я создал внешнюю таблицу улья, указывающую на местоположение файла паркета, которое необходимо для использования в инструментах BI.Но когда файл партера обновляется, запросы к этой внешней таблице не дают мне последние данные.

Когда обновляется таблица, он получает последние записи - REFRESH TABLE <table_name>.Также ANALYZE TABLE <table_name> COMPUTE STATISTICS обновления с последними данными.Но не всегда правильно обновлять таблицу, прежде чем запрашивать ее.

Как правильно достичь этого?Если таблица Hive - это просто указатель на файл паркета, разве он не должен всегда извлекать последние записи?Также нужно знать, является ли обновление таблицы дорогой операцией?

Я пытался отключить кэширование метаданных spark.sql.parquet.cacheMetadata = false.Но, похоже, это не имеет никакого эффекта.

Запросы к внешней таблице Hive не извлекают последние данные из файла паркета

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Запросы к внешней таблице Hive не извлекают последние данные из файла паркета

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы