SparkSQL на Hive многораздельной внешней таблицы на Amazon S3 - PullRequest
0 голосов
/ 04 апреля 2019

Я планирую использовать SparkSQL (не pySpark) поверх данных в Amazon S3.Поэтому я считаю, что мне нужно создать внешнюю таблицу Hive и затем использовать SparkSQL.Но данные S3 разделены и хотят, чтобы разделы также отображались во внешней таблице Hive.

Как лучше всего управлять таблицей ульев ежедневно.Поскольку каждый день можно создавать новые разделы или старые разделы можно перезаписывать и что делать, чтобы поддерживать актуальность внешней таблицы Hive?

1 Ответ

0 голосов
/ 04 апреля 2019

Создайте промежуточную таблицу и загрузите ее в свою таблицу кустов с разделом перезаписи вставки на дату.

...