Я планирую использовать SparkSQL (не pySpark) поверх данных в Amazon S3.Поэтому я считаю, что мне нужно создать внешнюю таблицу Hive и затем использовать SparkSQL.Но данные S3 разделены и хотят, чтобы разделы также отображались во внешней таблице Hive.
Как лучше всего управлять таблицей ульев ежедневно.Поскольку каждый день можно создавать новые разделы или старые разделы можно перезаписывать и что делать, чтобы поддерживать актуальность внешней таблицы Hive?