Question

Я планирую использовать SparkSQL (не pySpark) поверх данных в Amazon S3.Поэтому я считаю, что мне нужно создать внешнюю таблицу Hive и затем использовать SparkSQL.Но данные S3 разделены и хотят, чтобы разделы также отображались во внешней таблице Hive.

Как лучше всего управлять таблицей ульев ежедневно.Поскольку каждый день можно создавать новые разделы или старые разделы можно перезаписывать и что делать, чтобы поддерживать актуальность внешней таблицы Hive?

SreeRao · Answer 1 · 04 апреля 2019

Создайте промежуточную таблицу и загрузите ее в свою таблицу кустов с разделом перезаписи вставки на дату.

SparkSQL на Hive многораздельной внешней таблицы на Amazon S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

SparkSQL на Hive многораздельной внешней таблицы на Amazon S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы