Искра и куст в случае oop 3: разница между metastore.catalog.default и spark. sql .catalogImplementation - PullRequest
3 голосов
/ 24 января 2020

Я работаю над кластером Had oop (HDP) с Had oop 3. Также установлены Spark и Hive.

Поскольку каталоги Spark и Hive разделены, иногда это немного сбивает с толку , чтобы знать, как и где сохранять данные в приложении Spark.

Я знаю, что для свойства spark.sql.catalogImplementation можно установить либо in-memory (для использования каталога на основе сеансов Spark), либо hive (используя каталог Hive для хранения постоянных метаданных -> но метаданные по-прежнему отделены от баз данных и таблиц Hive).

Мне интересно, что делает свойство metastore.catalog.default. Когда я установил это значение на hive, я смогу увидеть свои таблицы Hive, но, поскольку таблицы хранятся в каталоге /warehouse/tablespace/managed/hive в HDFS, мой пользователь не имеет доступа к этому каталогу (поскольку, конечно, владелец hive).

Итак, зачем мне устанавливать metastore.catalog.default = hive, если я не могу получить доступ к таблицам из Spark? Это как-то связано с Hortonwork Hive Warehouse Connector?

Спасибо за помощь.

...