Я работаю над кластером Had oop (HDP) с Had oop 3. Также установлены Spark и Hive.
Поскольку каталоги Spark и Hive разделены, иногда это немного сбивает с толку , чтобы знать, как и где сохранять данные в приложении Spark.
Я знаю, что для свойства spark.sql.catalogImplementation
можно установить либо in-memory
(для использования каталога на основе сеансов Spark), либо hive
(используя каталог Hive для хранения постоянных метаданных -> но метаданные по-прежнему отделены от баз данных и таблиц Hive).
Мне интересно, что делает свойство metastore.catalog.default
. Когда я установил это значение на hive
, я смогу увидеть свои таблицы Hive, но, поскольку таблицы хранятся в каталоге /warehouse/tablespace/managed/hive
в HDFS, мой пользователь не имеет доступа к этому каталогу (поскольку, конечно, владелец hive).
Итак, зачем мне устанавливать metastore.catalog.default = hive
, если я не могу получить доступ к таблицам из Spark? Это как-то связано с Hortonwork Hive Warehouse Connector?
Спасибо за помощь.