Склад Искры VS Склад Улья - PullRequest
       60

Склад Искры VS Склад Улья

0 голосов
/ 29 октября 2018

Платформа данных Hortonworks HDP 3.0 имеет версии 2.3 и Hive 3.1, по умолчанию приложения spark 2.3 (pyspark / spark-sql и т. Д.) Используют хранилище данных spark, а Spark 2.3 имеет другой способ интеграции с Apache Hive с использованием Hive Warehouse Connector.

интегрируя-апаш улей-с апача Искре улей-складской разъем

Я мог видеть 2 базы данных по умолчанию в метасольве Hive (MySQL). Один указывает на местоположение улья, а другой - на место искры.

mysql> SELECT NAME, DB_LOCATION_URI FROM hive.DBS;
+--------+----------------------------------------------------------+
| NAME   | DB_LOCATION_URI                                          |
+--------+----------------------------------------------------------+
| default| hdfs://<hostname>:8020/warehouse/tablespace/managed/hive |
| default| hdfs://<hostname>:8020/apps/spark/warehouse              |
+--------+----------------------------------------------------------+

mysql>

Может ли кто-нибудь объяснить мне, в чем разница между этими двумя типами складов, я не смог найти ни одной статьи по этому поводу, можем ли мы использовать хранилище искр вместо Hive (насколько я понимаю, склад искр не будет доступен через Hive, или там в любом случае?). Каковы плюсы и минусы этих 2 (склад искры и склад улья)?

1 Ответ

0 голосов
/ 21 января 2019

Начиная с HDP 3.0, каталоги для Apache Hive и Apache Spark отделены и используют собственный каталог; а именно, они являются взаимоисключающими - каталог Apache Hive может быть доступен только через Apache Hive или эту библиотеку, а каталог Apache Spark может быть доступен только через существующие API-интерфейсы в Apache Spark. Другими словами, некоторые функции, такие как таблицы ACID или Apache Ranger с таблицей Apache Hive, доступны только через эту библиотеку в Apache Spark. Эти таблицы в Hive не должны быть непосредственно доступны в самих API Apache Spark.

По умолчанию spark использует каталог spark, а в статье ниже объясняется, как получить доступ к таблице Apache Hive через Spark.

Интеграция Apache Hive с Apache Spark - Соединитель хранилища Hive

Github ссылка на некоторые дополнительные детали:

HiveWarehouseConnector - Github

...