Платформа данных Hortonworks HDP 3.0 имеет версии 2.3 и Hive 3.1, по умолчанию приложения spark 2.3 (pyspark / spark-sql и т. Д.) Используют хранилище данных spark, а Spark 2.3 имеет другой способ интеграции с Apache Hive с использованием Hive Warehouse Connector.
интегрируя-апаш улей-с апача Искре улей-складской разъем
Я мог видеть 2 базы данных по умолчанию в метасольве Hive (MySQL). Один указывает на местоположение улья, а другой - на место искры.
mysql> SELECT NAME, DB_LOCATION_URI FROM hive.DBS;
+--------+----------------------------------------------------------+
| NAME | DB_LOCATION_URI |
+--------+----------------------------------------------------------+
| default| hdfs://<hostname>:8020/warehouse/tablespace/managed/hive |
| default| hdfs://<hostname>:8020/apps/spark/warehouse |
+--------+----------------------------------------------------------+
mysql>
Может ли кто-нибудь объяснить мне, в чем разница между этими двумя типами складов, я не смог найти ни одной статьи по этому поводу, можем ли мы использовать хранилище искр вместо Hive (насколько я понимаю, склад искр не будет доступен через Hive, или там в любом случае?). Каковы плюсы и минусы этих 2 (склад искры и склад улья)?