Мой вопрос довольно прост, но почему-то я не могу найти четкий ответ, прочитав документацию.
У меня есть Spark2 , работающий на кластере CDH 5.10 .
Также есть Улей и Метастор.
Я создаю сеанс в моей программе Spark следующим образом:
SparkSession spark = SparkSession.builder().appName("MyApp").enableHiveSupport().getOrCreate()
Предположим, у меня есть следующий запрос HiveQL:
spark.sql("SELECT someColumn FROM someTable")
Я хотел бы знать, является ли:
- под капотом этот запрос переводится в примитивы Hive MapReduce, или
- поддержка HiveQL только на синтаксическом уровне, и Spark SQL будет использоваться под капотом.
Я делаю некоторую оценку производительности, и я не знаю, должен ли я заявлять о временной производительности запросов, выполняемых с spark.sql([hiveQL query])
, относящихся к Spark или Hive.