Question

Сначала я импортировал 2 таблицы в Spark из файлов CSV, используя следующие команды:

val df = spark.read.format("csv").option("header", "true").option("mode", "DROPMALFORMED").load("/Users/Me/Downloads/T.csv")

val df = spark.read.format("csv").option("header", "true").option("mode", "DROPMALFORMED").load("/Users/Me/Downloads/I.csv")

А теперь я хочу запустить следующую команду SQL в Spark, чтобы получить результаты:

> sc
> val sqlContext = new org.apache.spark.sql.SQLContext(sc)
> val dataFrame = spark.sql("SELECT T.Name, COUNT(T.Name) FROM T JOIN I ON T.Id=I.Id GROUP BY T.Name ORDER BY COUNT DESC LIMIT 5")

Но когда я запускаю его, я получаю ошибки:

WARN  Hive:168 - Failed to access metastore. This class should not accessed in runtime.
org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
at org.apache.hadoop.hive.ql.metadata.Hive.getAllDatabases(Hive.java:1236)
at org.apache.hadoop.hive.ql.metadata.Hive.reloadFunctions(Hive.java:174)
at org.apache.hadoop.hive.ql.metadata.Hive.<clinit>(Hive.java:166)
at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:503)
at org.apache.spark.sql.hive.client.HiveClientImpl.newState(HiveClientImpl.scala:183)
at org.apache.spark.sql.hive.client.HiveClientImpl.<init>(HiveClientImpl.scala:117)

и так далее. Может кто-нибудь сказать мне, что я делаю неправильно и почему я получаю эти ошибки? Я также установил Hive отдельно. Я также читал, что я должен добавить зависимости Hive в Spark, но после часа поиска в Google не смог найти ничего об этом. Может кто-нибудь помочь мне с этим? Я не могу выполнить этот запрос SQL = /

Заранее спасибо!

kaysush · Answer 1 · 06 января 2019

Проблема в том, что при вызове метода sqlContext.sql он пытается найти таблицы в Hive Metastore. Таким образом, проблема может заключаться в том, что Hive Metastore настроен неправильно или, если это так, у вас отсутствует spark-hive зависимость.

Как только вы добавите зависимость, вы начнете получать еще одну ошибку, которая не может найти таблицы T и I, так как эти таблицы еще не существуют в метастазах. Вы просто пытаетесь загрузить файлы CSV и запрашиваете у них.

Попробуйте следующий код, чтобы исправить это

val df1 = spark.read.format("csv").option("header", "true").option("mode", "DROPMALFORMED").load("/Users/Me/Downloads/T.csv")
val df2 = spark.read.format("csv").option("header", "true").option("mode", "DROPMALFORMED").load("/Users/Me/Downloads/I.csv")
df1.regsiterTempTable("T")
df2.registerTempTable("I")

, а затем выполните запрос, который вы используете. Также я предлагаю вам использовать HiveContext вместо SQLContext, так как HiveContext имеет более широкую поддержку sql диалекта.

Выполнение SQL-запроса с использованием Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Выполнение SQL-запроса с использованием Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы