Pyspark - Требуется применить SQL запросов к фреймам данных pyspark - PullRequest
1 голос
/ 17 июня 2020

Заявление об ограничении ответственности: я новичок в pyspark, и этот вопрос может быть неуместным.

Я видел в Интернете следующий код:

# Get the id, age where age = 22 in SQL
spark.sql("select id, age from swimmers where age = 22").show()

Теперь я попробовал для поворота с помощью pyspark со следующим кодом:

complete_dataset.createOrReplaceTempView("df")
temp = spark.sql("SELECT core_id from df")

Это ошибка, которую я получаю:

'java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;'

Я подумал, что это будет просто, но я не могу найти решение. Можно ли это сделать в pyspark?

ПРИМЕЧАНИЕ. Я нахожусь в кластере EMR с помощью записной книжки Pyspark.

...