Я пытаюсь написать свою первую программу Spark, я пытаюсь объединить два файла CSV, которые являются movie.csv и rating.csv, поэтому я пишу следующую программу Spark:
from pyspark.sql import SparkSession
if __name__ == "__main__":
spark = SparkSession\
.builder\
.config("spark.executor.memory", "6g")\
.config("spark.shuffle.blockTransferService", "nio")\
.appName("NumberOfUsers")\
.getOrCreate()
ra = spark.read.csv("rating.csv", header=True)
ra.registerTempTable("rating")
ra.show()
mv = spark.read.csv("movie.csv", header=True)
mv.registerTempTable("movie")
mv.show()
result = spark.sql("SELECT m.title, r.user_name, r.rating FROM movie m, rating r WHERE m.movieid = r.movieid AND m.director = 'Martin Brest'")
result.show()
spark.stop()
Покапри запуске программы показывается следующее исключение:
An error occurred while calling o1113.showString.
: org.apache.spark.SparkException: Exception thrown in awaitResult:
at org.apache.spark.util.ThreadUtils$.awaitResult(ThreadUtils.scala:226)
1 more
, поэтому не могли бы вы мне помочь