Question

Я пытаюсь написать свою первую программу Spark, я пытаюсь объединить два файла CSV, которые являются movie.csv и rating.csv, поэтому я пишу следующую программу Spark:

from pyspark.sql import SparkSession

if __name__ == "__main__":
    spark = SparkSession\
        .builder\
        .config("spark.executor.memory", "6g")\
        .config("spark.shuffle.blockTransferService", "nio")\
        .appName("NumberOfUsers")\
        .getOrCreate()

    ra = spark.read.csv("rating.csv", header=True)
    ra.registerTempTable("rating")
    ra.show()

    mv = spark.read.csv("movie.csv", header=True)
    mv.registerTempTable("movie")
    mv.show()

    result = spark.sql("SELECT m.title, r.user_name, r.rating FROM movie m, rating r WHERE m.movieid = r.movieid AND m.director = 'Martin Brest'")
    result.show()    
    spark.stop()

Покапри запуске программы показывается следующее исключение:

An error occurred while calling o1113.showString.
: org.apache.spark.SparkException: Exception thrown in awaitResult: 
    at org.apache.spark.util.ThreadUtils$.awaitResult(ThreadUtils.scala:226)
1 more

, поэтому не могли бы вы мне помочь

Исключение SparkSQL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Исключение SparkSQL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы