Конфигурация расположения файла главного узла PySpark - PullRequest
0 голосов
/ 27 февраля 2019

Это мои свойства конфигурации искры.Мой главный узел находится в операционной системе Linux.

spark = SparkSession.builder \
.master("spark://ip:7077") \
.appName("usres mobile related information analysis") \
.config("spark.submit.deployMode", "client") \
.config("spark.executor.memory","2g") \
.config("spark.driver.maxResultSize", "2g") \
.config("spark.executor.pyspark.memory","2g") \
.config("spark.driver.memory", "2g") \
.enableHiveSupport() \
.getOrCreate()

Но когда я пытаюсь прочитать CSV-файл из каталога loacl моего локального компьютера с помощью следующего кода,

sep_1_customer_all_info_df = spark.read\
.format("csv")\
.option("header","true")\
.option("mode", "PERMISSIVE")\
.load('report/info.csv')

Я получаю следующую ошибку, что должно бытьпричина этого и как с этим бороться?

Py4JJavaError: An error occurred while calling o672.load.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 4.0 failed 4 times, most recent failure: Lost task 0.3 in stage 4.0 (TID 19, ip, executor 0): java.io.FileNotFoundException: File file:/C:/Users/taimur.islam/Desktop/banglalink/Data Science/High Value Prediction/report/info.csv does not exist
It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved.
...