Я запускаю программу PySpark в автономном кластере Spark с двумя рабочими узлами.Я не использую какую-либо распределенную файловую систему, такую как HDFS, и вместо этого я смонтировал каталог с помощью sshfs.
Для моей программы требуется каталог контрольных точек, который я смонтировал на своих рабочих узлах. Я даю путь в виде обычного пути к файлу, но он выдает ошибку, поскольку файл не найден.Есть ли способ указать смонтированный путь к каталогу в правильной форме.
Мой код:
from pyspark.sql import SparkSession
spark = SparkSession.builder.master('spark://172.16.12.200:7077').appName('new').getOrCreate()
ndf = spark.read.json("Musical_Instruments_5.json")
pd=ndf.select(ndf['asin'],ndf['overall'],ndf['reviewerID'])
spark.sparkContext.setCheckpointDir("/home/npproject/checkpoint1")
from pyspark.ml.evaluation import RegressionEvaluator
from pyspark.ml.recommendation import ALS
Моя ошибка:
Py4JJavaError: An error occurred while calling o1027.setCheckpointDir.
: java.io.FileNotFoundException: File /home/npproject/checkpoint1 /8d46ab20-6fd6-4433-9dea-9c0d94a0b92c does not exist
at org.apache.hadoop.fs.RawLocalFileSystem.deprecatedGetFileStatus(RawLocalFileSystem.java:611)