Как указать путь к подключенному каталогу sshfs по сети в автономной кластерной программе Spark - PullRequest
0 голосов
/ 11 февраля 2019

Я запускаю программу PySpark в автономном кластере Spark с двумя рабочими узлами.Я не использую какую-либо распределенную файловую систему, такую ​​как HDFS, и вместо этого я смонтировал каталог с помощью sshfs.

Для моей программы требуется каталог контрольных точек, который я смонтировал на своих рабочих узлах. Я даю путь в виде обычного пути к файлу, но он выдает ошибку, поскольку файл не найден.Есть ли способ указать смонтированный путь к каталогу в правильной форме.

Мой код:

from pyspark.sql import SparkSession

spark =  SparkSession.builder.master('spark://172.16.12.200:7077').appName('new').getOrCreate()

ndf = spark.read.json("Musical_Instruments_5.json")
pd=ndf.select(ndf['asin'],ndf['overall'],ndf['reviewerID'])


spark.sparkContext.setCheckpointDir("/home/npproject/checkpoint1")

from pyspark.ml.evaluation import RegressionEvaluator
from pyspark.ml.recommendation import ALS

Моя ошибка:

Py4JJavaError: An error occurred while calling o1027.setCheckpointDir.
: java.io.FileNotFoundException: File /home/npproject/checkpoint1   /8d46ab20-6fd6-4433-9dea-9c0d94a0b92c does not exist
at    org.apache.hadoop.fs.RawLocalFileSystem.deprecatedGetFileStatus(RawLocalFileSystem.java:611)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...