Я хотел бы прочитать файл, хранящийся в EFS, в фрейме данных pyspark.
Я могу прочитать файл efs, используя pandas, со следующим кодом.
filepath = '/efs-some-dir/some_folder/test.json'
temp_pandasDF = pandas.read_json(filepath)
temp_pandasDF.head()
Но когдаЯ пытаюсь прочитать данные, используя тот же путь к файлу. Я получаю сообщение об ошибке org.apache.spark.sql.AnalysisException: Path does not exist: hdfs://nameservice1/efs-some-dir/some_folder/test.json
:
temp_DF = (
spark
.read
.json(filepath)
)
temp_DF.show()
Я также пытался передать следующие пути к файлу в API-интерфейс spark-dataframe-reader:
file:///mnt/efs-some-dir/some_folder/test.json
file:///efs-some-dir/some_folder/test.json
оба этих аргумента пути возвращают одно и то же сообщение об ошибке: file does not exist
.
Я ценю любую помощь или совет, который может предоставить любой.
Спасибо.