Использование spark для чтения файла из amazon-efs - PullRequest
0 голосов
/ 02 февраля 2019

Я хотел бы прочитать файл, хранящийся в EFS, в фрейме данных pyspark.

Я могу прочитать файл efs, используя pandas, со следующим кодом.

filepath = '/efs-some-dir/some_folder/test.json'
temp_pandasDF = pandas.read_json(filepath)
temp_pandasDF.head()

Но когдаЯ пытаюсь прочитать данные, используя тот же путь к файлу. Я получаю сообщение об ошибке org.apache.spark.sql.AnalysisException: Path does not exist: hdfs://nameservice1/efs-some-dir/some_folder/test.json:

temp_DF = (
    spark
    .read
    .json(filepath)
)

temp_DF.show()

Я также пытался передать следующие пути к файлу в API-интерфейс spark-dataframe-reader:

file:///mnt/efs-some-dir/some_folder/test.json

file:///efs-some-dir/some_folder/test.json

оба этих аргумента пути возвращают одно и то же сообщение об ошибке: file does not exist.

Я ценю любую помощь или совет, который может предоставить любой.

Спасибо.

...